Có phải là một thực hành tốt để chuẩn hóa dữ liệu của bạn trong hồi quy với dữ liệu bảng / dữ liệu theo chiều dọc?


16

Nói chung, tôi chuẩn hóa các biến độc lập của mình theo hồi quy, để so sánh đúng các hệ số (theo cách này chúng có cùng đơn vị: độ lệch chuẩn). Tuy nhiên, với dữ liệu bảng / dọc, tôi không chắc mình nên chuẩn hóa dữ liệu của mình như thế nào, đặc biệt nếu tôi ước tính mô hình phân cấp.

Để xem tại sao nó có thể là một vấn đề tiềm ẩn, giả sử bạn có cá nhân đo dọc theo t = 1 , ... , T thời gian và bạn đo một biến phụ thuộc, y i , t và một biến độc lập x i , t . Nếu bạn chạy một hồi quy gộp hoàn chỉnh, thì bạn có thể chuẩn hóa dữ liệu của mình theo cách này: x . z = ( x - trung bình ( x ) ) / sd ( xi=1,,nt=1,,Tyi,txi,t , vì nó sẽ không thay đổi thống kê t. Mặt khác, nếu bạn phù hợp với hồi quy không phân nhánh, nghĩa là một hồi quy cho mỗi cá nhân, thì bạn chỉ nên chuẩn hóa dữ liệu của mình theo từng cá nhân, chứ không phải toàn bộ dữ liệu (theo mã R):x.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Tuy nhiên, nếu bạn phù hợp với một mô hình phân cấp đơn giản với sự can thiệp khác nhau của từng cá nhân, thì bạn đang sử dụng một công cụ ước tính độ co rút, tức là bạn đang ước tính một mô hình giữa hồi quy gộp và không phân chia. Làm thế nào tôi nên chuẩn hóa dữ liệu của tôi? Sử dụng toàn bộ dữ liệu như hồi quy gộp? Chỉ sử dụng cá nhân, như trong trường hợp không có ai?

Câu trả lời:


10

xx2x2

x


@Frank Harrell - điểm hay về các vấn đề liên quan đến các điều kiện bạn vạch ra nhưng nếu một biến có tất cả các biến liên tục với các thang đo khác nhau thì không phải là tiêu chuẩn hóa để so sánh độ dốc?
DQdlM

1
@Frank, tôi cho rằng nó phụ thuộc vào loại mô hình bạn đang chạy, nhưng tiêu chuẩn hóa các biến dự đoán thường hữu ích. Căn giữa chúng có nghĩa là việc đánh chặn trở nên dễ hiểu khi kết quả dự đoán trung bình và tầm quan trọng tương đối của các yếu tố dự đoán khác nhau trở nên rõ ràng hơn. Tôi thường để các dự đoán nhị phân một mình, nhưng đôi khi các tùy chọn mở rộng khác đáng để xem xét. Cuối cùng, trong một số trường hợp có các yếu tố dự đoán với độ lệch chuẩn cực kỳ khác nhau có thể dẫn đến các vấn đề tính toán / hội tụ.
Michael Giám mục

2
R2χ2

1
Nếu bạn có các biến nhị phân, đừng chuẩn hóa chúng, chỉ một biến liên tục. Xem bài viết này của Gelman (< stat.columbia.edu/~gelman/research/published/st Chuẩnizing7.pdf >, đề xuất chia biến cho hai độ lệch chuẩn. Trong mọi trường hợp, nó sẽ giúp đạt được sự hội tụ nếu bạn phù hợp với mô hình Bayes.
Manoel Galdino

xx2

0

Có một sự thay thế cho tiêu chuẩn hóa để đưa các biến được đo với các thang đo khác nhau vào cùng một số liệu. Nó được gọi là Tỷ lệ mở rộng tối đa (POMS) và nó không chết với các bản phân phối đa biến khi chuyển đổi z có xu hướng làm.

Todd Little rõ ràng đề xuất POMS về tiêu chuẩn hóa z trong cuốn sách của ông về mô hình phương trình cấu trúc theo chiều dọc. Chuyển đổi Z đi kèm với các vấn đề bổ sung khi xử lý dữ liệu theo chiều dọc, xem tại đây: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.