Nói chung, tôi chuẩn hóa các biến độc lập của mình theo hồi quy, để so sánh đúng các hệ số (theo cách này chúng có cùng đơn vị: độ lệch chuẩn). Tuy nhiên, với dữ liệu bảng / dọc, tôi không chắc mình nên chuẩn hóa dữ liệu của mình như thế nào, đặc biệt nếu tôi ước tính mô hình phân cấp.
Để xem tại sao nó có thể là một vấn đề tiềm ẩn, giả sử bạn có cá nhân đo dọc theo t = 1 , ... , T thời gian và bạn đo một biến phụ thuộc, y i , t và một biến độc lập x i , t . Nếu bạn chạy một hồi quy gộp hoàn chỉnh, thì bạn có thể chuẩn hóa dữ liệu của mình theo cách này: x . z = ( x - trung bình ( x ) ) / sd ( x , vì nó sẽ không thay đổi thống kê t. Mặt khác, nếu bạn phù hợp với hồi quy không phân nhánh, nghĩa là một hồi quy cho mỗi cá nhân, thì bạn chỉ nên chuẩn hóa dữ liệu của mình theo từng cá nhân, chứ không phải toàn bộ dữ liệu (theo mã R):
for (i in 1:n) {
for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,])
}
Tuy nhiên, nếu bạn phù hợp với một mô hình phân cấp đơn giản với sự can thiệp khác nhau của từng cá nhân, thì bạn đang sử dụng một công cụ ước tính độ co rút, tức là bạn đang ước tính một mô hình giữa hồi quy gộp và không phân chia. Làm thế nào tôi nên chuẩn hóa dữ liệu của tôi? Sử dụng toàn bộ dữ liệu như hồi quy gộp? Chỉ sử dụng cá nhân, như trong trường hợp không có ai?