Chuyển đổi log sẽ luôn giảm thiểu sự không đồng nhất? Bởi vì sách giáo khoa nói rằng chuyển đổi nhật ký thường làm giảm tính không đồng nhất. Vì vậy, tôi muốn biết trong trường hợp nào nó sẽ không làm giảm tính không đồng nhất.
Chuyển đổi log sẽ luôn giảm thiểu sự không đồng nhất? Bởi vì sách giáo khoa nói rằng chuyển đổi nhật ký thường làm giảm tính không đồng nhất. Vì vậy, tôi muốn biết trong trường hợp nào nó sẽ không làm giảm tính không đồng nhất.
Câu trả lời:
Không; đôi khi nó sẽ làm cho nó tồi tệ hơn
Độ không đồng nhất trong đó mức chênh lệch tỷ lệ thuận với giá trị trung bình có điều kiện sẽ có xu hướng được cải thiện bằng cách lấy log (y), nhưng nếu nó không tăng với giá trị gần với tốc độ đó (hoặc hơn), thì độ không đồng nhất thường sẽ bị tệ hơn bởi sự biến đổi đó.
Bởi vì việc ghi nhật ký "kéo theo" các giá trị cực đoan hơn ở bên phải (giá trị cao), trong khi các giá trị ở phía bên trái (giá trị thấp) có xu hướng bị kéo dài trở lại:
điều này có nghĩa là chênh lệch sẽ trở nên nhỏ hơn nếu các giá trị lớn nhưng có thể bị kéo dài nếu các giá trị này đã nhỏ.
Nếu bạn biết dạng gần đúng của độ không đồng nhất, thì đôi khi bạn có thể tìm ra một phép biến đổi sẽ làm cho phương sai không đổi. Điều này được gọi là một biến đổi ổn định phương sai ; nó là một chủ đề tiêu chuẩn trong thống kê toán học. Có một số bài đăng trên trang web của chúng tôi liên quan đến các biến đổi ổn định phương sai.
Nếu mức chênh lệch tỷ lệ với căn bậc hai của giá trị trung bình (phương sai tỷ lệ với giá trị trung bình), thì một phép biến đổi căn bậc hai - phép biến đổi ổn định phương sai cho trường hợp đó - sẽ có xu hướng làm tốt hơn nhiều so với chuyển đổi log; chuyển đổi log không "quá nhiều" trong trường hợp đó. Trong âm mưu thứ hai, chúng ta có mức giảm lan truyền khi giá trị trung bình tăng, và sau đó lấy các bản ghi hoặc căn bậc hai sẽ làm cho nó tồi tệ hơn. (Hóa ra công suất 1.5 thực sự hoạt động khá tốt trong việc ổn định phương sai trong trường hợp đó.)
Theo kinh nghiệm của tôi, khi dữ liệu có dạng 'hình nón' và bị lệch (lognormally hoặc cách khác), chuyển đổi log là hữu ích nhất (xem bên dưới). Loại dữ liệu này thường phát sinh từ dân cư, ví dụ người dùng hệ thống, nơi sẽ có một lượng lớn người dùng không thường xuyên và một lượng nhỏ người dùng thường xuyên.
Đây là một ví dụ về một số dữ liệu hình nón:
x1 <- rlnorm(500,mean=2,sd=1.3)
x2 <- rlnorm(500,mean=2,sd=1.3)
y <- 2*x1+x2
z <- 2*x2+x1
#regression of unlogged values
fit <- lm(z ~ y)
plot(y,z,main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)
Lấy nhật ký của cả y và z sẽ cho:
#regression of logged values
fit <- lm(log(z) ~ log(y))
plot(log(y),log(z),main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)
Hãy nhớ rằng thực hiện hồi quy trên dữ liệu đã ghi sẽ thay đổi dạng phương trình phù hợp từ sang (hoặc cách khác là ).
Ngoài kịch bản này, tôi sẽ nói rằng sẽ không bao giờ đau lòng khi thử vẽ biểu đồ dữ liệu đã ghi, ngay cả khi nó không làm cho phần dư trở nên đồng nhất hơn. Nó thường tiết lộ chi tiết bạn sẽ không nhìn thấy hoặc phát tán / xóa dữ liệu theo cách hữu ích