Chuyển đổi log sẽ luôn giảm thiểu sự không đồng nhất?


7

Chuyển đổi log sẽ luôn giảm thiểu sự không đồng nhất? Bởi vì sách giáo khoa nói rằng chuyển đổi nhật ký thường làm giảm tính không đồng nhất. Vì vậy, tôi muốn biết trong trường hợp nào nó sẽ không làm giảm tính không đồng nhất.


4
Bắt đầu với bất kỳ dữ liệu homoscedastic. Áp dụng một logarit. Rõ ràng là nó không thể có được bất kỳ ít dị vòng , vì vậy hãy xem. Sử dụng bất kỳ dữ liệu nào bạn thích.
whuber


5
Nếu phương sai lỗi của bạn tỷ lệ thuận với mức độ của biến, thì biến đổi nhật ký có thể giúp ích. Nó không phải là Aspirin của sự biến đổi, nó không chữa được mọi thứ
Aksakal 23/03/18

Câu trả lời:


16

Không; đôi khi nó sẽ làm cho nó tồi tệ hơn

Độ không đồng nhất trong đó mức chênh lệch tỷ lệ thuận với giá trị trung bình có điều kiện sẽ có xu hướng được cải thiện bằng cách lấy log (y), nhưng nếu nó không tăng với giá trị gần với tốc độ đó (hoặc hơn), thì độ không đồng nhất thường sẽ bị tệ hơn bởi sự biến đổi đó.

biểu đồ của hai tập dữ liệu, một tập hợp có tỷ lệ lan truyền theo tỷ lệ trung bình, cho thấy sự cải thiện khi lấy log (y) và tập thứ hai theo cách khác, điều này trở nên tồi tệ hơn sau khi ghi nhật ký

Bởi vì việc ghi nhật ký "kéo theo" các giá trị cực đoan hơn ở bên phải (giá trị cao), trong khi các giá trị ở phía bên trái (giá trị thấp) có xu hướng bị kéo dài trở lại:

nhập mô tả hình ảnh ở đây

điều này có nghĩa là chênh lệch sẽ trở nên nhỏ hơn nếu các giá trị lớn nhưng có thể bị kéo dài nếu các giá trị này đã nhỏ.


Nếu bạn biết dạng gần đúng của độ không đồng nhất, thì đôi khi bạn có thể tìm ra một phép biến đổi sẽ làm cho phương sai không đổi. Điều này được gọi là một biến đổi ổn định phương sai ; nó là một chủ đề tiêu chuẩn trong thống kê toán học. Có một số bài đăng trên trang web của chúng tôi liên quan đến các biến đổi ổn định phương sai.

Nếu mức chênh lệch tỷ lệ với căn bậc hai của giá trị trung bình (phương sai tỷ lệ với giá trị trung bình), thì một phép biến đổi căn bậc hai - phép biến đổi ổn định phương sai cho trường hợp đó - sẽ có xu hướng làm tốt hơn nhiều so với chuyển đổi log; chuyển đổi log không "quá nhiều" trong trường hợp đó. Trong âm mưu thứ hai, chúng ta có mức giảm lan truyền khi giá trị trung bình tăng, và sau đó lấy các bản ghi hoặc căn bậc hai sẽ làm cho nó tồi tệ hơn. (Hóa ra công suất 1.5 thực sự hoạt động khá tốt trong việc ổn định phương sai trong trường hợp đó.)


(+1) Nhưng có lẽ sẽ giúp cụ thể hơn một chút khi bạn nói "Sự không đồng nhất trong đó mức độ lây lan gần với tỷ lệ có nghĩa là ...", để làm rõ liệu bạn có ý nghĩa về "thang đo bình phương" ( phương sai) hoặc quy mô ban đầu (SD bất cứ điều gì), như bạn đã làm rõ một chút sau đó cho chuyển đổi căn bậc hai
Silverfish

@silv Cảm ơn. Trong tâm trí tôi không mơ hồ liệu từ lan truyền có liên quan đến các đơn vị gốc của đơn vị X hay bình phương - với tôi nó chỉ là đơn vị gốc. Tuy nhiên, nó có thể đề cập đến bất kỳ thước đo phổ biến nào về mức độ lan truyền của các điểm (độ lệch trung bình, IQR, độ lệch tuyệt đối trung vị, sd, v.v.). Để bao gồm những thứ như phương sai tôi đã nói "phân tán" thay vì lan truyền. Tuy nhiên, rõ ràng người khác có thể mang những hiểu biết khác với tôi. Bạn có biết một từ khác chỉ đề cập đến các thước đo khoảng cách điển hình giữa các quan sát mà tôi có thể thay thế ở vị trí của nó không? ... ctd
Glen_b -Reinstate Monica

Ctd ... Tôi muốn tránh viết một bài luận mỗi khi tôi muốn đề cập đến khái niệm đó, nó quá khó để theo dõi, tôi thực sự muốn một thời gian ngắn. Bạn có nghĩ rằng tôi có thể nói "quy mô"?
Glen_b -Reinstate Monica

1
Ban đầu tôi đã viết "SD hoặc IQR hoặc bất cứ điều gì" (sau đó quản lý để xóa một số điều đó để đưa nó vào "SD bất cứ điều gì") vì vậy tôi hiểu vấn đề! Tôi thực sự nghĩ rằng một tuyên bố rõ ràng có giá trị một vài từ ở đây, vì những sai lầm về "phương sai tỷ lệ thuận với nghĩa" có thể dễ dàng được tìm thấy ở nơi khác. Có lẽ tôi đã né tránh "thang đo" vì mức độ khó của chủ đề khá xuất hiện trong các khóa học thống kê / kinh tế lượng ứng dụng, trong khi khái niệm "thang đo" thì trừu tượng hơn và lần đầu tiên có thể xuất hiện trong một khóa học lý thuyết cao hơn.
Cá bạc

2

Theo kinh nghiệm của tôi, khi dữ liệu có dạng 'hình nón' và bị lệch (lognormally hoặc cách khác), chuyển đổi log là hữu ích nhất (xem bên dưới). Loại dữ liệu này thường phát sinh từ dân cư, ví dụ người dùng hệ thống, nơi sẽ có một lượng lớn người dùng không thường xuyên và một lượng nhỏ người dùng thường xuyên.

Đây là một ví dụ về một số dữ liệu hình nón:

x1 <- rlnorm(500,mean=2,sd=1.3)
x2 <- rlnorm(500,mean=2,sd=1.3)
y <- 2*x1+x2
z <- 2*x2+x1

#regression of unlogged values

fit <- lm(z ~ y)
plot(y,z,main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)

nhập mô tả hình ảnh ở đây

Lấy nhật ký của cả y và z sẽ cho:

#regression of logged values

fit <- lm(log(z) ~ log(y))
plot(log(y),log(z),main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)

nhập mô tả hình ảnh ở đây

Hãy nhớ rằng thực hiện hồi quy trên dữ liệu đã ghi sẽ thay đổi dạng phương trình phù hợp từ sang (hoặc cách khác là ).y=ax+blog(y)=alog(x)+by=xaeb

Ngoài kịch bản này, tôi sẽ nói rằng sẽ không bao giờ đau lòng khi thử vẽ biểu đồ dữ liệu đã ghi, ngay cả khi nó không làm cho phần dư trở nên đồng nhất hơn. Nó thường tiết lộ chi tiết bạn sẽ không nhìn thấy hoặc phát tán / xóa dữ liệu theo cách hữu ích

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.