Chuyển đổi phân phối cực kỳ sai lệch


13

Giả sử rằng tôi có một biến có phân phối bị lệch dương ở mức độ rất cao, như vậy việc lấy nhật ký sẽ không đủ để đưa nó vào trong phạm vi sai lệch cho phân phối bình thường. Lựa chọn của tôi tại thời điểm này là gì? Tôi có thể làm gì để biến đổi biến thành phân phối bình thường?


2
Chỉ để chắc chắn, "xiên âm" có nghĩa là cái đuôi dài chỉ sang trái hay phải? Nếu nó thực sự bị lệch một cách tiêu cực (đuôi dài bên trái), chuyển đổi log sẽ không hoạt động tốt.
Penguin_Knight

6
Biến đổi đối ứng mạnh hơn logarit và thường bảo tồn ý nghĩa, vì các đơn vị đo lường chỉ là đảo ngược. Ví dụ, đối ứng của thời gian để làm một cái gì đó là một loại tốc độ, và ngược lại. Nghịch đảo của dặm cho mỗi gallon hoặc km mỗi lít có ý nghĩa. Đối ứng đảo ngược thứ tự và có thể được phủ định nếu điều đó là thích hợp. Chúng tự nhiên là một phần của sơ đồ Box-Cox với chi tiết bổ sung đó. Tất cả các giá trị nên tích cực để điều này hoạt động tốt. (Về nguyên tắc, nó sẽ hoạt động với tất cả các giá trị âm, nhưng tôi chưa thấy một ví dụ nào trong thực tế.)
Nick Cox

2
@Aksakal Tôi không thể xem là một ý tưởng hay. Kết quả chỉ có ý nghĩa thống kê cho các giá trị > 1 . Nếu các giá trị là số đếm, thì một biến đổi không được xác định là 0 hoặc 1, bất kể các giá trị đó có xảy ra trong dữ liệu hay không. Nếu các giá trị là các phép đo thì hạn chế có nghĩa là tính hợp lệ của phép biến đổi phụ thuộc vào việc lựa chọn đơn vị đo, điều này là vô lý, vì nếu không thể thực hiện được ln ( ln ( 0.7 ) ) vì tôi sử dụng cm, nhưng ln ( ln ( ln ( ln ( ln) 7 ) )ln(ln())>1ln(ln(0,7))ln(ln(7))có thể được thực hiện bởi vì tôi sử dụng mm. (Các logarit đó mang lại kết quả phức tạp cho các đối số phủ định mà tôi không nghĩ sẽ giúp thống kê.)
Nick Cox

2
@Aksakal Quá mạnh để nói "chuyển đổi log không phải là một công cụ để chữa trị sự sai lệch": nếu độ lệch là vấn đề duy nhất, nhật ký thường hoạt động rất tốt. Nếu quan điểm của bạn là sự sai lệch của phân phối biên không cần phải là vấn đề lớn, tôi có xu hướng đồng ý.
Nick Cox

3
Tôi tự nhiên đồng ý, nhưng nếu tôi sử dụng hình vuông hoặc logarit, tôi sẽ không cảm thấy bắt buộc phải cung cấp tài liệu tham khảo, và tương tự ở đây. Nhưng tính hữu ích của các đối ứng, đặc biệt là thời gian và tốc độ, đã được nhấn mạnh bởi (ví dụ) Tukey, JW 1977. Phân tích dữ liệu thăm dò. Đọc, MA: Addison-Wesley và trong một số bài viết của mình. Dặm cho mỗi gallon và gallon cho mỗi dặm (hoặc lít ngược lại mỗi km và km mỗi lít) là nơi phổ biến ở các cuộc thảo luận của dữ liệu hiệu suất xe. Mật độ và đối ứng của chúng là những ví dụ khá chuẩn trong địa lý và nhân khẩu học.
Nick Cox

Câu trả lời:


13

λ

Thật dễ dàng để thực hiện nó có chức năng LL hoặc nếu bạn có gói stat như SAS hoặc MATLAB, hãy sử dụng các lệnh của họ: đó là lệnh boxcox trong MATLAB và PROC TRANSREG trong SAS.

Ngoài ra, trong R, đây là trong gói MASS, hàm boxcox ().


5

Đối với độ nghiêng dương (đuôi nằm ở đầu dương của trục x), có phép biến đổi căn bậc hai, phép biến đổi log và phép biến đổi nghịch đảo / nghịch đảo (theo thứ tự tăng dần mức độ nghiêm trọng). Do đó, nếu chuyển đổi nhật ký là không đủ, bạn có thể sử dụng cấp độ chuyển đổi tiếp theo. Box Cox tự động chạy tất cả các biến đổi để bạn có thể chọn cái tốt nhất.


-5

Hầu hết các bộ phần mềm sẽ sử dụng số của Euler làm cơ sở nhật ký mặc định, AKA: nhật ký tự nhiên. Bạn có thể sử dụng số cơ sở cao hơn để khôi phục dữ liệu sai lệch quá mức. Cách bạn thực hiện theo cú pháp phụ thuộc vào phần mềm bạn đang sử dụng.

Nếu bạn cần lấy lại các giá trị đã chuyển đổi của mình sau khi ước tính được thực hiện, có thể sử dụng phương pháp này dễ dàng hơn một chút vì tất cả những gì bạn phải làm là thực hiện một toán tử hàm mũ trên biến của bạn với bất kỳ cơ sở nhật ký nào của bạn.


6
e
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.