Làm thế nào để chuyển đổi Box-Cox hợp lệ?


8

Phép biến đổi Box-Cox biến đổi dữ liệu của chúng ta thành một bản phân phối bình thường.

Làm thế nào mà thậm chí là một kỹ thuật thích hợp? Điều gì xảy ra nếu dữ liệu của chúng tôi không đến từ một phân phối bình thường? Làm thế nào một người nào đó có thể áp dụng một cách mù quáng việc chuyển đổi Box-Cox?

Để diễn đạt lại cụm từ: tại sao áp dụng chuyển đổi Box-Cox nếu dữ liệu của chúng tôi không được phân phối bình thường?

Là phép chuyển đổi Box-Cox được sử dụng khi dữ liệu của chúng ta NÊN được phân phối bình thường, nhưng không phải vậy?


Lưu ý rằng các mô hình (trong hồi quy / anova), Box-Cox biến đổi đồng nhất hóa phương sai nhiều hơn, xem thống kê.stackexchange.com/questions/310003/ từ
kjetil b halvorsen

3
Một cách rõ ràng tôi không phải là Ngài David Cox, cũng không liên quan đến anh ta, nhưng tôi cảm thấy đau đớn đặc biệt khi Cox không nhận được chữ hoa C và hầu như đau đớn với Box.
Nick Cox

Câu trả lời:


19

Một tuyên bố và sáu câu hỏi ở đây.

Nhưng trước tiên, thay mặt cho tên ở khắp mọi nơi và lịch sử thống kê tiếp tục, xin lưu ý rằng tên được đặt đúng "Box-Cox" là tiêu chuẩn.

Phép biến đổi Box-Cox biến đổi dữ liệu của chúng ta thành một bản phân phối bình thường.

Nhiều nhất, đó là mục tiêu. Nó không thể luôn luôn đạt được, thậm chí xấp xỉ. Ví dụ, một bản phân phối thực chất là một loạt các gai không thể biến thành bất cứ thứ gì ngoại trừ một loạt các gai khác.

Làm thế nào mà thậm chí là một kỹ thuật thích hợp?

Ngược lại, theo nghĩa nào thì nó không đúng? Ý tưởng chung về chuyển đổi là có thể dễ dàng hơn để xem và phân tích những gì đang xảy ra trên thang đo được chuyển đổi, trong khi cụ thể có nhiều kỹ thuật mà một số phép tính gần đúng với (các) phân phối bình thường, nếu không phải là điều kiện được coi là đúng , như thường được nêu, sau đó ít nhất là điều kiện tương đối lý tưởng để tóm tắt và suy luận. Lưu ý rằng các mô hình tuyến tính tổng quát mượn ý tưởng phù hợp trên thang đo được chuyển đổi mà không thực sự bắt buộc chuyển đổi biến trả lời.

Điều gì xảy ra nếu dữ liệu của chúng tôi không đến từ một phân phối bình thường?

Không rõ câu đố ở đây là gì. Chính xác là khi dữ liệu không được phân phối bình thường mà câu hỏi liệu có sự chuyển đổi đơn giản thành tính quy tắc hay không.

Làm thế nào một người nào đó có thể áp dụng một cách mù quáng việc chuyển đổi Box-Cox?

Như trên. Một số người áp dụng một cách mù quáng mọi kỹ thuật thống kê họ sử dụng và những người thống kê có xu hướng không tán thành điều đó hơn là chấp thuận. Đồng thời, cuộc sống rất ngắn ngủi và có yếu tố tin tưởng vào hầu hết việc sử dụng kỹ thuật, vì không ai có thể rút ra và biện minh cho mọi việc họ làm.

Các câu hỏi khác trông giống như các câu hỏi tương tự, hoặc nếu không tôi thiếu sắc thái. Nhưng đến lượt tôi sẽ lặp lại những gì dường như với tôi một chìa khóa đơn giản: phân phối bình thường thường là một lý tưởng, nhưng nhiều kỹ thuật hoạt động tốt ngay cả khi lý tưởng đó không được thỏa mãn.

Ở khoảng cách này, những đóng góp chính của công thức Box-Cox từ năm 1964 đối với tôi là

  1. Ý tưởng rằng chính dữ liệu sẽ cho bạn biết phép biến đổi nào gần như phù hợp nhất. (Chúng ta nên nói thêm rằng đôi khi không có phép biến đổi nào đủ để có giá trị áp dụng.) Box và Cox đã chính thức hóa sự lựa chọn chuyển đổi theo hướng dữ liệu theo nhiều cách khác nhau, nhưng điểm quan trọng là mặc nhiên hoặc rõ ràng để thử các biến đổi khác nhau một cách có hệ thống. (Tất cả quá thường xuyên, tìm kiếm chuyển đổi dường như bị đâm trong bóng tối, như khi mọi người nói với bạn rằng họ đã thử logarit và bình phương, nhưng không có gì hoạt động.)

  2. Ý tưởng rằng hầu hết các biến đổi được sử dụng, đặc biệt là các biến đo tích cực hoặc biến được tính, thuộc về một gia đình không chỉ bao gồm các quyền hạn mà còn cả logarit. Ý tưởng này cũng đã được nhấn mạnh rộng rãi trước đó, đáng chú ý là Tukey (1957), người có bài báo khá kỳ lạ không được Box và Cox trích dẫn, nhưng công thức của Box và Cox, tiếp theo là công việc sau này của Tukey, dường như đã thành công hơn trong việc phổ biến ý tưởng của một gia đình. Như vừa nêu, nhấn mạnh vào sự lựa chọn từ một gia đình làm cho ý tưởng về sự lựa chọn chuyển đổi trở nên có hệ thống hơn, và ít quảng cáo hơn. Lưu ý rằng Box-Cox là chỉ định, không chỉ huy, về quyết định nên là gì. Trong các ví dụ hoạt động của riêng họ, họ chọn logarit và biến đổi đối ứng, do đó làm tròn các quyền hạn được đưa ra bởi thủ tục ước tính của họ. Thật vậy, cả hai ví dụ đều thuộc loại mà các nhà phân tích có kinh nghiệm sẽ chọn cách chuyển đổi giống nhau bất kỳ cách nào trước bài báo của họ.

Box, GEP và Cox, DR 1964. Phân tích các phép biến đổi. Tạp chí của Hiệp hội Thống kê Hoàng gia B 26: 211 Ảo252.

Tukey, JW 1957. Về giải phẫu so sánh các biến đổi. Biên niên sử thống kê toán học 28, 602-632. doi: 10.1214 / aoms / 1177706875. http://projecteuclid.org/euclid.aoms/1177706875 .


tốt đẹp, phản ứng rất tốt! Vì vậy, khi dữ liệu bị sai lệch nhưng trông bình thường: hộp cox hoặc chuyển đổi nhật ký sẽ hoạt động.

2
Cảm ơn sự đánh giá cao, nhưng ý kiến ​​của bạn rất khó hiểu. Không có gì đảm bảo với Box-Cox, hoặc nhiều thứ khác. "Xiên nhưng trông bình thường": không biết chính xác ý bạn là gì; Box-Cox có thể hoạt động với các bản phân phối sai lệch cao (đối ứng và sức mạnh tiêu cực cao hơn là các biến đổi rất mạnh). Box-Cox bao gồm chuyển đổi logarit; logarit không khác nhau. Box-Cox sẽ là "một điều khủng khiếp phải làm" nếu dữ liệu không bình thường: điều này đã được giải quyết trong câu trả lời. Nếu dữ liệu là bình thường, Box-Cox sẽ không cần thiết. Áp dụng cho các bản phân phối không bình thường là toàn bộ điểm.
Nick Cox

1
Tôi cũng sẽ thêm rằng Box-Cox thường được sử dụng để đối phó với phương sai không cố định.
Aksakal

1
@Aksakal Tôi thấy đó là một ví dụ về lợi ích ngẫu nhiên của các phép biến đổi: một phép biến đổi giúp cải thiện hành vi theo một nghĩa khác thường cải thiện nó theo nghĩa khác: ví dụ, nếu bạn thực sự may mắn, lấy logarit, có thể thúc đẩy sự gần đúng với tính chuẩn tắc, tuyến tính và đồng đẳng. Nhưng không có gì được đảm bảo: đối với số lượng, log, root và biến đổi ở giữa có những đức tính khác nhau. Tôi không biết rằng ý thức nghiêm ngặt của Box-Cox áp dụng cho các quy trình chuỗi thời gian hoặc ngẫu nhiên. Nếu bạn có tài liệu tham khảo hoặc tranh luận khác, xin vui lòng cung cấp cho họ.
Nick Cox

1
@CliffAB "mục tiêu [...] không thể luôn luôn đạt được, thậm chí xấp xỉ" "Lưu ý rằng Box-Cox là chỉ định, không chỉ huy, về quyết định nên là gì." Vì vậy, tôi không nghĩ rằng điều này vượt qua kỹ thuật. Chắc chắn, những gì khác là chính xác lặp lại với một nghiên cứu mới?
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.