Thể hiện câu trả lời theo đơn vị gốc, trong dữ liệu được chuyển đổi Box-Cox


13

Đối với một số phép đo, kết quả phân tích được trình bày phù hợp trên thang đo được chuyển đổi. Tuy nhiên, trong hầu hết các trường hợp, mong muốn trình bày kết quả theo thang đo ban đầu (nếu không thì công việc của bạn ít nhiều không có giá trị).

Ví dụ, trong trường hợp dữ liệu được chuyển đổi nhật ký, một vấn đề về diễn giải trên thang đo ban đầu phát sinh do giá trị trung bình của các giá trị được ghi không phải là nhật ký của giá trị trung bình. Lấy biểu đồ của ước tính giá trị trung bình trên thang đo log không đưa ra ước tính về giá trị trung bình trên thang đo ban đầu.

Tuy nhiên, nếu dữ liệu được chuyển đổi nhật ký có phân phối đối xứng, các mối quan hệ sau sẽ được giữ (vì nhật ký bảo toàn thứ tự):

Nghĩa là[đăng nhập(Y)]= =Trung bình[đăng nhập(Y)]= =đăng nhập[Trung bình(Y)]

(antimonarithm của giá trị trung bình của các giá trị log là trung vị trên thang đo ban đầu).

Vì vậy, tôi chỉ có thể suy luận về sự khác biệt (hoặc tỷ lệ) của các trung vị trên thang đo ban đầu.

Các thử nghiệm t hai mẫu và khoảng tin cậy là đáng tin cậy nhất nếu các quần thể gần như bình thường với độ lệch chuẩn xấp xỉ, do đó chúng tôi có thể sử dụng Box-Coxphép biến đổi cho giả định quy tắc để giữ (tôi cũng nghĩ rằng đó cũng là một biến đổi ổn định phương sai ).

Tuy nhiên, nếu chúng ta áp dụng các công cụ t cho Box-Coxdữ liệu được chuyển đổi, chúng ta sẽ có những suy luận về sự khác biệt về phương tiện của dữ liệu được chuyển đổi. Làm thế nào chúng ta có thể giải thích những người trên thang đo ban đầu? (Giá trị trung bình của các giá trị được chuyển đổi không phải là giá trị trung bình được chuyển đổi). Nói cách khác, lấy biến đổi nghịch đảo của ước tính giá trị trung bình, trên thang đo được chuyển đổi, không đưa ra ước tính về giá trị trung bình trên thang đo ban đầu.

Tôi cũng có thể suy luận về các trung vị trong trường hợp này không? Có một sự chuyển đổi nào sẽ cho phép tôi quay trở lại các phương tiện (trên quy mô ban đầu) không?

Câu hỏi này ban đầu được đăng dưới dạng một bình luận ở đây

Câu trả lời:


11

Nếu bạn muốn suy luận cụ thể về giá trị trung bình của biến ban đầu, thì đừng sử dụng phép biến đổi Box-Cox. Các phép biến đổi IMO Box-Cox hữu ích nhất khi biến được biến đổi có cách hiểu riêng và phép biến đổi Box-Cox chỉ giúp bạn tìm ra thang đo phù hợp để phân tích - điều này thường xảy ra một cách đáng ngạc nhiên. Hai số mũ bất ngờ mà tôi tìm thấy theo cách này là 1/3 (khi biến phản ứng là thể tích bàng quang) và -1 (khi biến phản ứng là hơi thở mỗi phút).

Chuyển đổi log có lẽ là ngoại lệ duy nhất cho điều này. Giá trị trung bình trên thang đo log tương ứng với giá trị trung bình hình học trong thang đo ban đầu, ít nhất là một đại lượng được xác định rõ.


Vâng, bạn cũng có ngoại lệ khác. -1 tương ứng với trung bình điều hòa, ...
Kjetil b Halvorsen

9

Nếu phép biến đổi Box - Cox mang lại phân phối đối xứng, thì giá trị trung bình của dữ liệu được chuyển đổi sẽ được chuyển đổi trở lại trung vị theo thang đo ban đầu. Điều này đúng với mọi phép biến đổi đơn điệu, bao gồm các phép biến đổi Box-Cox, phép biến đổi IHS, v.v ... Vì vậy, suy luận về các phương tiện trên dữ liệu được chuyển đổi tương ứng với các suy luận về trung vị trên thang đo ban đầu.

Vì dữ liệu ban đầu bị sai lệch (hoặc bạn sẽ không sử dụng phép chuyển đổi Box-Cox ở vị trí đầu tiên), tại sao bạn muốn suy luận về phương tiện? Tôi đã nghĩ rằng làm việc với trung bình sẽ có ý nghĩa hơn trong tình huống này. Tôi không hiểu tại sao điều này được coi là một "vấn đề với việc giải thích trên quy mô ban đầu".


λ

Cảm ơn bạn. Có lẽ bởi vì mẫu (từ một dân số mà tôi nghĩ rằng nó nên tuân theo phân phối đối xứng xấp xỉ) có thể chỉ tình cờ bị sai lệch.
George Dontas

4
Một ví dụ điển hình về nhu cầu suy luận về các phương tiện, bất kể là gì, được cung cấp bởi một số đánh giá rủi ro môi trường. Để đơn giản hóa rất nhiều, hãy tưởng tượng bạn đang có kế hoạch phát triển đất thành công viên. Bạn kiểm tra đất cho một số hợp chất đáng quan tâm và, như thường lệ, tìm thấy nồng độ của nó được phân phối một cách hợp lý. Tuy nhiên, những người sử dụng công viên - những người có thể trực tiếp tiếp xúc với các loại đất này - sẽ "lấy mẫu" đất một cách ngẫu nhiên khi họ di chuyển xung quanh. Sự tiếp xúc của chúng theo thời gian sẽ là nồng độ trung bình số học, không phải là trung bình hình học của nó.
whuber

1
Đôi khi chúng ta quan tâm đến các vấn đề xuất phát từ các công thức của tổng số lượng của một cái gì đó. Nếu bạn biết giá trị trung bình, bạn có thể đi từ giá trị trung bình đến tổng (nhân với số lượng quan sát). Không có cách nào để đi từ trung bình đến tổng số!
George Dontas

6

Nếu bạn muốn suy luận về các phương tiện trên thang đo ban đầu, bạn có thể xem xét sử dụng suy luận không sử dụng giả định quy tắc.

Hãy cẩn thận, tuy nhiên. Chỉ đơn giản là cắm qua so sánh trực tiếp các phương tiện thông qua việc lấy mẫu lại (kiểm tra hoán vị hoặc bootstrapping) khi hai mẫu có phương sai khác nhau có thể là một vấn đề nếu phân tích của bạn giả định phương sai bằng nhau (và phương sai bằng nhau trên thang đo được biến đổi sẽ là phương sai khác nhau trên thang đo ban đầu nếu phương tiện khác nhau). Những kỹ thuật như vậy không tránh khỏi sự cần thiết phải suy nghĩ về những gì bạn đang làm.

f(x+h)t[μ+(Y-μ)]Yμσ2t()

t(μ)

-

Trường hợp dễ nhất là khi bạn có tính quy tắc trên thang đo log, và do đó là một logic bất thường trên thang đo ban đầu. Nếu phương sai của bạn được biết đến (điều này rất hiếm khi xảy ra), bạn có thể xây dựng các TCTD và PI bất thường theo thang đo ban đầu và bạn có thể đưa ra một giá trị trung bình dự đoán từ giá trị trung bình của phân phối số lượng có liên quan.

tt

Bạn cần suy nghĩ rất kỹ về chính xác câu hỏi nào bạn đang cố gắng trả lời.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.