Là một chuyển đổi nhật ký là một kỹ thuật hợp lệ để kiểm tra dữ liệu không bình thường?


19

Khi xem xét một bài báo, các tác giả nêu rõ: "Các biến kết cục liên tục thể hiện phân phối sai lệch đã được chuyển đổi, sử dụng logarit tự nhiên, trước khi các thử nghiệm t được thực hiện để đáp ứng các giả định tiên quyết về tính quy tắc."

Đây có phải là một cách có thể chấp nhận để phân tích dữ liệu không bình thường, đặc biệt nếu phân phối cơ bản không nhất thiết phải là logic?

Đây có thể là một câu hỏi rất ngu ngốc, nhưng tôi chưa thấy điều này được thực hiện trước đó ....


3
Chà, nếu phân phối ban đầu không phải là log-normal, thì dữ liệu được chuyển đổi không thỏa mãn các giả định tiên quyết về tính quy tắc, vậy điều gì đang đạt được khi chuyển đổi?
Macro

@Macro - đủ thật! (+1) - có lẽ họ chỉ muốn đưa các bản phân phối đến gần đối xứng hơn, đó không phải là điều xấu khi muốn kiểm tra t, nhưng, trừ khi họ kiểm tra và viết nó lên, chúng tôi không biết nếu nhật ký biến đổi gây ra một sai lệch tiêu cực có thể làm cho vấn đề tồi tệ hơn ...
jbowman

2
Chúng tôi có thể suy luận rằng vì nó đã được thực hiện để đáp ứng tính quy tắc và tính quy phạm được kiểm tra ngay từ đầu, nên tính quy phạm đó đã được kiểm tra sau đó. Nó mạnh mẽ tiềm ẩn trong ngôn ngữ ở đây.
Giăng

10
Thử nghiệm t cho logarit không giống như thử nghiệm t đối với dữ liệu chưa được xử lý cũng như thử nghiệm không theo dõi. Phép thử t trên nhật ký so sánh các phương tiện hình học , không phải là phương tiện số học (thông thường). Đây là một trong một số cân nhắc quan trọng trong việc quyết định xem sử dụng logarit có được chấp nhận hay không (tùy theo ứng dụng).
whuber

Câu trả lời:


9

Điều thông thường là cố gắng áp dụng một số loại chuyển đổi cho tính quy tắc (sử dụng ví dụ logarit, căn bậc hai, ...) khi gặp dữ liệu không bình thường. Mặc dù logarit mang lại kết quả tốt cho dữ liệu bị lệch một cách hợp lý thường xuyên, không có gì đảm bảo rằng nó sẽ hoạt động trong trường hợp cụ thể này. Mọi người cũng nên ghi chú @whubers ở trên khi phân tích dữ liệu đã chuyển đổi: "Thử nghiệm t cho logarit không giống như thử nghiệm t đối với dữ liệu chưa được xử lý cũng như thử nghiệm không theo dõi. Thử nghiệm t trên nhật ký so sánh hình học có nghĩa là, không phải là phương tiện số học (thông thường). "

Việc chuyển đổi thành tính quy tắc phải luôn được theo sau bởi một cuộc điều tra về giả định tính quy tắc, để đánh giá liệu dữ liệu được chuyển đổi có trông "đủ bình thường" hay không. Điều này có thể được thực hiện bằng cách sử dụng biểu đồ ví dụ, sơ đồ QQ và kiểm tra tính quy tắc. Phép thử t đặc biệt nhạy cảm với độ lệch so với tính chuẩn trong dạng xiên và do đó, phép thử đối với tính chuẩn được hướng tới các phương án thay thế sẽ tốt hơn. Độ lệch mẫu của Pearson là một thống kê kiểm tra phù hợp trong trường hợp này.n-1ΣTôi= =1n(xTôi-x¯)3(n-1ΣTôi= =1n(xTôi-x¯)2)3/2

Thay vì chọn một phép biến đổi (chẳng hạn như logarit) bởi vì nó hoạt động hầu hết thời gian, tôi thích sử dụng thủ tục Box-Cox để chọn một phép biến đổi sử dụng dữ liệu đã cho. Tuy nhiên, có một số vấn đề triết học với điều này; đặc biệt là liệu điều này có ảnh hưởng đến số bậc tự do trong thử nghiệm t hay không, vì chúng tôi đã sử dụng một số thông tin từ mẫu khi chọn sử dụng biến đổi nào.

Cuối cùng, một giải pháp thay thế tốt cho việc sử dụng thử nghiệm t sau khi chuyển đổi hoặc thử nghiệm không theo tỷ lệ cổ điển là sử dụng phép tương tự bootstrap của thử nghiệm t. Nó không yêu cầu giả định về tính quy tắc và là một thử nghiệm về các phương tiện chưa được dịch (và không phải về bất cứ điều gì khác).


1
+1 Thảo luận tốt, chu đáo với một đề xuất tốt ở cuối. Để biết thêm về phiên bản bootstrap / resampling / hoán vị của thử nghiệm t, vui lòng xem một chủ đề gần đây tại stats.stackexchange.com/q/24911 .
whuber

0

Nói chung, nếu các giả định cần thiết để thực hiện kiểm tra t không được đáp ứng, thì sẽ phù hợp hơn khi sử dụng thử nghiệm không tham số.


5
Có lẽ. Các xét nghiệm phi tham số hầu như luôn so sánh trung bình (hoặc các phân vị khác) hơn là phương tiện và do đó thực sự giải quyết một câu hỏi hơi khác. Nhưng điều này có vẻ không phải là một câu trả lời hữu ích cho câu hỏi hiện tại, mà hỏi cụ thể (và duy nhất) về việc kiểm tra nhật ký của dữ liệu.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.