Tại sao chúng ta nên sử dụng lỗi t thay vì lỗi thông thường?


30

Trong bài đăng trên blog này của Andrew Gelman, có đoạn văn sau:

Các mô hình Bayes của 50 năm trước có vẻ đơn giản vô vọng (tất nhiên, ngoại trừ các vấn đề đơn giản), và tôi hy vọng các mô hình Bayes ngày nay sẽ có vẻ đơn giản vô vọng, 50 năm sau đó. . trong chính trị, chủ nghĩa bảo thủ có nhiều lý lẽ có lợi cho nó nhưng tôi nghĩ rằng cuối cùng khi chúng ta trở nên thoải mái với các mô hình phức tạp hơn, chúng ta sẽ đi theo hướng đó.)

Tại sao chúng ta nên "thường xuyên sử dụng t thay vì các lỗi thông thường ở mọi nơi"?

Câu trả lời:


40

Bởi vì, giả sử lỗi bình thường có hiệu quả tương tự như giả định rằng lỗi lớn không xảy ra! Phân phối bình thường có đuôi rất nhẹ, các lỗi nằm ngoài độ lệch chuẩn có xác suất rất thấp, các lỗi nằm ngoài độ lệch chuẩn ± 6 thực sự không thể xảy ra. Trong thực tế, giả định đó hiếm khi đúng. Khi phân tích các bộ dữ liệu nhỏ, gọn gàng từ các thí nghiệm được thiết kế tốt, điều này có thể không quan trọng lắm, nếu chúng ta phân tích tốt các phần dư. Với dữ liệu chất lượng kém hơn, nó có thể quan trọng hơn nhiều.±3±6

Khi sử dụng các phương pháp dựa trên khả năng (hoặc bayesian), tác động của tính quy phạm này (như đã nói ở trên, đây thực sự là "không có lỗi lớn" - giả định!) Là làm cho suy luận rất ít mạnh mẽ. Kết quả phân tích bị ảnh hưởng quá nhiều bởi các lỗi lớn! Điều này phải là như vậy, vì giả sử "không có lỗi lớn" buộc các phương thức của chúng tôi phải hiểu các lỗi lớn là lỗi nhỏ và điều đó chỉ có thể xảy ra bằng cách di chuyển tham số giá trị trung bình để làm cho tất cả các lỗi nhỏ hơn. Một cách để tránh điều đó là sử dụng cái gọi là "phương pháp mạnh mẽ", xem http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

Nhưng Andrew Gelman sẽ không thực hiện điều này, vì các phương pháp mạnh mẽ thường được trình bày theo một cách rất phi thường. Sử dụng các lỗi phân phối t trong các mô hình khả năng / bayesian là một cách khác nhau để có được các phương thức mạnh mẽ, vì phân phối có đuôi nặng hơn bình thường, do đó cho phép tỷ lệ lớn hơn của các lỗi lớn. Số lượng mức độ của tham số tự do nên được cố định trước, không được ước tính từ dữ liệu, vì ước tính như vậy sẽ phá hủy các thuộc tính mạnh mẽ của phương thức (*) (đây cũng là một vấn đề rất khó, hàm khả năng cho ν , số mức độ tự do, có thể không bị ràng buộc, dẫn đến các công cụ ước tính rất không hiệu quả (thậm chí không nhất quán).tν

Ví dụ, nếu bạn nghĩ (sợ) rằng cứ 1 trong 10 quan sát có thể là "lỗi lớn" (trên 3 sd), thì bạn có thể sử dụng phân phối với 2 bậc tự do, tăng số đó nếu tỷ lệ lỗi lớn được cho là nhỏ hơn.t

Tôi nên lưu ý rằng những gì tôi đã nói ở trên là dành cho các mô hình có lỗi phân phối độc lập . Hiện cũng đã được đề nghị của đa biến t -distribution (mà không phải là độc lập) như phân phối lỗi. Propsal đó là chỉ trích nặng nề trong giấy "quần áo mới của hoàng đế: một bài phê bình của đa biến t mô hình hồi quy" của TS Breusch, JC Robertson và AH Welsh, trong Statistica Neerlandica (1997) Vol. 51, số 3, tr. 269-286, nơi họ chỉ ra rằng đa biến t phân phối lỗi là theo kinh nghiệm không thể phân biệt từ bình thường. Nhưng sự chỉ trích đó không ảnh hưởng đến mô hình t độc lập . ttttt

(*) Một tài liệu tham khảo nêu rõ điều này là MASS của Venables & Ripley --- Thống kê ứng dụng hiện đại với S (trên trang 110 trong phiên bản thứ 4).


3
νν2tνν>2

2
Câu trả lời và nhận xét tuyệt vời. Nhưng: 1. Gelman đang bảo vệ một quy trình chuẩn sẽ tốt hơn so với giả định các lỗi Bình thường. Vì vậy, chúng ta nên so sánh các lỗi đơn giản (Bình thường) với phân phối T cho các lỗi. 2. Trong câu hỏi liên quan được liên kết bởi user603, chúng ta nên lưu ý rằng nếu bạn có thông tin trước, chúng ta nên sử dụng nó. Bayes vượt trội với thông tin trước. Và trong ví dụ, chúng tôi có thông tin trước đó không được sử dụng. 3. Với kiểm tra dự đoán sau, chúng tôi d know that the model proposed isnđủ tốt.
Manoel Galdino

1
t1

1
Không, phân phối t là lựa chọn duy nhất vì phân phối t là dự báo sau của mô hình Gaussian. Gelman không chỉ chọn phân phối t một cách ngẫu nhiên.
Neil G

1
Xem: Murphy, Kevin P. "Phân tích liên hợp Bayes về phân phối Gaussian." def 1.2σ2 (2007): 16. Anh ta nhận được phân bố t là tiên đoán sau của mô hình Gaussian. Nó không chỉ đơn thuần là một trường hợp của người lập mô hình chọn phân phối đuôi nặng tùy ý.
Neil G

10

Đây không chỉ là vấn đề "đuôi nặng hơn" - có rất nhiều bản phân phối có hình chuông và có đuôi nặng.

Phân bố T là dự báo sau của mô hình Gaussian. Nếu bạn đưa ra một giả định Gaussian, nhưng có bằng chứng hữu hạn, thì mô hình kết quả nhất thiết phải đưa ra các dự đoán phân bố t không trung tâm. Trong giới hạn, vì số lượng bằng chứng bạn đã đi đến vô cùng, bạn kết thúc với các dự đoán Gaussian vì giới hạn của phân phối t là Gaussian.

Lý do tại sao điều này xảy ra? Bởi vì với một lượng bằng chứng hữu hạn, có sự không chắc chắn trong các tham số của mô hình của bạn. Trong trường hợp của mô hình Gaussian, độ không đảm bảo trong trung bình sẽ chỉ làm tăng phương sai (nghĩa là tiên đoán sau của Gaussian với phương sai đã biết vẫn là Gaussian). Nhưng sự không chắc chắn về phương sai là nguyên nhân gây ra những cái đuôi nặng nề. Nếu mô hình được đào tạo với bằng chứng không giới hạn, sẽ không còn bất kỳ sự không chắc chắn nào về phương sai (hoặc giá trị trung bình) và bạn có thể sử dụng mô hình của mình để đưa ra dự đoán Gaussian.

Đối số này áp dụng cho mô hình Gaussian. Nó cũng áp dụng cho một tham số được suy ra có khả năng là Gaussian. Cho dữ liệu hữu hạn, sự không chắc chắn về tham số được phân phối t. Bất cứ nơi nào có các giả định Bình thường (với giá trị trung bình và phương sai không xác định) và dữ liệu hữu hạn, sẽ có các dự đoán sau phân phối t.

Có các phân phối dự báo sau tương tự cho tất cả các mô hình Bayes. Gelman đang gợi ý rằng chúng ta nên sử dụng chúng. Mối quan tâm của anh ta sẽ được giảm nhẹ bằng đủ bằng chứng.


Bạn có thể sao lưu này với một số tài liệu tham khảo?
kjetil b halvorsen

2
@kjetilbhalvorsen: Murphy, Kevin P. "Phân tích liên hợp Bayes về phân phối Gaussian." def 1.2σ2 (2007): 16.
Neil G

Quan điểm thú vị, tôi chưa bao giờ nghe điều này trước đây. Vì vậy, các lỗi phân phối t cũng dẫn đến dự đoán phân phối t? Đối với tôi đây là một đối số có lợi cho việc tiếp tục sử dụng các lỗi Gaussian. Trừ khi bạn mong đợi các ngoại lệ có điều kiện , mô hình lỗi có điều kiện không cần phải cho phép chúng. Điều này dẫn đến giả định rằng tất cả các ngoại lệ đều xuất phát từ các giá trị ngoại lai của các yếu tố dự đoán. Tôi không nghĩ rằng giả định đó là rất tệ trong nhiều trường hợp. Và trên cơ sở thẩm mỹ hoàn toàn, tôi không thấy lý do tại sao các phân phối có điều kiện và cận biên phải khớp
Shadowtalker

@ssdecontrol "Các lỗi phân phối t cũng dẫn đến dự đoán phân phối t?" Tôi không biết, nhưng tôi không nghĩ vậy. Đối với tôi, quan điểm này rất hữu ích cho sự hiểu biết trực quan về lý do tại sao thử nghiệm t hoạt động.
Neil G
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.