Những phương pháp phi Bayes nào dành cho suy luận tiên đoán?


22

Trong suy luận Bayes, một phân phối dự đoán cho dữ liệu trong tương lai được lấy bằng cách tích hợp các tham số chưa biết; tích hợp trên phân phối sau của các tham số đó cung cấp phân phối dự báo sau, một phân phối cho dữ liệu có điều kiện trong tương lai trên những tham số đã được quan sát. Những phương pháp phi Bayes nào cho suy luận dự đoán là có tính đến độ không đảm bảo trong các ước tính tham số (nghĩa là không chỉ cắm các ước tính khả năng tối đa hoặc bất cứ điều gì trở lại vào hàm mật độ)?

Mọi người đều biết cách tính các khoảng dự đoán sau hồi quy tuyến tính, nhưng các nguyên tắc đằng sau phép tính là gì và làm thế nào để áp dụng chúng trong các tình huống khác (ví dụ: tính một khoảng dự đoán chính xác cho một biến thiên hàm mũ mới sau khi ước tính tham số tỷ lệ từ dữ liệu)?


6
Tôi nghĩ rằng đây là một câu hỏi hay và tôi muốn cung cấp ít nhất một câu trả lời một phần, nhưng có lẽ tôi sẽ không có thời gian để thực hiện công lý trong một thời gian ... vì vậy bây giờ tôi sẽ gắn bó với điều này .
Glen_b -Reinstate Monica

3
@ DavidC.Norris Tôi không thấy lý do tại sao người ta cần phải khẳng định rằng có nhất thiết phải có bất kỳ nguồn không chắc chắn tham số nào khác ngoài điều đó (suy luận dự đoán sẽ cần phải tính đến cả điều đó và sự biến thiên ngẫu nhiên trong chính quá trình). Điều đó tự nó là không cần thiết ngay cả trong các ví dụ khá cơ bản - ví dụ, cố gắng tạo ra các khoảng dự đoán cho một tổng số dự đoán từ hồi quy nhị thức Poisson hoặc âm. Người ta cũng không cần phải là người Bayes để cho rằng có sự khác biệt về tham số giữa các loại (như người ta đã sử dụng mô hình hỗn hợp cho).
Glen_b -Reinstate Monica

2
@ DavidC.Norris: Tôi đã hỏi về các phương pháp không thuộc Bayes đơn giản vì việc tính toán phân phối dự báo sau được đề cập trong mỗi phần giới thiệu về thống kê Bayes, trong khi các phương pháp thông thường để tính khoảng dự đoán không được biết đến rộng rãi.
Scortchi - Tái lập Monica

2
@EngrStudent, bootstrapping hoạt động bằng cách lấy lại dữ liệu gốc và do đó rơi vào cùng loại với các phương thức thường xuyên khác chỉ xử lý biến thể lấy mẫu là một nguồn không chắc chắn. Nó không mở rộng khái niệm về sự không chắc chắn.
David C. Norris

3
@ DavidC.Norris: Đây biến thể lấy mẫu là nguồn gốc của sự không chắc chắn - như ảnh hưởng đến dự đoán của các quan sát trong tương lai thay vì suy luận về các tham số - mà tôi quan tâm ở đây, thay vì các phương pháp không thuộc Bayes để tính đến các loại không chắc chắn khác.
Scortchi - Tái lập Monica

Câu trả lời:


20

Suy luận tiên đoán phi Bayes (ngoài trường hợp máy ảnh DSLR) là một lĩnh vực tương đối gần đây. Dưới tiêu đề "phi Bayes", chúng ta có thể chia nhỏ các phương pháp tiếp cận thành những phương pháp thường xuyên "cổ điển" so với những phương pháp dựa trên "khả năng".

Dự đoán thường xuyên cổ điển

αβ

Bây giờ, tôi thường có vấn đề với cách các PI cổ điển được trình bày và giảng dạy trong hầu hết các khóa học thống kê, bởi vì xu hướng áp đảo là diễn giải những điều này như các khoảng dự đoán sau của Bayes, mà chúng không được quyết định. Về cơ bản nhất, họ đang nói về xác suất khác nhau! Bayesian không đưa ra yêu cầu nào về hiệu suất lấy mẫu lặp lại về số lượng của họ (nếu không, họ sẽ là người thường xuyên). Thứ hai, một Bayesian PI thực sự đang hoàn thành một thứ gì đó tương tự về mặt tinh thần với Khoảng thời gian dung sai cổ điển hơn là Khoảng dự đoán cổ điển.

Để tham khảo: Khoảng dung sai cần được chỉ định bởi hai xác suất: Độ tin cậy và phạm vi bảo hiểm. Độ tin cậy cho chúng tôi biết mức độ thường xuyên trong các mẫu lặp lại. Phạm vi bảo hiểm cho chúng tôi biết số đo xác suất tối thiểu của khoảng theo phân phối thực (trái ngược với PI, đưa ra số đo xác suất dự kiến ... một lần nữa trong lấy mẫu lặp lại). Về cơ bản, đây là những gì Bayesian PI đang cố gắng thực hiện, nhưng không có bất kỳ tuyên bố lấy mẫu lặp lại nào.

Vì vậy, logic cơ bản của Hồi quy tuyến tính đơn giản thống kê 101 là lấy được các thuộc tính lấy mẫu lặp lại của PI theo giả định về tính quy tắc. Đó là cách tiếp cận thường xuyên + Gaussian thường được coi là "cổ điển" và được dạy trong các lớp thống kê giới thiệu. Điều này dựa trên sự đơn giản của các tính toán kết quả (xem Wikipedia để có cái nhìn tổng quan đẹp).

Các phân phối xác suất không phải là gaussian thường có vấn đề vì chúng có thể thiếu các đại lượng quan trọng có thể được đảo ngược gọn gàng để có được một khoảng. Do đó, không có phương pháp "chính xác" cho các phân phối này, thường là do các thuộc tính của khoảng phụ thuộc vào các tham số cơ bản thực sự.

Thừa nhận sự bất lực này, một lớp dự đoán khác đã nảy sinh (và suy luận và ước lượng) với cách tiếp cận khả năng.

Suy luận dựa trên khả năng

Phương pháp tiếp cận dựa trên khả năng, giống như nhiều khái niệm thống kê hiện đại, có thể được truy nguyên từ Ronald Fisher. Ý tưởng cơ bản của trường này là, ngoại trừ các trường hợp đặc biệt, các kết luận thống kê của chúng tôi ở mức yếu hơn về mặt logic so với khi chúng tôi xử lý các suy luận từ một phân phối bình thường (có ước tính tham số là trực giao ), nơi chúng tôi có thể đưa ra các tuyên bố xác suất chính xác. Theo quan điểm suy luận này, người ta thực sự nên tránh các tuyên bố về xác suất ngoại trừ trong trường hợp chính xác, nếu không, người ta nên đưa ra tuyên bố về khả năng và thừa nhận rằng người ta không biết xác suất chính xác của lỗi (theo nghĩa thông thường).

Do đó, chúng ta có thể thấy khả năng giống như xác suất Bayes, nhưng không có các yêu cầu tích hợp hoặc nhầm lẫn có thể xảy ra với xác suất thường xuyên. Giải thích của nó là hoàn toàn chủ quan ... mặc dù tỷ lệ khả năng là 0,15 thường được khuyến nghị cho suy luận tham số duy nhất.

Tuy nhiên, người ta không thường thấy các bài báo đưa ra "khoảng thời gian thích hợp". Tại sao? Có vẻ như đây phần lớn là một vấn đề của xã hội học, vì tất cả chúng ta đã quen với các tuyên bố niềm tin dựa trên xác suất. Thay vào đó, những gì bạn thường thấy là một tác giả đề cập đến khoảng tin cậy "gần đúng" hoặc "tiệm cận" như vậy và như vậy. Các khoảng này phần lớn có nguồn gốc từ các phương pháp khả năng, trong đó chúng tôi đang dựa vào phân phối Chi bình phương tiệm cận của tỷ lệ khả năng theo cách tương tự như chúng tôi dựa vào tính chuẩn hóa tiệm cận của mẫu có nghĩa.

Với "cách khắc phục" này, giờ đây chúng ta có thể xây dựng "Vùng tin cậy" gần đúng 95% với độ nhất quán logic gần như bằng Bayes.

Từ CI đến PI trong Khung khả năng

Sự thành công và dễ dàng của phương pháp khả năng trên đã dẫn đến những ý tưởng về cách mở rộng nó để dự đoán. Một bài viết khảo sát rất hay về điều này được đưa ra ở đây (tôi sẽ không tái tạo phạm vi bảo hiểm tuyệt vời của nó). Nó có thể được truy trở lại David Hinkley vào cuối những năm 1970 (xem JSTOR ), người đặt ra thuật ngữ này. Ông đã áp dụng nó cho " Vấn đề dự đoán nhị thức của Pearson ". Tôi sẽ tóm tắt logic cơ bản.

yyy

Các quy tắc cơ bản để loại bỏ các tham số "phiền toái" để có được khả năng dự đoán như sau:

  1. μ,σ
  2. Nếu một tham số là ngẫu nhiên (ví dụ: dữ liệu không quan sát khác hoặc "hiệu ứng ngẫu nhiên"), thì bạn tích hợp chúng ra (giống như trong phương pháp Bayes).

Sự khác biệt giữa một tham số cố định và ngẫu nhiên là duy nhất cho khả năng suy luận, nhưng có các kết nối với các mô hình hiệu ứng hỗn hợp, trong đó dường như các khung Bayesian, người thường xuyên và khung khả năng va chạm.

Hy vọng rằng điều này đã trả lời câu hỏi của bạn về phạm vi rộng của dự đoán "không phải Bayes" (và suy luận về vấn đề đó). Vì các siêu liên kết có thể thay đổi, tôi cũng sẽ tạo ra một cuốn sách cho cuốn sách "Trong tất cả khả năng: Mô hình thống kê và suy luận sử dụng khả năng thích ứng", thảo luận về khung khả năng hiện đại ở độ sâu, bao gồm một số lượng khá lớn các vấn đề nhận thức luận về khả năng so với Bayesian so với thường xuyên suy luận và dự đoán.


Tài liệu tham khảo

  1. Khoảng dự đoán: Phương pháp không tham số . Wikipedia. Truy cập ngày 13/9/2015.
  2. Bjornstad, Jan F. Khả năng dự đoán: Đánh giá. Thống kê. Khoa học 5 (1990), không. 2, 242--254. doi: 10.1214 / ss / 1177012175. http://projecteuclid.org/euclid.ss/1177012175 .
  3. David Hinkley. Khả năng dự đoán . Biên niên sử Thống kê Vol. 7, Số 4 (Jul., 1979), trang 718-728 Xuất bản bởi: Viện thống kê toán học URL ổn định: http://www.jstor.org/ sóng / 2858920
  4. Yudi Pawitan. Trong tất cả khả năng: Mô hình thống kê và suy luận sử dụng khả năng thích ứng. Nhà xuất bản Đại học Oxford; 1 phiên bản (ngày 30 tháng 8 năm 2001). ISBN-10: 0198507658, ISBN-13: 980-0198507659. Đặc biệt là các chương 5.5-5.9, 10 và 16.

5

Tôi sẽ giải quyết câu trả lời của tôi cụ thể cho câu hỏi, "Những phương pháp phi Bayes nào cho suy luận tiên đoán là có tính đến sự không chắc chắn trong ước tính tham số?" Tôi sẽ tổ chức câu trả lời của tôi xung quanh mở rộng ý nghĩa của sự không chắc chắn .

Chúng tôi hy vọng các phân tích thống kê cung cấp hỗ trợ cho các loại khiếu nại khác nhau, bao gồm các dự đoán . Nhưng chúng tôi vẫn không chắc chắn về tuyên bố của mình và sự không chắc chắn này phát sinh từ nhiều nguồn. Thống kê thường xuyên được tổ chức đặc trưng xung quanh chỉ giải quyết một phần của sự không chắc chắn của chúng tôi phát sinh cụ thể từ lấy mẫu . Lấy mẫu cũng có thể là nguồn gốc của sự không chắc chắn trong các thí nghiệm trong lĩnh vực nông nghiệp trong lịch sử đã cung cấp phần lớn sự kích thích cho sự phát triển của thống kê thường xuyên. Nhưng trong nhiều ứng dụng quan trọng nhất hiện nay, đây không phải là trường hợp. Bây giờ chúng tôi lo lắng về tất cả các loại không chắc chắn khác như lỗi chính tả mô hình và các dạng sai lệch khác nhau --- trong đó có hàng trăm loại (!) Loại [1].

Sander Greenland có một bài thảo luận tuyệt vời [2] chỉ ra tầm quan trọng của việc tính đến các nguồn không chắc chắn khác này và quy định phân tích đa thành kiến là phương tiện để thực hiện điều này. Ông phát triển lý thuyết hoàn toàn theo thuật ngữ Bayes, đó là điều tự nhiên. Nếu một người muốn đưa ra một cách xử lý chính thức, mạch lạc về sự không chắc chắn của một người về các tham số mô hình, thì người ta sẽ tự nhiên dẫn đến phân phối xác suất (chủ quan) trên các tham số; tại thời điểm này, bạn bị lạc vào Quỷ Bayes hoặc đã vào Vương quốc Thiên đường Bayes (tùy theo tôn giáo của bạn).

Đối với câu hỏi của bạn, @Scortchi, về việc liệu điều này có thể được thực hiện bằng "phương pháp phi Bayes" hay không, một cách giải quyết không thuộc Bayes được thể hiện trong [3]. Nhưng với bất cứ ai biết đủ về chủ nghĩa Bayes để viết câu hỏi của bạn, việc đối xử ở đó sẽ trông giống như một nỗ lực để thực hiện các tính toán của Bayes 'về kẻ ranh mãnh' để nói. Thật vậy, như các tác giả thừa nhận (xem trang 4), bạn càng đến gần các phương pháp nâng cao hơn về cuối cuốn sách, các phương thức càng giống như sự tích hợp mà bạn mô tả trong câu hỏi của bạn. Họ đề nghị rằng nơi họ khởi hành từ chủ nghĩa Bayes cuối cùng chỉ là không đưa ra các linh mục rõ ràng về các thông số của họ trước khi ước tính chúng.

θ(α)αθ

  1. Chavalarias, David và John PA Ioannidis. Phân tích bản đồ khoa học của lâm sàng đặc trưng cho 235 xu hướng trong nghiên cứu y sinh học. Tạp chí dịch tễ học lâm sàng 63, số. 11 (tháng 11 năm 2010): 12051515. doi: 10.1016 / j.jclinepi.2009.12.011.

  2. Greenland, Sander. Mô hình nhiều xu hướng để phân tích dữ liệu quan sát (có thảo luận). Tạp chí của Hiệp hội thống kê hoàng gia: Dòng A (Thống kê trong xã hội) 168, không. 2 (Tháng 3 năm 2005): 267 Kho 306. doi: 10.111 / j.1467-985X.2004.00349.x.

  3. Lash, Timothy L., Matthew P. Fox và Aliza K. Fink. Áp dụng phân tích thiên vị định lượng cho dữ liệu dịch tễ học. Thống kê Sinh học và Sức khỏe. New York, NY: Springer New York, 2009. http://link.springer.com/10.1007/978-0-387-87959-8 .


2
Cảm ơn! Nghe có vẻ rất thú vị, nhưng tôi nghĩ sẽ hữu ích nếu bạn có thể thêm một phác thảo ngắn gọn về cách phân tích thiên vị nhiều / định lượng được sử dụng trong suy luận dự đoán.
Scortchi - Phục hồi Monica

Tôi đã thêm một đoạn để kết nối với dự đoán rõ ràng. Cảm ơn yêu cầu của bạn đã làm rõ, @Scortchi.
David C. Norris
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.