Làm thế nào để Bayes so sánh phân phối?


24

Vì vậy, tôi nghĩ rằng tôi đã nắm bắt được những điều cơ bản về xác suất và phân tích thống kê thường xuyên (và nó có thể được sử dụng tệ đến mức nào). Trong một thế giới thường xuyên, thật hợp lý khi đặt một câu hỏi như "phân phối này có khác với phân phối đó không", bởi vì các phân phối được giả định là có thật, khách quan và không thay đổi (ít nhất là đối với một tình huống nhất định), và vì vậy chúng ta có thể hình dung ra xem khả năng một mẫu được rút ra từ một bản phân phối có hình dạng như một mẫu khác.

Trong thế giới quan của Bayes, chúng tôi chỉ quan tâm đến những gì chúng tôi mong đợi, dựa trên những trải nghiệm trong quá khứ của tôi (tôi vẫn còn hơi mơ hồ về phần này, nhưng tôi hiểu khái niệm cập nhật Bayes). Nếu đó là như vậy, làm thế nào một Bayes có thể nói "bộ dữ liệu này khác với bộ dữ liệu đó"?

Đối với mục đích của câu hỏi này, tôi không quan tâm đến ý nghĩa thống kê, hoặc tương tự, chỉ là làm thế nào để định lượng sự khác biệt. Tôi quan tâm như nhau trong phân phối tham số và không tham số.


Bạn có thể làm rõ ý của bạn bằng cách "bộ dữ liệu này khác với bộ dữ liệu đó không?" Như trong, bạn đang đề cập đến việc so sánh hai hoặc nhiều nhóm, chẳng hạn như thu nhập của nam so với thu nhập của nữ? Hoặc có lẽ làm thế nào một Bayes so sánh hai mẫu thu nhập mà không có kiến ​​thức về giới?
ramhiser

2
@ JohnA.Ramey: sự khác biệt là gì? Khi tất cả đã là số, không phải "nam" và "nữ" chỉ là nhãn cho mẫu?
ness101

Câu trả lời:


12

Hãy suy nghĩ tuyên bố của bạn thông qua như một người thường xuyên và làm cho nó cụ thể hơn đầu tiên. Một người thường xuyên không thể nói rằng "tập dữ liệu A khác với tập dữ liệu B", mà không cần làm rõ thêm.

Đầu tiên, bạn phải nói rõ ý của bạn là "khác biệt". Có lẽ bạn có nghĩa là "có giá trị trung bình khác nhau". Sau đó, một lần nữa, bạn có thể có nghĩa là "có phương sai khác nhau". Hoặc có lẽ một cái gì đó khác?

Sau đó, bạn phải nêu rõ loại thử nghiệm nào bạn sẽ sử dụng, tùy thuộc vào những gì bạn cho là giả định hợp lệ về dữ liệu. Bạn có cho rằng các bộ dữ liệu được phân phối bình thường về một số phương tiện không? Hay bạn có tin rằng cả hai đều được phân phối Beta? Hay cái gì khác?

Bây giờ bạn có thể thấy rằng quyết định thứ hai rất giống với các linh mục trong thống kê Bayes? Đó không chỉ là "trải nghiệm trong quá khứ của tôi", mà là những gì tôi tin, và những gì tôi tin rằng đồng nghiệp của tôi sẽ tin, là những giả định hợp lý về dữ liệu của tôi. (Và Bayes có thể sử dụng các linh mục đồng phục, điều này thúc đẩy mọi thứ theo tính toán thường xuyên.)

EDIT: Đáp lại bình luận của bạn: bước tiếp theo có trong quyết định đầu tiên tôi đã đề cập. Nếu bạn muốn quyết định xem phương tiện của hai nhóm có khác nhau hay không, bạn sẽ xem xét sự phân phối chênh lệch của phương tiện của hai nhóm để xem phân phối này có hay không chứa 0, ở một mức độ tin cậy nào đó. Chính xác mức độ gần bằng 0 bạn tính là 0 và chính xác phần nào của phân phối (sau) bạn sử dụng được xác định bởi bạn và mức độ tự tin mà bạn mong muốn.

Một cuộc thảo luận về những ý tưởng này có thể được tìm thấy trong một bài báo của Kruschke , người cũng đã viết một cuốn sách rất dễ đọc Thực hiện phân tích dữ liệu Bayesian , bao gồm một ví dụ trên các trang 307-309, "Các nhóm khác nhau có bằng nhau không?". (Ấn bản thứ hai: trang 468-472.) Ông cũng có một bài đăng blog về chủ đề này , với một số câu hỏi và trả lời.

EDIT THÊM: Mô tả của bạn về quá trình Bayes cũng không hoàn toàn chính xác. Bayes chỉ quan tâm đến những gì dữ liệu nói với chúng ta, trong bối cảnh những gì chúng ta biết độc lập với dữ liệu. (Như Kruschke chỉ ra, việc trước không nhất thiết phải xảy ra trước dữ liệu. Đó là cụm từ ngụ ý, nhưng đó thực sự chỉ là kiến ​​thức của chúng tôi ngoại trừ một số dữ liệu. và có thể dựa trên sự đồng thuận, một mô hình của quá trình tạo dữ liệu cơ bản hoặc có thể chỉ là kết quả của một thử nghiệm khác (không nhất thiết phải trước đó).


Vâng, ok, người thường xuyên giả định một phân phối, và đó là chủ quan. Nhưng sau đó, họ chỉ có thể đo các tham số của từng mẫu, với lỗi và nói "ok, đây là các tham số về dân số thực của từng mẫu, và bây giờ xác suất của sự khác biệt chỉ là do lỗi lấy mẫu". Câu hỏi của tôi là về bước sau câu trả lời của bạn - làm thế nào để Bayesian suy ra sự khác biệt giữa các mẫu (giả sử các mẫu có cùng loại phân phối, tham số hay không).
ness101

@ naught101: Xin vui lòng xem chỉnh sửa của tôi.
Wayne

@Wayne giấy bạn liên kết là tuyệt vời. Cảm ơn bạn đã chia sẻ
Cam.Davidson.Pilon

@ naught101: Tôi đã cập nhật liên kết blog. Anh ấy rõ ràng giữ các phiên bản cũ hơn của bài viết và mỗi liên kết đến một phiên bản mới hơn, và phiên bản đầu tiên tôi liên kết là ba phiên bản đã lỗi thời.
Wayne

Đây là một phương pháp khá hay và nó thực sự làm rõ cách suy luận Bayes có thể hoạt động (bằng cách coi các tham số phân phối là nguồn gốc của sự không chắc chắn). Đáng tiếc nó rất chuyên sâu tính toán. Ngoài ra, việc sử dụng 95% TCTD có vẻ hơi giống với việc đặt mức ý nghĩa, nhưng tôi không thể biết liệu có cách nào thực sự để có được giá trị tương đương với giá trị p hay không (có lẽ là tổng xác suất của các giá trị nhiều hơn cực hơn 0 so với giá trị trung bình, cho sự khác biệt về phương tiện?).
ness101

14

bài viết này có thể được quan tâm: http://arxiv.org/pdf/0906.4032v1.pdf

Nó đưa ra một bản tóm tắt tốt đẹp về một số cách tiếp cận thường xuyên và Bayes cho hai vấn đề mẫu, và thảo luận về cả các trường hợp tham số và không tham số.

Nó có thể thêm một cái gì đó vào các câu trả lời khác để đưa ra một ví dụ đơn giản. Giả sử bạn có hai tập dữ liệu y trong đó mỗi x i và mỗi y j0 hoặc 1 . Bạn giả sử mô hình iid Bernoulli trong cả hai trường hợp, vì vậy mỗi x iB e r n ( p ) và mỗi y iB e r n ( q ) . Kịch bản kiểm tra giả thuyết của bạn trong cả cài đặt thường xuyên và Bayes có thể là:xyxiyj01xiBern(p)yiBern(q)

H0:p=q

không nhất thiết phải bằng nhau.H1:p,q

Khả năng cho dữ liệu trong từng trường hợp là:

Theo : L 0 ( p ) = f ( x , y ; p ) = i p i ( 1 - p ) 1 - ij p j ( 1 - p ) 1 - jH0L0(p)=f(x,y;p)=ipi(1p)1ijpj(1p)1j

Theo : L 1 ( p , q ) = f ( x , y ; p , q ) = i p i ( 1 - p ) 1 - ij q j ( 1 - q ) 1 - jH1L1(p,q)=f(x,y;p,q)=ipi(1p)1ijqj(1q)1j

(vì dưới ). Cách tiếp cận thường xuyên cho vấn đề có thể là thực hiện kiểm tra tỷ lệ Khả năng, theo đó bạn tính toán thống kê:H0q=p

W=2log{L0(pmax)L1(pmax,qmax)},

pmax,qmaxpqpmaxpmaxWχ12H0

pπ0H0p,qπ1H1

BF=f(x,y|H0)f(x,y|H1)=01L0(p)π0(p)dp0101L1(p,q)π1(p,q)dpdq

H0H1H0H1 p(H0)=p(H1)=1/2

p(H0|x,y)p(H1|x,y)=BF×p(H0)p(H1)=BF×1/21/2=BF.

>1H0H1H0

H1

Hy vọng rằng sẽ giúp cùng với các câu trả lời khác đã được đăng.


0

Được cung cấp dữ liệu, chúng tôi tin tưởng mạnh mẽ đến mức nào khi 2 nhóm không đến từ cùng một dân số (H_1: họ không đến từ cùng một dân số so với H_0: họ đến từ cùng một dân số). Điều này có thể được thực hiện với một bài kiểm tra Bayesian.

Độ phức tạp được sử dụng để tìm ra mức độ chồng chéo trước với một giả thuyết. Fit được sử dụng để tìm ra mức độ chồng chéo với một giả thuyết. Kết hợp bạn có thể so sánh các giả thuyết và bày tỏ niềm tin của bạn về việc họ có đến từ cùng một dân số hay không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.