Tại sao các phương pháp Bayes không yêu cầu chỉnh sửa nhiều lần?


22

Andrew Gelman đã viết một bài viết rộng rãi về lý do tại sao thử nghiệm Bayesian AB không yêu cầu sửa chữa nhiều giả thuyết: Tại sao chúng tôi (Thông thường) không phải lo lắng về nhiều so sánh , 2012.

Tôi hoàn toàn không hiểu: tại sao các phương pháp Bayes không yêu cầu sửa chữa nhiều lần?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

Sự hiểu biết của tôi là cách tiếp cận Bayes được trình bày ở trên cho thấy sự phân phối cơ bản được chia sẻ bởi tất cả các giả thuyết (không giống như trong một điều chỉnh Bonferroni thường xuyên). Là lý luận của tôi đúng?



5
Mặc dù các liên kết của Patrick rất hữu ích, nhưng thật tuyệt khi thấy một câu trả lời độc lập hơn dành cho 'nhà phê bình khoa học biết chữ thống kê vừa phải'.
phỏng đoán

Câu trả lời:


14

Một cách kỳ lạ để trả lời câu hỏi là lưu ý rằng phương pháp Bayes không cung cấp cách nào để làm điều này bởi vì các phương pháp Bayes phù hợp với các quy tắc chứng cứ được chấp nhận và các phương pháp thường xuyên thường mâu thuẫn với chúng. Ví dụ:

  • Với số liệu thống kê thường xuyên, việc so sánh điều trị A với B phải bị phạt vì so sánh phương pháp điều trị C và D vì cân nhắc lỗi loại I của gia đình; với Bayesian sự so sánh AB tự đứng vững.
  • Đối với thử nghiệm thường xuyên tuần tự, hình phạt thường được yêu cầu cho nhiều lần xem dữ liệu. Trong cài đặt tuần tự nhóm, việc so sánh sớm giữa A và B phải bị phạt vì so sánh sau đó chưa được thực hiện và so sánh sau đó phải bị phạt vì so sánh sớm hơn ngay cả khi so sánh trước đó không làm thay đổi tiến trình của học.

Vấn đề bắt nguồn từ sự đảo ngược của dòng chảy thời gian và thông tin, khiến những người thường xuyên phải xem xét những gì có thể xảy ra thay vì những gì đã xảy ra . Ngược lại, các đánh giá Bayes neo tất cả các đánh giá vào phân phối trước, để hiệu chỉnh bằng chứng. Ví dụ: phân phối trước cho chênh lệch AB hiệu chỉnh tất cả các đánh giá về AB trong tương lai và không phải xem xét CD.

Với thử nghiệm tuần tự, có sự nhầm lẫn lớn về cách điều chỉnh ước tính điểm khi một thử nghiệm bị chấm dứt sớm bằng cách sử dụng suy luận thường xuyên. Trong thế giới Bayes, "rút lại" trước bất kỳ ước tính điểm nào và phân phối sau được cập nhật áp dụng cho suy luận bất cứ lúc nào và không yêu cầu xem xét không gian mẫu phức tạp.


4
Tôi không thực sự hiểu lập luận này. Nếu chúng ta tiến hành 1000 so sánh khác nhau với cách tiếp cận thường xuyên thông thường thì tất nhiên chúng ta sẽ mong đợi khoảng 50 ý nghĩa với p <0,05 hiệu ứng ngay cả dưới null. Do đó các sửa chữa. Nếu chúng ta sử dụng ước lượng / kiểm tra Bayes thay vào đó, có một số so sánh trước (khoảng 0?) Cho tất cả các so sánh, thì có, trước đó sẽ thu hẹp các hậu thế về 0, nhưng chúng ta vẫn có các yếu tố thay đổi ngẫu nhiên và / hoặc Bayes và có thể sẽ có một số yếu tố trường hợp trong số 1000 sẽ trông giống như hiệu ứng "đáng kể", ngay cả khi hiệu ứng thực sự đều bằng không.
amip nói rằng Phục hồi Monica

1
@amoeba - một cách để xem xét đó là Bayesian tính đến tất cả các lựa chọn thay thế - không chỉ là "null" so với "một thay thế". Xem xét tất cả các phương tiện thay thế nói chung, mỗi người có xác suất trước nhỏ hơn - xử phạt hiệu quả suy luận. Bạn phải xem xét tất cả kết hợp đúng / sai (giả sử bạn không có kiến ​​thức trước về các kết hợp là không thể). Bạn lo lắng về một cái gì đó sai trong * chỉ một trường hợp *. Còn trường hợp khác thì sao? 2 1000 - 121000210001
xác suất

1
Xin lỗi, @probabilityislogic, tôi không chắc là tôi hiểu quan điểm của bạn. Đủ công bằng về "tất cả các lựa chọn thay thế", nhưng điều gì xảy ra trong thực tế? Như tôi đã nói, chúng tôi đang ước tính 1000 sự khác biệt nhóm (ví dụ); chúng tôi có một sự khác biệt về sự khác biệt nhóm; chúng tôi có được 1000 hậu thế, khoảng tin cậy 95% hoặc bất cứ điều gì. Sau đó, chúng tôi sẽ xem xét từng khoảng đáng tin cậy để kiểm tra xem liệu nó có đủ xa từ 0 để trở thành hiệu ứng "có ý nghĩa / đáng kể" hay không. Nếu chúng ta làm điều này 1000 lần, chúng ta có thể có một số "dương tính giả" theo nghĩa là một số hiệu ứng sẽ xuất hiện lớn ngay cả khi tất cả 1000 hiệu ứng trên thực tế bằng không. Không?
amip nói rằng Phục hồi Monica

1
@amoeba - đối số của bạn phụ thuộc vào khoảng thời gian / từ chối đó là độc lập. Trong thực tế, mọi người thường không kiểm tra số lượng lớn các giả thuyết không liên quan. Do đó mô hình đa cấp - để nắm bắt những ảnh hưởng phổ biến. Điều này sẽ làm cho các khoảng đáng tin cậy di chuyển cùng nhau (nghĩa là chúng sẽ có các phân phối lấy mẫu tương quan). Điều này sẽ dẫn đến nhiều kết quả dương tính giả hơn khi các mô hình xấu được sử dụng và ít hơn khi các mô hình tốt được sử dụng. Tất nhiên, tốt hay xấu là về việc có đủ thông tin được tích hợp vào các mô hình. 1000
xác suất

1
@probabilityislogic: Vâng, tôi hoàn toàn ủng hộ mô hình đa cấp, mặc dù tôi không nhìn thấy chúng nhất thiết phải như một công cụ Bayes - mô hình hỗn hợp và ANOVAs với các hiệu ứng ngẫu nhiên thường được sử dụng cùng với t-kiểm tra và như vậy ...
amip nói phục hồi Monica

6

Kiểu mô hình phân cấp này thu nhỏ các ước tính và giảm số lượng khiếu nại sai đến mức hợp lý đối với số lượng giả thuyết từ nhỏ đến trung bình. Nó có đảm bảo một số tỷ lệ lỗi loại I cụ thể không? Không.

Gợi ý đặc biệt này của Gelman (người thừa nhận vấn đề với việc xem xét quá nhiều thứ khác nhau và sau đó quá dễ dàng kết luận sai rằng bạn thấy điều gì đó cho một số trong số họ - thực tế là một trong những chủ đề thú cưng của anh ta trên blog của anh ta) khác với một sự thay thế cực đoan quan điểm cho rằng các phương pháp Bayes không cần tính đến bội số, bởi vì tất cả những gì quan trọng là khả năng của bạn (và trước đó của bạn).


1
(+1) Theo hiểu biết của tôi trong một số trường hợp (ví dụ như không tương xứng với kết hợp trước) Suy luận Bayes không cung cấp bất kỳ kiểm soát nào về tỷ lệ lỗi loại 1. Vì vậy, nhiều hiệu chỉnh kiểm tra trong cài đặt Bayes không thể được IHMO nghĩ là sửa lỗi cho lỗi loại 1.
peuhp


6

Câu hỏi rất thú vị, đây là của tôi về nó.

Đó là tất cả về thông tin mã hóa, sau đó quay quây Bayes. Có vẻ như quá tốt để trở thành sự thật - nhưng cả hai điều này đều khó hơn so với vẻ ngoài của chúng.

Tôi bắt đầu với việc đặt câu hỏi

Thông tin nào đang được sử dụng khi chúng ta lo lắng về nhiều so sánh?

Tôi có thể nghĩ về một số - đầu tiên là "nạo vét dữ liệu" - kiểm tra "mọi thứ" cho đến khi bạn nhận đủ số lần vượt qua / thất bại (tôi sẽ nghĩ rằng hầu hết mọi người được đào tạo sẽ gặp phải vấn đề này). Bạn cũng có ít tội lỗi hơn, nhưng về cơ bản giống nhau "Tôi có rất nhiều bài kiểm tra để chạy - chắc chắn tất cả đều không thể đúng".

Sau khi suy nghĩ về điều này, một điều tôi nhận thấy là bạn không có xu hướng nghe nhiều về giả thuyết cụ thể hoặc so sánh cụ thể. Đó là tất cả về "bộ sưu tập" - điều này kích hoạt suy nghĩ của tôi về khả năng trao đổi - giả thuyết được so sánh là "tương tự" với nhau theo một cách nào đó. Và làm thế nào để bạn mã hóa khả năng trao đổi vào phân tích bayes? - siêu linh mục, mô hình hỗn hợp, hiệu ứng ngẫu nhiên, vv !!!

Nhưng khả năng trao đổi chỉ giúp bạn có được một phần của cách đó. Là tất cả mọi thứ có thể trao đổi? Hoặc bạn có "độ thưa" - chẳng hạn như chỉ có một vài hệ số hồi quy khác không với một nhóm lớn các ứng cử viên. Mô hình hỗn hợp và hiệu ứng ngẫu nhiên phân phối thông thường không hoạt động ở đây. Chúng bị "kẹt" ở giữa tiếng ồn và làm cho tín hiệu không bị ảnh hưởng (ví dụ trong ví dụ của bạn giữ các tham số locationB và locationC "true" và đặt tham số locationA "true" lớn hoặc nhỏ tùy ý và xem mô hình hỗn hợp tuyến tính tiêu chuẩn thất bại.) . Nhưng nó có thể được sửa chữa - ví dụ với các linh mục "mũi nhọn và phiến" hoặc các linh mục "giày ngựa".

Vì vậy, nó thực sự nhiều hơn về việc mô tả loại giả thuyết mà bạn đang nói và nhận được càng nhiều tính năng được biết đến được phản ánh trước và khả năng. Cách tiếp cận của Andrew Gelman chỉ là một cách để xử lý một lớp rộng lớn nhiều so sánh ngầm. Giống như bình phương tối thiểu và phân phối bình thường có xu hướng hoạt động tốt trong hầu hết các trường hợp (nhưng không phải tất cả).

Về cách thức thực hiện việc này, bạn có thể nghĩ về một người suy luận như sau - nhóm A và nhóm B có thể có cùng một ý nghĩa - Tôi đã xem dữ liệu và phương tiện là "gần gũi" - Do đó, để có được ước tính tốt hơn đối với cả hai, tôi nên gộp dữ liệu, vì suy nghĩ ban đầu của tôi là chúng có cùng ý nghĩa. - Nếu chúng không giống nhau, dữ liệu cung cấp bằng chứng cho thấy chúng "gần gũi", do đó, việc gộp "một chút" sẽ không làm tôi quá đau nếu giả thuyết của tôi sai (tất cả các mô hình đều sai, một số mô hình là hữu ích)

Lưu ý rằng tất cả các bản lề ở trên với tiền đề ban đầu "chúng có thể giống nhau". Bỏ nó đi, và không có lời biện minh nào cho việc gộp chung. Bạn có thể cũng có thể thấy một cách suy nghĩ "phân phối bình thường" về các bài kiểm tra. "Không có khả năng nhất", "nếu không bằng 0, thì gần bằng 0 là rất có thể tiếp theo", "giá trị cực đoan là không thể". Hãy xem xét sự thay thế này:

  • nhóm A và nhóm B có nghĩa là có thể bằng nhau, nhưng chúng cũng có thể khác nhau đáng kể

Sau đó, tranh luận về việc gộp "một chút" là một ý tưởng rất tồi. Bạn tốt hơn hết là chọn tổng gộp hoặc không gộp. Giống như kiểu tình huống Cauchy, cành và phiến (rất nhiều khối lượng xung quanh 0 và rất nhiều khối lượng cho các giá trị cực trị)

Toàn bộ nhiều so sánh không cần phải xử lý, bởi vì phương pháp Bayes đang kết hợp thông tin khiến chúng ta lo lắng về trước và / hoặc khả năng . Theo một nghĩa nào đó, một lời nhắc nhở phải suy nghĩ đúng đắn về những thông tin có sẵn cho bạn và đảm bảo rằng bạn đã đưa nó vào phân tích của mình.


2
l1exp(|x|)

@StasK - l1 sẽ hoạt động tốt hơn, nhưng vì nó là log-lõm sẽ đấu tranh với các số không thưa thớt. Những cái tôi đã đề cập là tất cả log-lồi. Một biến thể gần với l1 được tổng quát hóa pareto kép - có được bằng cách lấy hỗn hợp tham số tỷ lệ laplace (tương tự như lasso thích nghi trong ML speak)
xác suất

5

Đầu tiên, khi tôi hiểu mô hình mà bạn trình bày, tôi nghĩ nó hơi khác so với đề xuất của Gelman, trông giống như:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

Trong thực tế, bằng cách thêm commonLocationtham số này , các suy luận về các tham số 3 phân phối (ở đây là các vị trí 1, 2 và 3) không còn độc lập với nhau. Hơn nữa, commonLocationcó xu hướng thu hẹp các giá trị kỳ vọng của các tham số về phía trung tâm (thường được ước tính). Theo một nghĩa nào đó, nó hoạt động như một sự đều đặn trên tất cả các suy luận khiến cho nhu cầu hiệu chỉnh cho nhiều hiệu chỉnh là không cần thiết (vì trong thực tế, chúng tôi thực hiện một kế toán ước lượng đa biến duy nhất từ ​​sự tương tác giữa mỗi chúng thông qua việc sử dụng mô hình).

Như được chỉ ra bởi câu trả lời khác, việc hiệu chỉnh này không cung cấp bất kỳ kiểm soát nào đối với lỗi loại I nhưng trong hầu hết các trường hợp, phương pháp Bayes không cung cấp bất kỳ kiểm soát nào như vậy ngay cả ở thang đo suy luận và hiệu chỉnh cho nhiều so sánh phải được nghĩ khác nhau trong Bayesian cài đặt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.