Câu hỏi rất thú vị, đây là của tôi về nó.
Đó là tất cả về thông tin mã hóa, sau đó quay quây Bayes. Có vẻ như quá tốt để trở thành sự thật - nhưng cả hai điều này đều khó hơn so với vẻ ngoài của chúng.
Tôi bắt đầu với việc đặt câu hỏi
Thông tin nào đang được sử dụng khi chúng ta lo lắng về nhiều so sánh?
Tôi có thể nghĩ về một số - đầu tiên là "nạo vét dữ liệu" - kiểm tra "mọi thứ" cho đến khi bạn nhận đủ số lần vượt qua / thất bại (tôi sẽ nghĩ rằng hầu hết mọi người được đào tạo sẽ gặp phải vấn đề này). Bạn cũng có ít tội lỗi hơn, nhưng về cơ bản giống nhau "Tôi có rất nhiều bài kiểm tra để chạy - chắc chắn tất cả đều không thể đúng".
Sau khi suy nghĩ về điều này, một điều tôi nhận thấy là bạn không có xu hướng nghe nhiều về giả thuyết cụ thể hoặc so sánh cụ thể. Đó là tất cả về "bộ sưu tập" - điều này kích hoạt suy nghĩ của tôi về khả năng trao đổi - giả thuyết được so sánh là "tương tự" với nhau theo một cách nào đó. Và làm thế nào để bạn mã hóa khả năng trao đổi vào phân tích bayes? - siêu linh mục, mô hình hỗn hợp, hiệu ứng ngẫu nhiên, vv !!!
Nhưng khả năng trao đổi chỉ giúp bạn có được một phần của cách đó. Là tất cả mọi thứ có thể trao đổi? Hoặc bạn có "độ thưa" - chẳng hạn như chỉ có một vài hệ số hồi quy khác không với một nhóm lớn các ứng cử viên. Mô hình hỗn hợp và hiệu ứng ngẫu nhiên phân phối thông thường không hoạt động ở đây. Chúng bị "kẹt" ở giữa tiếng ồn và làm cho tín hiệu không bị ảnh hưởng (ví dụ trong ví dụ của bạn giữ các tham số locationB và locationC "true" và đặt tham số locationA "true" lớn hoặc nhỏ tùy ý và xem mô hình hỗn hợp tuyến tính tiêu chuẩn thất bại.) . Nhưng nó có thể được sửa chữa - ví dụ với các linh mục "mũi nhọn và phiến" hoặc các linh mục "giày ngựa".
Vì vậy, nó thực sự nhiều hơn về việc mô tả loại giả thuyết mà bạn đang nói và nhận được càng nhiều tính năng được biết đến được phản ánh trước và khả năng. Cách tiếp cận của Andrew Gelman chỉ là một cách để xử lý một lớp rộng lớn nhiều so sánh ngầm. Giống như bình phương tối thiểu và phân phối bình thường có xu hướng hoạt động tốt trong hầu hết các trường hợp (nhưng không phải tất cả).
Về cách thức thực hiện việc này, bạn có thể nghĩ về một người suy luận như sau - nhóm A và nhóm B có thể có cùng một ý nghĩa - Tôi đã xem dữ liệu và phương tiện là "gần gũi" - Do đó, để có được ước tính tốt hơn đối với cả hai, tôi nên gộp dữ liệu, vì suy nghĩ ban đầu của tôi là chúng có cùng ý nghĩa. - Nếu chúng không giống nhau, dữ liệu cung cấp bằng chứng cho thấy chúng "gần gũi", do đó, việc gộp "một chút" sẽ không làm tôi quá đau nếu giả thuyết của tôi sai (tất cả các mô hình đều sai, một số mô hình là hữu ích)
Lưu ý rằng tất cả các bản lề ở trên với tiền đề ban đầu "chúng có thể giống nhau". Bỏ nó đi, và không có lời biện minh nào cho việc gộp chung. Bạn có thể cũng có thể thấy một cách suy nghĩ "phân phối bình thường" về các bài kiểm tra. "Không có khả năng nhất", "nếu không bằng 0, thì gần bằng 0 là rất có thể tiếp theo", "giá trị cực đoan là không thể". Hãy xem xét sự thay thế này:
- nhóm A và nhóm B có nghĩa là có thể bằng nhau, nhưng chúng cũng có thể khác nhau đáng kể
Sau đó, tranh luận về việc gộp "một chút" là một ý tưởng rất tồi. Bạn tốt hơn hết là chọn tổng gộp hoặc không gộp. Giống như kiểu tình huống Cauchy, cành và phiến (rất nhiều khối lượng xung quanh 0 và rất nhiều khối lượng cho các giá trị cực trị)
Toàn bộ nhiều so sánh không cần phải xử lý, bởi vì phương pháp Bayes đang kết hợp thông tin khiến chúng ta lo lắng về trước và / hoặc khả năng . Theo một nghĩa nào đó, một lời nhắc nhở phải suy nghĩ đúng đắn về những thông tin có sẵn cho bạn và đảm bảo rằng bạn đã đưa nó vào phân tích của mình.