Nhà nghiên cứu 1 chạy 1000 hồi quy, nhà nghiên cứu 2 chỉ chạy 1, cả hai đều có kết quả giống nhau - họ có nên suy luận khác nhau không?


12

Hãy tưởng tượng một nhà nghiên cứu đang khám phá một bộ dữ liệu và chạy 1000 hồi quy khác nhau và anh ta tìm thấy một mối quan hệ thú vị giữa chúng.

Bây giờ hãy tưởng tượng một nhà nghiên cứu khác có cùng dữ liệu chỉ chạy 1 hồi quy, và hóa ra đó là cùng một dữ liệu mà nhà nghiên cứu khác đã lấy 1000 hồi quy để tìm. Nhà nghiên cứu 2 không biết nhà nghiên cứu 1.

Nhà nghiên cứu 1 có nên suy luận khác với nhà nghiên cứu 2 không? Tại sao? Chẳng hạn, nhà nghiên cứu 1 có nên thực hiện nhiều phép so sánh, nhưng nhà nghiên cứu 2 có nên không?

Nếu nhà nghiên cứu 2 cho bạn thấy hồi quy đơn trước tiên, bạn sẽ suy luận gì? Nếu sau khi nhà nghiên cứu 1 cho bạn thấy kết quả của mình, bạn có nên thay đổi suy luận của mình không? Nếu vậy, tại sao nó quan trọng?

PS 1 : Nếu nói về các nhà nghiên cứu giả thuyết làm cho vấn đề trở nên trừu tượng, hãy nghĩ về điều này: hãy tưởng tượng bạn chỉ chạy một hồi quy cho bài báo của mình, sử dụng phương pháp tốt nhất hiện có. Sau đó, một nhà nghiên cứu khác đã khám phá 1000 hồi quy khác nhau với cùng một dữ liệu, cho đến khi anh ta tìm thấy chính xác hồi quy mà bạn đã chạy . Hai bạn có nên suy luận khác nhau? Là bằng chứng giống nhau cho cả hai trường hợp hay không? Bạn có nên thay đổi suy luận của bạn nếu bạn biết kết quả nghiên cứu khác? Công chúng nên đánh giá bằng chứng của hai nghiên cứu như thế nào?

PS 2: vui lòng cố gắng cụ thể và cung cấp một lý lẽ toán học / lý thuyết, nếu có thể!


1
Để là một so sánh hợp lệ, bạn cần chỉ định tất cả các giả thuyết không và thay thế. Nhà nghiên cứu 2 chỉ có thể kiểm tra giả thuyết 1 trong khi Nhà nghiên cứu 1 có thể muốn kiểm soát xác suất không mắc lỗi loại 1 trong số 1000. Nếu đó là suy luận đồng thời mà bạn muốn thực hiện thì bạn phải thực hiện điều chỉnh giá trị p. Nhà nghiên cứu 2 có một thử nghiệm và không cần điều chỉnh. Đối với nhà nghiên cứu 1, bạn có phù hợp với các mô hình khác nhau cho cùng một dữ liệu hoặc một mô hình phù hợp với mỗi 1000 bộ dữ liệu không?
Michael R. Chernick

1
@MichaelCécick chỉ có một bộ dữ liệu. Nhà nghiên cứu 1 phù hợp với 1000 mô hình cho cùng một bộ dữ liệu cho đến khi anh ta tìm thấy mô hình mình thích. Nhà nghiên cứu 2 chỉ trang bị 1. Cả hai nhà nghiên cứu sử dụng cùng một dữ liệu. Vì vậy, bạn sẽ nói hai nhà nghiên cứu này sẽ phải kết luận những điều khác nhau với cùng một bộ dữ liệu? Nhà nghiên cứu 2 nên tự tin chính xác về phân tích của mình, trong khi nhà nghiên cứu 1 nên thổi phồng giá trị p / giá trị p của mình do nhiều so sánh?
thống kê

Nếu bạn làm theo lập luận của tôi, họ sẽ hiểu rằng chỉ có nhà nghiên cứu 2 đang thử nghiệm một giả thuyết duy nhất trong khi nhà nghiên cứu 1 đang kiểm tra 1000 giả thuyết và cần kiểm soát tất cả các giả thuyết mà anh ta đã kiểm tra .. Nó liên quan đến hai vấn đề khác nhau. Điều vẫn còn mơ hồ là những gì bạn có nghĩa là "chỉ tìm một mối quan hệ thú vị". Có thể bạn nghĩ rằng bạn đã đặt ra một tình huống nghịch lý. Tôi không nghĩ rằng bạn có.
Michael R. Chernick

1
@MichaelCécick làm thế nào nó không phải là một nghịch lý cho cùng một dữ liệu với cùng một mô hình chính xác dẫn đến hai kết luận khác nhau? Nếu bạn đọc hai bài báo riêng biệt, bạn sẽ kết luận điều gì?
statslearner

1
@MichaelCécick Tôi đã làm, và tôi thấy phiền bạn nghĩ rằng điều này là chính xác --- cùng một dữ liệu, với cùng một mô hình, dẫn đến hai kết luận khác nhau. Xem ý kiến ​​của tôi về câu trả lời.
statslearner

Câu trả lời:


3

Đây là "Bayesian" của tôi nghiêng về câu hỏi của bạn. Tôi nghĩ rằng bạn đã mô tả một tình huống trong đó hai người có thông tin trước khác nhau sẽ nhận được câu trả lời / kết luận khác nhau khi được cung cấp cùng một bộ dữ liệu. Một ví dụ cùn / cực đoan hơn là giả sử rằng chúng ta có một "nhà nghiên cứu 1b", người chỉ tình cờ đoán được các tham số mô hình hồi quy và kết luận từ bất kỳ giả thuyết nào. Chạy hồi quy không phải là quá xa vời để đoán.1000

Những gì tôi nghĩ đang xảy ra ... chúng ta học được gì về thông tin trước của các nhà nghiên cứu từ câu hỏi trên? - nhà nghiên cứu 1 có thể có căn hộ trước cho các mô hình - nhà nghiên cứu 2 có sự nhạy bén trước mô hình quan tâmP(M1|I2)=1(giả sửM1là mô hình mà cả hai đều phù hợp)P(Mk|I1)=11000P(M1|I2)=1M1

Đây rõ ràng là một sự đơn giản hóa, nhưng bạn có thể thấy ở đây, chúng tôi đã đặt nặng hơn rất nhiều vào các suy luận của nhà nghiên cứu 2 mà không có bất kỳ dữ liệu nào. Nhưng bạn thấy đấy, một khi họ cả hai tài khoản mất các dữ liệu, nghiên cứu 1 của xác suất hậu nghiệm cho sẽ tăng lên ... P ( M 1 | D tôi ) > > P ( M 1 | Tôi ) (... chúng ta biết vì đây nó "tốt hơn" so với 999 mẫu khác ...). Hậu thế của nhà nghiên cứu 2 không thể tập trung được nữa, nó đã bằng 1 . Những gì chúng ta không biết là bao nhiêu dữ liệu hỗ trợ MM1P(M1|DI)>>P(M1|I)9991M1100010000pvalue<108

Bạn cũng không nói bộ dữ liệu lớn như thế nào và vấn đề này! Nếu bạn đang nói về một tập dữ liệu với quan sát và 10 biến số / dự đoán / biến độc lập, thì nhà nghiên cứu 1 có thể vẫn sẽ không chắc chắn về mô hình. Tuy nhiên, nếu nhà nghiên cứu 1 đang sử dụng 2 , 000 , 000 quan sát, điều này có thể kết luận xác định mô hình.100102,000,000

Không có gì sai về cơ bản với hai người bắt đầu với thông tin khác nhau và tiếp tục có kết luận khác nhau sau khi xem cùng một dữ liệu. Tuy nhiên ... việc nhìn thấy cùng một dữ liệu sẽ mang chúng lại gần nhau hơn, với điều kiện là "không gian mô hình" chồng chéo và dữ liệu hỗ trợ "vùng chồng lấp" này.


Vì vậy, phần cơ bản của yêu cầu của bạn là họ nên suy luận khác nhau vì họ có các linh mục khác nhau, và không phải vì họ "khám phá dữ liệu" bao nhiêu, đúng không?
thống kê

Nhân tiện, bạn sẽ đánh giá bằng chứng như thế nào? Bạn có quan tâm về bao nhiêu mô hình nghiên cứu 1 trang bị? Nếu vậy, tại sao?
thống kê

Tôi không nhất thiết phải quan tâm đến số lượng mô hình phù hợp, nhưng liệu mô hình đang được sử dụng có được biết với mức độ chắc chắn hay không. Như tôi đã đề cập ngắn gọn, tôi muốn biết nếu có những lựa chọn thay thế hợp lý. Ví dụ, nếu nhà nghiên cứu 1 đưa ra quyết định "đường bóng" về một biến bị bỏ / thêm, tôi sẽ muốn thấy điều đó được đề cập.
xác suất

1
Tại sao bạn muốn thấy điều đó được đề cập, điều đó sẽ thay đổi trước đó của bạn bằng cách nào đó? Bạn có đang sử dụng anh ấy làm proxy cho bạn trước? Nó không rõ ràng với tôi bản đồ bạn đang thực hiện. Tại sao lý do của một nhà nghiên cứu cụ thể lại quan trọng đối với suy luận của bạn, vì nó hoàn toàn không ảnh hưởng đến quá trình tạo dữ liệu?
statslearner

1
Chúng tôi đang xem xét bộ dữ liệu ở đây là bên ngoài cho nhà nghiên cứu, anh ta đã không thu thập nó và cả hai nhà nghiên cứu đều sử dụng cùng một dữ liệu. Có vẻ như những lý do phát hiện không thể được nhân rộng trong tâm lý học là bởi vì họ chỉ cần sử dụng các ngưỡng ý nghĩa lỏng lẻo như các tiêu chuẩn của bằng chứng để đánh giá một vài giả thuyết điên bất kỳ người nào hợp lý / nhà khoa học sẽ tìm thấy chúng một lố bịch tiên nghiệm. Hãy xem trường hợp của chúng ta ở đây, nếu giả thuyết được thử nghiệm trong ví dụ của chúng ta là một thứ gì đó vô lý như một sức mạnh đặt ra, liệu chúng ta có chạy 1 hay 1000 hồi quy không?
statslearner

7

Việc giải thích thống kê ít rõ ràng hơn nhiều so với những gì bạn đang yêu cầu, việc xử lý toán học.

Toán học là về các vấn đề được xác định rõ ràng. Ví dụ, gieo một con xúc xắc hoàn hảo, hoặc vẽ những quả bóng từ một chiếc bình.

Thống kê là toán học ứng dụng trong đó toán học cung cấp một hướng dẫn nhưng không phải là giải pháp (chính xác).

Trong trường hợp này rõ ràng là hoàn cảnh đóng một vai trò quan trọng. Nếu chúng ta thực hiện hồi quy và sau đó tính toán (toán học) một số giá trị p để biểu thị sức mạnh thì diễn giải (thống kê) và giá trị của giá trị p là gì?

  • Trong trường hợp 1000 hồi quy được thực hiện bởi nhà nghiên cứu 1 , kết quả sẽ yếu hơn rất nhiều vì loại tình huống này xảy ra khi chúng ta không thực sự có đầu mối và chỉ đang khám phá dữ liệu. Giá trị p chỉ là một dấu hiệu cho thấy có thể có một cái gì đó.

    Vì vậy, giá trị p rõ ràng là ít giá trị hơn trong hồi quy được thực hiện bởi nhà nghiên cứu 1. Và nếu nhà nghiên cứu 1 hoặc ai đó sử dụng kết quả của nhà nghiên cứu 1 muốn làm điều gì đó với hồi quy thì giá trị p cần phải được sửa. (và nếu bạn nghĩ rằng sự khác biệt giữa nhà nghiên cứu 1 và nhà nghiên cứu 2 là không đủ, chỉ cần nghĩ về vô số cách mà nhà nghiên cứu 1 có thể sửa giá trị p cho nhiều so sánh)

  • Trong trường hợp hồi quy đơn được thực hiện bởi nhà nghiên cứu 2 , kết quả là bằng chứng mạnh mẽ hơn nhiều. Nhưng đó là vì hồi quy không tự đứng vững. Chúng ta phải bao gồm các lý do tại sao nhà nghiên cứu 2 chỉ thực hiện một hồi quy duy nhất. Điều này có thể là do anh ta có những lý do chính đáng (bổ sung) để tin rằng hồi quy đơn là một mô hình tốt cho dữ liệu.

  • Cài đặt hồi quy được thực hiện bởi nhà nghiên cứu 1 và 2 khác nhau rất nhiều và không thường xuyên bạn gặp cả hai cùng một lúc cho cùng một vấn đề. Nếu đây là trường hợp thì

    • nhà nghiên cứu 2 đã rất may mắn

      Điều này không phải là quá phổ biến, và chúng ta nên sửa lỗi này tốt hơn khi giải thích văn học, cũng như chúng ta nên cải thiện việc xuất bản toàn bộ bức tranh nghiên cứu. Nếu có một ngàn nhà nghiên cứu như nhà nghiên cứu 2, và chúng ta sẽ chỉ thấy một trong số họ công bố thành công, thì vì chúng ta đã không thấy những thất bại của 999 nhà nghiên cứu khác, chúng ta có thể lầm tưởng rằng chúng ta không có trường hợp như nhà nghiên cứu 1

    • nhà nghiên cứu 1 không thông minh lắm và đã thực hiện một cuộc tìm kiếm cực kỳ thừa cho một số hồi quy trong khi anh ta có thể đã biết ngay từ đầu rằng nó phải là một người duy nhất, và anh ta có thể thực hiện một bài kiểm tra mạnh mẽ hơn.

      Đối với những người bên ngoài thông minh hơn nhà nghiên cứu 1 (không quan tâm đến 999 hồi quy bổ sung từ đầu) và đọc về công việc, họ có thể cung cấp thêm sức mạnh cho tầm quan trọng của kết quả, tuy nhiên vẫn không mạnh như anh ta làm kết quả của nhà nghiên cứu 2.

      Mặc dù nhà nghiên cứu 1 có thể đã quá bảo thủ khi sửa chữa cho 999 hồi quy bổ sung thừa, chúng ta không thể bỏ qua thực tế rằng nghiên cứu được thực hiện trong một khoảng trống kiến ​​thức và nhiều khả năng tìm thấy một nhà nghiên cứu may mắn loại 1 hơn loại 2.

Một câu chuyện liên quan thú vị: Trong thiên văn học, khi họ đang lên kế hoạch cho một công cụ tốt hơn để đo nền vũ trụ với độ chính xác cao hơn, có những nhà nghiên cứu cho rằng chỉ giải phóng một nửa dữ liệu. Điều này bởi vì chỉ có một shot để thu thập dữ liệu. Một khi tất cả các hồi quy đã được thực hiện bởi hàng chục nhà nghiên cứu khác nhau (và vì sự biến đổi và sáng tạo đáng kinh ngạc của nhà lý thuyết, chắc chắn có một số phù hợp với mọi dữ liệu có thể, ngẫu nhiên, có thể thực hiện được thử nghiệm mới để xác minh (nghĩa là, trừ khi bạn có thể tạo ra một vũ trụ hoàn toàn mới).


1
+1 cho @MartijnWeterings như tôi đã nói trong các nhận xét của mình, vấn đề không được đặt ra một cách toán học. Tôi có ấn tượng rằng OP nghĩ rằng có một nghịch lý bởi vì hai nhà nghiên cứu sẽ được đưa đến cùng một lựa chọn mô hình nhưng một người thực hiện 1000 hồi quy bị phạt vì cần một vấn đề so sánh nhiều. Tôi không thấy điều này là một nghịch lý chút nào (không rõ ràng nhưng tôi nghĩ OP đã làm). Bạn đã đưa ra một câu trả lời rất hay bằng văn bản và cũng giải thích bằng trực giác tại sao hai trường hợp khác nhau. Tôi nghĩ rằng OP nên kiểm tra câu trả lời của bạn!
Michael R. Chernick


1
Ngoài ra, tôi biết đây là thông lệ phổ biến, nhưng bạn không thấy phiền khi nói một kết quả là "bằng chứng mạnh mẽ" hơn kết quả khác, khi chúng là cùng một mô hình và dữ liệu từ cùng một quy trình tạo dữ liệu? Điều khác biệt duy nhất là bên thứ ba đã xem dữ liệu như thế nào và điều này không nên có bất kỳ mối quan hệ nào với chính DGP hoặc niềm tin trước đây của bạn về vấn đề này. Chẳng hạn, phân tích của nhà nghiên cứu 2 có nên bị vấy bẩn bởi sự thiếu hiểu biết của nhà nghiên cứu 1 không?
statslearner

1
@MartijnWeterings tại sao ý định của nhà nghiên cứu quan trọng đối với việc giải thích dữ liệu? Nếu bạn đang sử dụng điều này như một heuristic, như một giáo dân diễn giải một kết quả chuyên gia, điều này là tốt. Nhưng đối với một nhà khoa học phân tích dữ liệu, có vẻ như ý định của nhà nghiên cứu không có liên quan đến việc bạn giải thích bằng chứng.
statslearner

1
Vì vậy, có vẻ như bạn đang sử dụng hành vi của nhà nghiên cứu như là một ủy quyền cho trước đó của bạn. Nếu nhà nghiên cứu chạy 1000 hồi quy, điều đó sẽ tương ứng với mức thấp trước giả thuyết cụ thể đó. Nếu anh ta chỉ chạy 1, điều này sẽ tương ứng với mức cao trước giả thuyết đó. Nếu bạn có hai trường hợp, thì bạn không biết nên sử dụng trước.
statslearner

1

Câu chuyện ngắn: chúng tôi không có đủ thông tin để trả lời câu hỏi của bạn vì chúng tôi không biết gì về các phương pháp được sử dụng hoặc dữ liệu được thu thập.

Câu trả lời dài ... Câu hỏi thực sự ở đây là liệu mỗi nhà nghiên cứu đang làm gì:

  • khoa học nghiêm ngặt
  • giả khoa học nghiêm ngặt
  • thăm dò dữ liệu
  • nạo vét dữ liệu hoặc hack p

Phương pháp của họ sẽ xác định sức mạnh của việc giải thích kết quả của họ. Điều này là do một số phương pháp ít âm thanh hơn các phương pháp khác.

Trong khoa học nghiêm ngặt, chúng tôi phát triển một giả thuyết, xác định các biến gây nhiễu, phát triển các điều khiển cho các biến ngoài giả thuyết của chúng tôi, lập kế hoạch phương pháp kiểm tra, lập kế hoạch phương pháp phân tích, thực hiện kiểm tra / thu thập dữ liệu và sau đó phân tích dữ liệu. (Lưu ý rằng các phương pháp phân tích được lên kế hoạch trước khi thử nghiệm xảy ra). Đây là nghiêm ngặt nhất vì chúng ta phải chấp nhận dữ liệu và phân tích không phù hợp với giả thuyết. Không thể chấp nhận thay đổi phương pháp sau khi thực tế để có được điều gì đó thú vị. Bất kỳ giả thuyết mới từ các phát hiện phải trải qua quá trình tương tự một lần nữa.

Trong giả khoa học, chúng tôi thường lấy dữ liệu đã được thu thập. Điều này khó sử dụng hơn về mặt đạo đức bởi vì việc thêm các thành kiến ​​vào kết quả sẽ dễ dàng hơn. Tuy nhiên, vẫn có thể làm theo phương pháp khoa học cho các nhà phân tích đạo đức. Có thể khó thiết lập các điều khiển thích hợp mặc dù và điều đó cần được nghiên cứu và lưu ý.

Khám phá dữ liệu không dựa trên khoa học. Không có giả thuyết cụ thể. Không có đánh giá tiên nghiệm về các yếu tố gây nhiễu. Ngoài ra, rất khó để quay lại và thực hiện lại phân tích bằng cùng một dữ liệu, vì các kết quả có thể bị làm mờ bởi kiến ​​thức hoặc mô hình hóa trước đó và không có dữ liệu mới để sử dụng để xác thực. Một thí nghiệm khoa học nghiêm ngặt được khuyến nghị để làm rõ các mối quan hệ có thể tìm thấy từ phân tích thăm dò.

Nạo vét dữ liệu hoặc hack P là nơi mà một nhà phân tích của YouTube thực hiện nhiều thử nghiệm với hy vọng có câu trả lời bất ngờ hoặc không xác định hoặc thao túng dữ liệu để có kết quả. Các kết quả có thể là sự trùng hợp đơn giản, có thể là kết quả của (các) biến gây nhiễu hoặc có thể không có kích thước hiệu ứng hoặc sức mạnh có ý nghĩa.

Có một số biện pháp khắc phục cho từng vấn đề, nhưng những biện pháp đó phải được đánh giá cẩn thận.


1
Tôi tin rằng bạn đang thêm tiếng ồn không cần thiết cho câu hỏi. Giả sử họ đã sử dụng các phương pháp tốt nhất hiện có. Dữ liệu không được họ thu thập, nhưng bởi một cơ quan thống kê, vì vậy họ không kiểm soát được việc thu thập dữ liệu. Sự khác biệt duy nhất là mỗi nhà nghiên cứu khám phá dữ liệu bao nhiêu. Một trong số họ khám phá rất nhiều, người kia chỉ khám phá một lần. Cả hai đều có cùng một mô hình cuối cùng với cùng một dữ liệu. Họ có nên suy luận khác nhau? Và điều đó nên ảnh hưởng đến suy luận của bạn như thế nào?
thống kê

Đây không phải là tiếng ồn thêm. Toán là toán. Nếu các mô hình là giống hệt nhau thì chúng là giống hệt nhau. Cách bạn diễn giải các mô hình phụ thuộc vào tất cả các biến khác không có trong vấn đề của bạn. Nếu bạn bỏ qua tất cả các bối cảnh và thiết kế hoặc thí nghiệm khác, câu trả lời rất đơn giản, cả hai mô hình đều thực hiện như nhau về mặt toán học và đều yếu về mặt khoa học.
Adam Sampson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.