Có gì sai với '' nhiều thử nghiệm hiệu chỉnh '' so với '' thử nghiệm chung ''?


7

Tôi tự hỏi tại sao người ta nói rằng nhiều sửa chữa thử nghiệm là '' tùy ý '' và chúng dựa trên một triết lý không mạch lạc rằng

tính xác thực của một tuyên bố phụ thuộc vào giả thuyết nào khác được giải trí

xem ví dụ câu trả lời và nhận xét về Điều gì sai với điều chỉnh Bonferroni? và đặc biệt là cuộc thảo luận giữa @FrankHarrell và @Bonferroni.

Chúng ta (để đơn giản và để dễ giải trình) cho rằng chúng ta có hai quần thể bình thường (độc lập), độc lập và có độ lệch chuẩn đã biết nhưng phương tiện chưa biết. Hãy (chỉ là một ví dụ) nói rằng những độ lệch chuẩn này là sự tôn trọng.σ1=2,σ2=3.

Kiểm tra chung

Giả sử chúng ta muốn kiểm tra giả thuyết H0:μ1=2&μ2=2so với ở mức ý nghĩaH1:μ12|μ22α=0.05 (ký hiệu nghĩa 'và' while có nghĩa là 'hoặc').&|

Chúng tôi cũng có một kết quả ngẫu nhiên x1 từ dân số đầu tiên và từ dân số thứ hai. x2

nếu là đúng thì biến ngẫu nhiên đầu tiên và biến thứ hai khi chúng tôi giả định rằng nó độc lập. biến ngẫu nhiên là với . Chúng tôi có thể sử dụng làm thống kê kiểm tra và chúng tôi sẽ chấp nhận nếu, đối với các kết quả được quan sát và nó giữ rằngH0X1N(μ1=2,σ1=2)X2N(μ2=2,σ2=3)X2=(X1μ1)2σ12+(X2μ2)2σ22χ2df=2X2H0x1x2(x1μ1)2σ12+(x2μ2)2σ22χα2 . Nói cách khác, vùng chấp nhận cho thử nghiệm này là một hình elip có tâm ở(μ1,μ2) và chúng tôi có khối lượng mật độ '' trên đỉnh '' của hình elip này.1α

Nhiều bài kiểm tra

Với nhiều thử nghiệm, chúng tôi sẽ thực hiện hai thử nghiệm độc lập và '' điều chỉnh '' mức ý nghĩa. Vì vậy, chúng tôi sẽ thực hiện hai thử nghiệm độc lập so với và thử nghiệm thứ hai so với nhưng với mức ý nghĩa được điều chỉnh , Đó là sao cho hoặc hoặc hoặc mang lại .H0(1):μ1=2H1(1):μ12H0(2):μ2=2H1(2):μ22αadj.1(1αadj.)2=0.05(1αadj.)2=0.951αadj.=0.95αadj.=10.95αadj.=0.02532057

Trong trường hợp này, chúng tôi sẽ chấp nhận và (và cả hai cùng tương đương với '' bản gốc '' ) bất cứ khi nào vàH0(1)H0(1)H0:μ1=2&μ2=2x1μ1σ1zαadj.x2μ2σ2zαadj.

Vì vậy, chúng tôi kết luận rằng, với nhiều thử nghiệm, vùng chấp nhận cho đã trở thành một hình chữ nhật có tâm và với khối lượng xác suất làx1,x2(μ1,μ2)1α trên đầu nó.

Phần kết luận

Vì vậy, chúng tôi thấy rằng, đối với phép thử ( ), hình dạng hình học của vùng chấp nhận là hình elip, trong khi với nhiều thử nghiệm, nó là hình chữ nhật. Khối lượng mật độ '' trên đỉnh '' của vùng chấp nhận trong cả hai trường hợp là 0,95.χ2

Câu hỏi

Vì vậy, vấn đề với nhiều thử nghiệm là gì? Nếu có tồn tại một vấn đề như vậy, thì (xem supra) vấn đề tương tự có nên tồn tại cho các thử nghiệm chung hay không? Lý do không thể là chúng ta thích hình elip hơn hình chữ nhật phải không?

Câu trả lời:


3

Tôi nghĩ rằng bạn đang thiếu quan điểm của @ FrankHarrell ở đây (Tôi hiện không có quyền truy cập vào bài viết của Perneger được thảo luận trong chuỗi liên kết, vì vậy không thể nhận xét về nó).

Cuộc tranh luận không phải là về toán học, mà là về triết học. Tất cả mọi thứ bạn viết ở đây đều đúng về mặt toán học, và rõ ràng việc hiệu chỉnh Bonferroni cho phép kiểm soát tỷ lệ lỗi loại I theo gia đình, vì "bài kiểm tra chung" của bạn cũng vậy. Cuộc tranh luận hoàn toàn không phải là về các chi tiết cụ thể của chính Bonferroni, mà là về nhiều điều chỉnh thử nghiệm nói chung.

Mọi người đều biết một đối số cho nhiều sửa lỗi thử nghiệm, như được minh họa bởi truyện tranh hạt đậu XKCD nổi tiếng :

nhập mô tả hình ảnh ở đây

Đây là một lập luận chống lại: nếu tôi phát triển một lý thuyết thực sự thuyết phục dự đoán rằng cụ thể là thạch đậu xanh sẽ gây ra mụn trứng cá; và nếu tôi chạy thử nghiệm để kiểm tra và nhận được ; và nếu điều đó xảy ra thì một số nghiên cứu sinh khác trong cùng phòng thí nghiệm vì bất kỳ lý do gì đã thực hiện mười chín bài kiểm tra cho tất cả các màu khác của hạt thạch nhận được mỗi lần; và nếu bây giờ cố vấn của chúng tôi muốn đặt tất cả những điều đó vào một tờ giấy; - sau đó tôi sẽ hoàn toàn chống lại việc "điều chỉnh" giá trị p của tôi từ thànhp=0.003p>05p=0.003p=0.00320=0.06.

Lưu ý rằng dữ liệu thử nghiệm trong Đối số và trong Đối số phản đối có thể giống hệt nhau. Nhưng cách giải thích khác nhau. Điều này là tốt, nhưng minh họa rằng người ta không nên bị bắt buộc bằng cách thực hiện nhiều sửa chữa thử nghiệm trong tất cả các tình huống . Nó cuối cùng là một vấn đề của sự phán xét. Điều quan trọng, các tình huống thực tế thường không rõ ràng như ở đây và có xu hướng nằm trong khoảng từ # 1 đến # 2. Xem thêm ví dụ của Frank trong câu trả lời của anh ấy .


Tôi phải nói rằng tôi không hoàn toàn nhận được bài thơ ở đây và tôi thực sự muốn hiểu vì vậy tôi cố gắng đưa ra quan điểm của mình; Tôi nghĩ rằng tất cả phụ thuộc vào giả thuyết của bạn rằng bạn đang thử nghiệm, tôi không thấy giả thuyết chính xác đang được thử nghiệm cho 'nghiên cứu sinh khác' trong ví dụ của bạn và theo tôi tất cả phụ thuộc vào điều đó. Tôi đã cố gắng giải thích quan điểm của mình trong phần 'chỉnh sửa' ở cuối câu trả lời này, trong đó tôi lấy ví dụ của mr Harrell và cố gắng đưa ra quan điểm của mình: stats.stackexchange.com/questions/120362/ Lỗi

1
Chắc chắn nó phụ thuộc vào giả thuyết, @fcop. Vấn đề là trong cuộc sống thực, các giả thuyết không phải lúc nào cũng rõ ràng như trong toán học. Ai đó có thể có một "giả thuyết" rằng việc điều trị A sẽ vượt trội hơn so với điều trị B. Nhưng sau đó, các biện pháp thực hiện khác nhau được thu thập, và khu vườn thông thường của các con đường rèn bắt đầu. Nếu tôi ngu ngốc ghi lại 10 biện pháp và đang thử tất cả chúng, thì đó rõ ràng là kịch bản số 1 trong câu trả lời của tôi. Nếu tôi có một lựa chọn tiên nghiệm rõ ràng thì đó là # 2. Nhưng thường thì tôi có một số sở thích linh cảm nhưng không thực sự chắc chắn và sau đó cố vấn của tôi đề nghị thử dùng biện pháp khác đó, v.v ...
amip

vâng nhưng tôi nghĩ rằng '' trong cuộc sống thực '' có một lời giải thích hoàn hảo cho ví dụ với đậu vàng, chỉ có điều là lâu để đưa ra một nhận xét, tôi có thể đưa ra câu trả lời không?

Tôi đã đăng một câu trả lời để đưa ra quan điểm của mình, xin vui lòng phản ứng phê phán vì tôi thực sự muốn hiểu.

1
@fcop Tôi đồng ý với amip ở đây. Đối với tôi điều về câu hỏi của bạn là chỉ dành riêng cho các thuật ngữ trừu tượng. Nếu trên "Số liệu thống kê là một phần của toán học hay một phần của khoa học?" liên tục bạn đến từ kết thúc khoa học như tôi làm sau đó câu hỏi của bạn bỏ qua mọi thứ quan trọng.
mdewey

2

@amoeba: về ví dụ với hạt thạch tôi muốn tranh luận như sau (lưu ý, tôi chỉ muốn hiểu):

Hãy nói rằng có 20 màu khác nhau của hạt thạch, hãy gọi chúng là c1,c2,,c20và để c10 là màu 'xanh'.

Vì vậy, với ví dụ của bạn, giá trị p cho màu sắc i (chúng tôi lưu ý điều này là p(i)) sẽ là p(i)>0.05 khi nào i10p(10)=0.003.

  1. Lý thuyết 1: đậu xanh thạch gây mụn

    Nếu bạn đã phát triển một lý thuyết rằng hạt thạch xanh gây ra mụn trứng cá, thì bạn nên kiểm tra giả thuyết

    H0: '' thạch đậu màu c10 không có tác dụng đối với mụn trứng cá ' H1: '' thạch đậu màu c10gây mụn ''. Đây rõ ràng không phải là một vấn đề thử nghiệm nhiều, vì vậy bạn không phải điều chỉnh các giá trị p.

  2. Lý thuyết 2: chỉ có đậu xanh thạch gây mụn

    Trong trường hợp đó bạn nên có ''H1: đậu xanh thạch gây mụn VÀ đậu thạch màu ci,i10 không gây mụn '' và H0 sau đó là '' đậu xanh thạch không gây mụn HOẶC i|i10 sao cho đậu màu ci gây mụn ''.

    Đây là một vấn đề thử nghiệm nhiều và yêu cầu giá trị p được điều chỉnh.

  3. Lý thuyết 3: thạch đậu (bất kể màu gì) gây ra mụn trứng cá

    Trong trường hợp đó H1: '' thạch đậu màu c1 gây ra mụn trứng cá VÀ '' thạch đậu màu c2 gây ra mụn trứng cá VÀ .... VÀ '' thạch đậu màu c20 gây ra mụn trứng cá 'và H0 Là ngược lại.

    Đây lại là một vấn đề thử nghiệm nhiều.

  4. Học thuyết ...

Phần kết luận

Dù sao đi nữa, có thể thấy rằng những lý thuyết này khác nhau về cơ bảnviệc điều chỉnh giá trị p có được yêu cầu hay không phụ thuộc vào điều đó , không phụ thuộc vào "triết lý" , ít nhất đó là sự hiểu biết của tôi.

PS cho phản ứng với ví dụ của @FrankHarrell xem '' EDIT '' ở cuối câu trả lời của tôi về Điều gì sai với điều chỉnh Bonferroni?


1
Tất cả mọi thứ bạn viết là chính xác nhưng chỉ áp dụng trong tình huống sách giáo khoa lý tưởng khi H0được xây dựng chính xác trước. Trong thực tế, điều này không phải là hầu hết các trường hợp. Ví dụ về hạt thạch là một chút ngớ ngẩn, nhưng ở đây nó đi: lý thuyết là đậu xanh gây ra mụn trứng cá. Lưu ý rằng nó là mơ hồ. Bạn thử đậu xanh thạch. Sếp của bạn bảo bạn hãy thử những quả ô liu và xanh ngọc lục bảo. Bạn tuân thủ. Bây giờ, bạn tìm thấy p = 0,02, p = 0,3 và p = 0,3. Bạn làm nghề gì? Đúng cho ba bài kiểm tra? Hay không? Thay vào đó, bạn sẽ làm gì nếu là 0,3, 0,02 và 0,3?
amip

Sếp của bạn nói: chúng tôi đã chạy ba thí nghiệm, chúng tôi cần sử dụng Bonferroni, không có gì đáng kể. Bạn nói: nhưng tôi thậm chí không muốn thử nghiệm ô liu và ngọc lục bảo, vì vậy không cần sửa chữa gì, tôi có một kết quả quan trọng. Lưu ý rằng giả thuyết nghiên cứu không đủ chính xác ("xanh lục") để cho chúng tôi biết nếu nó đang nói về "màu xanh lá cây" hoặc "màu xanh lá cây + ô liu + ngọc lục bảo". Mọi thứ đều xoay quanh những gì bạn sẽ làm nếu chỉ có ngọc lục bảo xuất hiện đáng kể. Bạn có thể đơn giản bỏ qua nó (không phải là một phần của giả thuyết của bạn ), hoặc sử dụng Bonferroni (để cố gắng cứu vãn nó)? Khó nói trước!
amip

Một lần nữa, ví dụ về hạt thạch này bây giờ hơi ngớ ngẩn ( ví dụ này có lẽ hợp lý hơn; tôi có thể chỉnh sửa câu trả lời của mình để giải thích về nó), nhưng đó là cách mà hầu hết các nghiên cứu đang được thực hiện . Hầu hết trong số đó là loại giữa xác nhận và thăm dò.
amip

1
@amoeba: nhưng dường như chúng tôi đồng ý rằng nó không còn là về '' philiatics ''? Nếu ông chủ của tôi nói rằng tôi nên thử ô liu xanh và emarald, thì, với tư cách là một nhà thống kê nên hỏi ông chủ của tôi: nhưng bạn muốn '' thể hiện '' rằng màu xanh lá cây và ô liu và ngọc lục bảo gây ra mụn trứng cá hay là một trong số đó gây ra mụn ? PS Liên kết 'ví dụ này' dường như không hoạt động? Đối với nghiên cứu khám phá tôi nghĩ bạn nên sử dụng FDR thay cho thử nghiệm giả thuyết?

1
@amoeba: Tôi nghĩ rằng bạn có thể thực hiện khai thác dữ liệu khi tìm kiếm 'lý thuyết mới' nhưng khi bạn khám phá một lý thuyết mới, bạn sẽ tìm thấy xác nhận cho nó bằng cách sử dụng mẫu KHÁC so với mẫu bạn đã sử dụng để khai thác dữ liệu. Bạn nghĩ sao?

1

Tôi sẽ để lại câu trả lời cũ của tôi ở cuối để cung cấp ngữ cảnh cho nhận xét của bạn.

Dường như đối với tôi, thí nghiệm suy nghĩ hình chữ nhật so với ellipsoid của bạn đưa ra một gợi ý thú vị về một vấn đề có nhiều so sánh: ví dụ đa thử nghiệm của bạn theo một số ý nghĩa là chiếu thông tin theo chiều, sau đó sao lưu, mất thông tin trong quá trình.

Nghĩa là, xác suất chung là ellipsoid chính xác bởi vì bạn có hai phân phối Gaussian, sẽ cùng sinh ra một ellipsoid, có độ tròn được xác định bởi phương sai tương đối của hai phân phối và độ dốc của trục chính được xác định bởi mối tương quan của hai phân phối bộ dữ liệu. Vì bạn chỉ định hai bộ dữ liệu là độc lập, trục chính song song với trục x hoặc y.

Mặt khác, ví dụ hai thử nghiệm của bạn dự án phân phối Gaussian xuống phạm vi 1-D và khi bạn kết hợp hai thử nghiệm thành một đồ thị 2 chiều (chiếu ngược), bạn đã mất thông tin và kết quả 95 % diện tích là một hình chữ nhật chứ không phải là hình elip thích hợp. Và mọi thứ trở nên tồi tệ hơn nếu hai bộ dữ liệu tương quan với nhau.

Vì vậy, dường như đây có thể là một dấu hiệu cho thấy nhiều thử nghiệm đang mất thông tin do những gì chúng ta có thể mô tả là chiếu thông tin xuống - mất thông tin trong quy trình - sau đó sao lưu. Vì vậy, hình dạng của mật độ khớp giả kết quả là không chính xác và cố gắng mở rộng các trục của nó thông qua một cái gì đó giống như Boneferroni không thể khắc phục điều đó.

Vì vậy, để trả lời câu hỏi của bạn , tôi muốn nói có, chúng tôi thích hình elip trong phân phối chung hơn là hình chữ nhật không chính xác (do mất thông tin) của phân phối giả giả của chúng tôi. Hoặc có lẽ vấn đề là bạn đã tạo ra mật độ khớp giả ở vị trí đầu tiên.

NHƯNG câu hỏi của bạn mang tính triết học nhiều hơn thế, và tôi phải ủng hộ câu trả lời của Amoeba rằng đó không chỉ đơn giản là vấn đề toán học. Ví dụ, điều gì sẽ xảy ra nếu bạn đăng ký trước thí nghiệm thạch của bạn với một "hạt thạch xanh" chính xác như một phần của giả thuyết của bạn, chứ không phải là một "màu xanh lá cây" không chính xác. Bạn thực hiện thí nghiệm và không tìm thấy ảnh hưởng có ý nghĩa thống kê. Sau đó, trợ lý phòng thí nghiệm của bạn cho bạn xem một bức ảnh họ tự chụp trước tất cả các liều sứa - một nhiệm vụ Herculean họ đã thực hiện! Và một cái gì đó bạn nói dẫn đến trợ lý nhận ra rằng bạn bị mù màu một phần.

Nó chỉ ra rằng những gì bạn gọi là "xanh" chúng ta thực sự là thạch xanh và nước! Với sự giúp đỡ của bức ảnh, trợ lý đã mã hóa đúng kết quả và hóa ra thạch xanh là rất đáng kể! Sự nghiệp của bạn được cứu! Ngoại trừ bạn vừa thực hiện một so sánh nhiều lần: bạn đã thực hiện hai lần vuốt dữ liệu và nếu bạn đã tìm thấy ý nghĩa ở nơi đầu tiên, sẽ không ai biết bất kỳ sự khác biệt nào.

Đây không phải là vấn đề của bạn về việc hack p-value. Đó là một sự điều chỉnh trung thực, nhưng động lực của bạn không thành vấn đề ở đây.

Và nếu chúng ta hoàn toàn trung thực, "xanh" không cụ thể hơn "xanh". Đầu tiên, về màu sắc thực tế, và sau đó là về thực tế rằng màu xanh lá cây rất có thể là một ủy quyền cho các thành phần khác.

Và điều gì sẽ xảy ra nếu bạn chưa bao giờ phát hiện ra lỗi của mình, nhưng vì lý do nào đó, trợ lý của bạn đã sao chép thử nghiệm và kết quả thứ hai có ý nghĩa? Về cơ bản cùng một trường hợp, mặc dù bạn đã thu thập hai bộ dữ liệu. Tại thời điểm này, tôi bắt đầu đi lang thang, vì vậy hãy để tôi tóm tắt lại bằng cách nói rằng tôi tin Amoeba có đúng và ý tưởng "nó có hoặc không phải vì toán học" là đúng về mặt kỹ thuật, nhưng không thể thực hiện được trong thế giới thực.

Câu trả lời của OLD : Câu hỏi này có thực sự về tương quan không? Tôi đang suy nghĩ nhiều hơn về loại vấn đề Khoảng cách Mahalanobis, khi nhìn độc lập vào 95% x1 và 95% x2 tạo ra một hình chữ nhật, nhưng điều này giả định rằng x1 và x2 không tương quan. Trong khi sử dụng Khoảng cách Mahalanobis (một hình elip được định hình dựa trên mối tương quan giữa x1 và x2) là vượt trội. Hình elip mở rộng ra bên ngoài hình chữ nhật, vì vậy nó chấp nhận một số điểm nằm ngoài hình chữ nhật, nhưng nó cũng từ chối các điểm bên trong hình chữ nhật. Giả sử x1 và x2 tương quan ở một mức độ nào đó.

Mặt khác, nếu bạn giả sử x1 và x2 có 0 tương quan, bạn đang giả sử phân phối nào cho mỗi? Nếu thống nhất, bạn sẽ có một vùng hình chữ nhật, nếu bình thường bạn sẽ có một vùng hình elip. Một lần nữa, điều này sẽ độc lập với nhiều sửa chữa thử nghiệm hay không.


1
Cảm ơn bạn đã thử, nhưng đây là về nhiều thử nghiệm (ví dụ như Bonferroni và khác). Như tôi đã nói trong câu trả lời, chúng tôi thừa nhận sự độc lập nên không liên quan đến câu hỏi này. Sự phụ thuộc sẽ là một phần mở rộng thú vị của vấn đề nhưng trước tiên tôi sẽ cố gắng để có được một số câu trả lời giả định sự độc lập.

Tôi không nhận được điểm, tôi chưa bao giờ nói điều gì về màu xanh lá cây? Và tôi đồng ý, nếu chúng ta bắt đầu với '' nếu bạn bị mù màu '' thì tôi đồng ý rằng nó sẽ trở thành triết lý, bằng cách nào đó, nếu trợ lý tìm thấy theo cách nào đó tôi bị mù màu, thì đó không phải là mù màu là với trợ lý và không phải với tôi?

@fcop: Re: "xanh", bạn có thể không đề cập đến nó nhưng Amoeba có trong các tương tác của anh ấy với bạn trong các bình luận của anh ấy. Tôi đồng ý với anh ta và nói rằng nó thậm chí còn tồi tệ hơn trường hợp anh ta làm. Ai là người mù màu không quan trọng, tôi chỉ đơn giản là cố gắng tạo ra một kịch bản thực tế hơn, trong đó một so sánh có thể giả trang thành một thứ khác.
Wayne

một trợ lý phát hiện ra, sau một bài kiểm tra giả thuyết, rằng nhà nghiên cứu bị mù màu là một "kịch bản thực tế hơn"?
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.