Một ví dụ hay, thuyết phục trong đó giá trị p là hữu ích là gì?


64

Câu hỏi của tôi trong tiêu đề là tự giải thích, nhưng tôi muốn cung cấp cho nó một số bối cảnh.

ASA đã đưa ra một tuyên bố vào đầu tuần này về giá trị p: bối cảnh, quy trình và mục đích , nêu ra những quan niệm sai lầm phổ biến khác nhau về giá trị p, và thúc giục không sử dụng nó mà không có ngữ cảnh và suy nghĩ (có thể nói chỉ về bất kỳ phương pháp thống kê, thực sự).

Trả lời ASA, giáo sư Matloff đã viết một bài đăng trên blog có tiêu đề: Sau 150 năm, ASA nói Không với giá trị p . Sau đó, giáo sư Stewamini (và tôi) đã viết một bài phản hồi có tiêu đề Đó không phải là lỗi của giá trị p - những phản ánh về tuyên bố ASA gần đây . Để đáp lại, giáo sư Matloff đã hỏi trong một bài tiếp theo :

Những gì tôi muốn thấy [... là] - một ví dụ hay, thuyết phục trong đó giá trị p là hữu ích. Đó thực sự phải là điểm mấu chốt.

Để trích dẫn hai lập luận chính của ông chống lại tính hữu ích của giá trị :p

  1. Với các mẫu lớn, các thử nghiệm quan trọng nảy ra trên các khởi hành nhỏ, không quan trọng từ giả thuyết null.

  2. Hầu như không có giả thuyết null nào là đúng trong thế giới thực, vì vậy thực hiện một bài kiểm tra quan trọng đối với chúng là vô lý và kỳ quái.

Tôi rất quan tâm đến những gì các thành viên cộng đồng đánh giá cao khác nghĩ gì về câu hỏi / lập luận này và về những gì có thể tạo thành một câu trả lời tốt cho nó.


5
Lưu ý hai chủ đề khác liên quan đến chủ đề này: stats.stackexchange.com/questions/200500/ trênstats.stackexchange.com/questions 200745 / trên
Tim

2
Cảm ơn Tim. Tôi nghi ngờ câu hỏi của tôi đủ khác biệt để nó xứng đáng với chủ đề riêng của nó (đặc biệt là vì nó không được trả lời trong hai bạn đã đề cập). Tuy nhiên, các liên kết là rất thú vị!
Tal Galili

3
Nó xứng đáng và thú vị (vì vậy +1 của tôi), tôi đã cung cấp các liên kết chỉ FYI :)
Tim

3
Tôi phải nói rằng tôi chưa (chưa) đọc những gì Matloff đã viết về chủ đề này, nhưng, để câu hỏi của bạn tự đứng vững, có lẽ bạn có thể tóm tắt ngắn gọn lý do tại sao anh ta tìm thấy bất kỳ ví dụ tiêu chuẩn nào về việc sử dụng giá trị p không " tốt / thuyết phục "? Ví dụ, ai đó muốn nghiên cứu nếu một thao tác thử nghiệm nhất định thay đổi hành vi của động vật theo một hướng cụ thể; vì vậy một thí nghiệm và một nhóm kiểm soát được đo lường và so sánh. Là một người đọc một bài báo như vậy, tôi rất vui khi thấy giá trị p (nghĩa là chúng hữu ích cho tôi), vì nếu nó lớn thì tôi không cần phải chú ý. Ví dụ này là không đủ?
amip nói phục hồi Monica

1
@amoeba - anh ấy liệt kê chúng ở đây: matloff.wordpress.com/2016/03/07/ Khăn ----- Trích dẫn lập luận của anh ấy: 1) với các mẫu lớn, các bài kiểm tra quan trọng đưa ra về các khởi hành nhỏ, không quan trọng từ giả thuyết null. 2) Hầu như không có giả thuyết null nào là đúng trong thế giới thực, do đó, thực hiện một bài kiểm tra quan trọng đối với chúng là vô lý và kỳ quái. ----- Tôi có ý kiến ​​riêng của mình về những điều này (mà sau này tôi muốn chính thức hóa), nhưng tôi chắc chắn những người khác sẽ có những cách sâu sắc để trả lời điều này.
Tal Galili

Câu trả lời:


44

Tôi sẽ xem xét cả hai điểm của Matloff:

  1. Với các mẫu lớn, các thử nghiệm quan trọng nảy ra trên các khởi hành nhỏ, không quan trọng từ giả thuyết null.

    Logic ở đây là nếu ai đó báo cáo có ý nghĩa cao , thì chỉ từ con số này, chúng ta không thể nói nếu hiệu ứng là lớn và quan trọng hay nhỏ không liên quan (như có thể xảy ra với lớn ). Tôi thấy lập luận này lạ và không thể kết nối với nó, bởi vì tôi chưa bao giờ thấy một nghiên cứu nào báo cáo giá trị mà không báo cáo kích thước hiệu ứng [tương đương]. Các nghiên cứu mà tôi đọc sẽ ví dụ nói (và thường hiển thị trên một hình) rằng nhóm A có nghĩa như vậy và nhóm B có nghĩa như vậy và có nghĩa như vậy và chúng khác biệt đáng kể với giá trị như vậy . Tôi rõ ràng có thể tự đánh giá nếu sự khác biệt giữa A và B lớn hay nhỏ.n p pp=0.0001npp

    (Trong các bình luận, @RobinEkman đã chỉ cho tôi một số nghiên cứu được trích dẫn bởi Ziliak & McCloskey ( 1996 , 2004 ), người đã quan sát thấy rằng phần lớn các bài báo kinh tế thổi phồng "ý nghĩa thống kê" của một số hiệu ứng mà không chú ý đến kích thước hiệu ứng và "ý nghĩa thực tế" của nó (mà theo lập luận của Z & MS, thường có thể rất nhỏ). Đây rõ ràng là một thực tiễn tồi tệ.

  2. Hầu như không có giả thuyết null nào là đúng trong thế giới thực, vì vậy thực hiện một bài kiểm tra quan trọng đối với chúng là vô lý và kỳ quái.

    Mối quan tâm này cũng thường được lên tiếng, nhưng ở đây một lần nữa tôi không thể thực sự kết nối với nó. Điều quan trọng là phải nhận ra rằng các nhà nghiên cứu không tăng ad infinitum của họ . Trong ngành khoa học thần kinh mà tôi quen thuộc, mọi người sẽ làm thí nghiệm với hoặc có thể , giả sử, chuột. Nếu không có hiệu ứng để được nhìn thấy thì kết luận là hiệu ứng không đủ lớn để trở nên thú vị. Không ai biết tôi sẽ đi vào chăn nuôi, đào tạo, ghi âm, và hy sinh chuột để chứng minh rằng có một số tác dụng ý nghĩa thống kê nhưng nhỏ xíu. Và trong khi thể đúng là hầu như không có hiệu ứng thực sự chính xác bằng không, đó n = 20 n = 50 n = 5000n n=20n=50n=5000 chắc chắn đúng rằng nhiều hiệu ứng thực sự đủ nhỏ để được phát hiện với kích thước mẫu hợp lý mà các nhà nghiên cứu hợp lý đang thực sự sử dụng, thực hiện phán đoán tốt của họ.

    (Có một mối quan tâm hợp lệ là kích thước mẫu thường không đủ lớn và nhiều nghiên cứu bị thiếu năng lực. Vì vậy, có lẽ các nhà nghiên cứu trong nhiều lĩnh vực nên nhắm vào, giả sử, thay vì Tuy nhiên, dù kích thước mẫu là gì , nó đặt giới hạn về kích thước hiệu ứng mà nghiên cứu có sức mạnh để phát hiện.)n = 20n=100n=20

    Ngoài ra, tôi không nghĩ rằng tôi đồng ý rằng hầu như không có giả thuyết null nào là đúng, ít nhất là không phải trong các nghiên cứu ngẫu nhiên thử nghiệm (trái ngược với các nghiên cứu quan sát). Hai lý do:

    • Rất thường có một định hướng cho dự đoán đang được thử nghiệm; nhà nghiên cứu nhằm mục đích chứng minh rằng một số hiệu ứng là tích cực . Theo quy ước, điều này thường được thực hiện với thử nghiệm hai mặt giả sử điểm null nhưng thực tế đây là thử nghiệm một phía cố gắng từ chối . (@ Câu trả lời CliffAB của, +1, làm cho một điểm có liên quan.) Và đây có thể chắc chắn là đúng.H 0 : δ = 0 H 0 : δ < 0δ>0H0:δ=0H0:δ<0

    • Ngay cả khi nói về điểm "nil" null , tôi không hiểu tại sao chúng không bao giờ đúng. Một số thứ chỉ không liên quan đến nhân quả với những thứ khác. Nhìn vào các nghiên cứu tâm lý học không thể lặp lại trong những năm qua: mọi người cảm thấy tương lai; Phụ nữ mặc quần áo màu đỏ khi rụng trứng; mồi với những từ liên quan đến tuổi già ảnh hưởng đến tốc độ đi bộ; v.v ... Rất có thể là không có mối liên hệ nhân quả nào ở đây cả và vì vậy các hiệu ứng thực sự chính xác bằng không.H0:δ=0

Chính mình, Norm Matloff đề nghị sử dụng khoảng tin cậy thay vì giá trị vì chúng cho thấy kích thước hiệu ứng. Khoảng tin cậy là tốt, nhưng lưu ý một nhược điểm của khoảng tin cậy so với giá trị : khoảng tin cậy được báo cáo cho một giá trị bảo hiểm cụ thể, ví dụ . Nhìn thấy khoảng tin cậy không cho tôi biết khoảng tin cậy sẽ rộng đến mức nào . Nhưng một giá trị duy nhất có thể được so sánh với bất kỳ và các độc giả khác nhau có thể có các bảng chữ cái khác nhau trong tâm trí.p 95 % 95 % 99 % p αpp95%95%99%pα

Nói cách khác, tôi nghĩ rằng đối với ai đó thích sử dụng khoảng tin cậy, giá trị là một thống kê bổ sung hữu ích và có ý nghĩa để báo cáo.p


Tôi muốn đưa ra một trích dẫn dài về tính hữu ích thực tế của giá trị từ blogger yêu thích của tôi Scott Alexander; ông không phải là một nhà thống kê (ông là một bác sĩ tâm thần) nhưng có nhiều kinh nghiệm với việc đọc các tài liệu tâm lý / y học và xem xét kỹ các số liệu thống kê trong đó. Trích dẫn từ bài đăng trên blog của anh ấy về nghiên cứu sô cô la giả mà tôi rất khuyến khích. Nhấn mạnh mỏ.p

[...] Nhưng giả sử chúng ta không được phép làm giá trị . Tất cả những gì tôi làm là nói với bạn "Vâng, có một nghiên cứu với mười lăm người đã tìm thấy sô cô la giúp kháng insulin" và bạn cười vào mặt tôi. Kích thước hiệu ứng được cho là để giúp với điều đó. Nhưng giả sử tôi nói với bạn "Có một nghiên cứu với mười lăm người đã tìm thấy sô cô la giúp kháng insulin. Kích thước hiệu quả là ." Tôi hoàn toàn không có trực giác cho dù điều đó có phù hợp với tiếng ồn ngẫu nhiên hay không. Phải không Được rồi, sau đó họ nói rằng chúng tôi phải báo cáo khoảng tin cậy. Kích thước hiệu ứng là , với khoảng tin cậy là0,6 0,6 95 % [ 0,2 , 1,0 ] p 95 % p 0,05p0.60.695%[0.2,1.0]. Được chứ. Vì vậy, tôi kiểm tra giới hạn dưới của khoảng tin cậy, tôi thấy nó khác 0. Nhưng bây giờ tôi không vượt quá giá trị . Tôi chỉ đang sử dụng giá trị p bằng cách tự mình thực hiện một phép tính kydgy - khoảng tin cậy không bao gồm zero, giống như giá trị nhỏ hơn .p95%p0.05

(Hãy tưởng tượng rằng, mặc dù tôi biết khoảng tin cậy không bao gồm 0, tôi bắt đầu tự hỏi liệu khoảng tin cậy có làm gì không. Nếu chỉ có một số thống kê sẽ cung cấp cho tôi thông tin này!)99 %95%99%

Nhưng liệu việc loại bỏ giá trị ngăn cản được không? Có thể, nhưng nó sẽ nhường chỗ cho những trò chơi hack d-hack. Bạn không nghĩ rằng bạn có thể kiểm tra hai mươi thông số trao đổi chất khác nhau và chỉ báo cáo một thông số có kích thước hiệu ứng cao nhất? Sự khác biệt duy nhất là p-hacking là hoàn toàn minh bạch - nếu bạn làm hai mươi kiểm tra và báo cáo một của , tôi biết bạn là một thằng ngốc - nhưng d-hack sẽ là bí hiểm. Nếu bạn thực hiện hai mươi bài kiểm tra và báo cáo rằng một trong số chúng có , điều đó có ấn tượng không? [...]p p 0,05 d = 0,6ppp0.05d=0.6

Nhưng việc chuyển đổi từ giá trị sang kích thước hiệu ứng sẽ khiến mọi người không thể tạo ra một vấn đề lớn về các hiệu ứng nhỏ mà vẫn có ý nghĩa thống kê? Có, nhưng đôi khi chúng tôi muốn tạo ra một vấn đề lớn về các hiệu ứng nhỏ mà vẫn có ý nghĩa thống kê! Giả sử rằng Coca-Cola đang thử nghiệm một chất phụ gia sản phẩm mới và tìm thấy trong các nghiên cứu dịch tễ học lớn rằng nó gây ra thêm một cái chết cho mỗi trăm nghìn người mỗi năm. Đó là kích thước hiệu ứng xấp xỉ bằng 0, nhưng nó vẫn có thể có ý nghĩa thống kê. Và vì khoảng một tỷ người trên toàn thế giới uống Coke mỗi năm, đó là một nghìn người chết. Nếu Coke nói, Nope, kích thước hiệu ứng quá nhỏ, không đáng để nghĩ về, thì họ sẽ giết chết gần hai triệu người Hitler.p


Đối với một số thảo luận thêm về các lựa chọn thay thế khác nhau cho giá trị (bao gồm cả giá trị Bayes), hãy xem câu trả lời của tôi trong ASA thảo luận về các hạn chế của giá trị - các lựa chọn thay thế là gì?ppp


1
Theo tôi, phản ứng của bạn đối với lập luận thứ hai đã bỏ lỡ vấn đề. Không ai đề xuất rằng các nhà nghiên cứu thực sự tăng kích thước mẫu quảng cáo của họ. Vấn đề (như tôi thấy) là bất kỳ giả thuyết null nào có dạng "effect = 0" mà một nhà nghiên cứu sẽ quan tâm đến việc thử nghiệm sẽ là sai, và có rất ít giá trị khi thực hiện kiểm tra giả thuyết nếu giả thuyết null đã có được biết là sai. Tất nhiên, điều này giả định rằng điều chúng ta thực sự quan tâm là (các) tham số dân số có liên quan, thay vì các đặc điểm của mẫu.
đánh dấu999

1
Nhưng tôi thừa nhận rằng "mọi giả thuyết khống ... sẽ là sai" chỉ là một giả định.
đánh dấu999

1
Tôi nên thừa nhận rằng lý luận của tôi ở đây là khá không chính thức và tôi không bao giờ cố gắng chính thức hóa nó. Có lẽ để làm cho tranh luận này hoạt động, tôi không nên nói rằng có một ranh giới rõ ràng giữa các kích thước hiệu ứng thú vị và không thú vị. Thay vào đó, nó là một sự liên tục với sự thú vị tăng dần từ 0 và kích thước mẫu "hợp lý" sẽ cung cấp sức mạnh nhỏ cho các kích thước hiệu ứng rất không thú vị và sức mạnh lớn cho những điều rất thú vị, nhưng không có một ngưỡng nào. Tôi tự hỏi nếu một người có thể chính thức hóa nó dọc theo dòng Neyman-Pearson.
amip nói phục hồi Monica

6
p

3
@amoeba: nguồn gốc của tuyên bố 70% có thể là cụm từ mơ hồ trong bản tóm tắt năm 2006: Nhận xét về 182 bài báo đầy đủ được xuất bản vào những năm 1980 trong [AER] 70% không phân biệt kinh tế với ý nghĩa thống kê. Ý nghĩa của điều này đối với điều này như được giải thích trong cả hai bài báo, đó là thường chỉ có điều sau được nhận xét và mức độ của hệ số hồi quy liên quan đến biến phụ thuộc (ý nghĩa kinh tế của thuật ngữ trong thuật ngữ của họ) không được phân tích rộng rãi . Nhưng nó luôn được báo cáo. Tôi đề nghị bạn chỉnh sửa cập nhật của mình trong câu trả lời để phản ánh điều đó :-)
MatteoS 13/03/2016

29

Tôi rất khó chịu ở hai ý tưởng sau:

  1. Với các mẫu lớn, các thử nghiệm quan trọng nảy ra trên các khởi hành nhỏ, không quan trọng từ giả thuyết null.

  2. Hầu như không có giả thuyết null nào là đúng trong thế giới thực, vì vậy thực hiện một bài kiểm tra quan trọng đối với chúng là vô lý và kỳ quái.

Đó là một lập luận rơm về giá trị p. Vấn đề rất cơ bản thúc đẩy sự phát triển của thống kê xuất phát từ việc nhìn thấy một xu hướng và muốn biết liệu những gì chúng ta nhìn thấy là tình cờ hay đại diện cho một xu hướng có hệ thống.

Ho:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0

Đúng là điều này không cho bạn biết mức độ ảnh hưởng. Nhưng nó cho bạn biết hướng của hiệu ứng. Vì vậy, đừng đặt xe ngựa trước ngựa; trước khi tôi bắt đầu rút ra kết luận về mức độ của hiệu ứng, tôi muốn tự tin rằng tôi đã có hướng chính xác của hiệu ứng!

H1:μd>1H2:μd<1

Để minh họa thêm cho điều này, giả sử chúng ta chỉ nhìn vào khoảng tin cậy và loại bỏ các giá trị p. Điều đầu tiên bạn sẽ kiểm tra trong khoảng tin cậy là gì? Cho dù hiệu quả là hoàn toàn tích cực (hoặc tiêu cực) trước khi kết quả quá nghiêm trọng. Như vậy, ngay cả khi không có giá trị p, chúng tôi sẽ thực hiện kiểm tra giả thuyết một cách không chính thức.

Cuối cùng, liên quan đến yêu cầu của OP / Matloff, "Đưa ra một lập luận thuyết phục về giá trị p sẽ tốt hơn đáng kể", tôi nghĩ rằng câu hỏi hơi khó xử. Tôi nói điều này bởi vì tùy thuộc vào quan điểm của bạn, nó sẽ tự động trả lời ("cho tôi một ví dụ cụ thể trong đó kiểm tra giả thuyết tốt hơn là không kiểm tra chúng"). Tuy nhiên, một trường hợp đặc biệt mà tôi nghĩ gần như không thể phủ nhận là dữ liệu RNAseq. Trong trường hợp này, chúng ta thường xem xét mức độ biểu hiện của RNA trong hai nhóm khác nhau (nghĩa là bị bệnh, kiểm soát) và cố gắng tìm các gen được biểu hiện khác biệt trong hai nhóm. Trong trường hợp này, kích thước hiệu ứng tự nó thậm chí không thực sự có ý nghĩa. Điều này là do mức độ biểu hiện của các gen khác nhau rất khác nhau đến nỗi đối với một số gen, biểu hiện cao gấp 2 lần không có nghĩa gì cả, trong khi trên các gen quy định chặt chẽ khác, biểu hiện cao hơn 1,2 lần là gây tử vong. Vì vậy, cường độ thực tế của kích thước hiệu ứng thực sự không thú vị khi lần đầu tiên so sánh các nhóm. Nhưng bạnthực sự, thực sự muốn biết nếu sự biểu hiện của gen thay đổi giữa các nhóm và hướng thay đổi! Hơn nữa, rất khó để giải quyết các vấn đề của nhiều phép so sánh (mà bạn có thể thực hiện 20.000 trong số chúng trong một lần chạy) với các khoảng tin cậy so với giá trị p.


2
Tôi không đồng ý rằng việc biết hướng của hiệu ứng tự nó có ích. Nếu tôi nhổ trên mặt đất, tôi biết điều này sẽ cải thiện hoặc kìm hãm sự phát triển của thực vật (tức là giả thuyết không có tác dụng là không đúng). Làm thế nào để biết hướng của hiệu ứng này mà không có bất kỳ thông tin nào về cường độ của nó hữu ích? Tuy nhiên, đây là điều duy nhất giá trị p từ bài kiểm tra hai mặt của bạn / hai bài kiểm tra một phía (loại) cho bạn biết! (BTW, tôi nghĩ rằng ví dụ 'nhổ trên mặt đất' đã được mượn từ một số bài báo về giá trị p tôi đã đọc cách đây nhiều năm, nhưng tôi không thể nhớ lại cái nào.)
Karl Ove Hufthammer

3
@KarlOveHufthammer: Giỏ hàng trước ngựa. Tôi không nên dừng lại chỉ vì tôi biết hướng của hiệu ứng. Nhưng tôi nên quan tâm rằng tôi có hướng chính xác trước khi tôi bắt đầu lo lắng về độ lớn. Bạn có nghĩ rằng cộng đồng khoa học sẽ tốt hơn bằng cách nắm lấy mọi thứ với hiệu ứng ước tính lớn mà không cần kiểm tra giá trị p?
Vách đá AB

3
Ha:μd>1Ha:μd<1

2
Bạn đã thực hiện một số điểm rất tốt trong các chỉnh sửa. Tôi thực sự thích câu trả lời của bạn bây giờ!
amip nói phục hồi Monica

3
Trong khi thực hiện câu trả lời của tôi cho stats.stackexchange.com/questions/200500, tôi đã xem qua bản in gần đây của Wagenmakers et al nơi họ tranh luận về quan điểm của bạn về tính định hướng: "Các giá trị P một phía có thể được đưa ra một cách giải thích Bayes về hướng, nghĩa là, một thử nghiệm xem liệu hiệu ứng tiềm ẩn là âm tính hay dương tính. " Điều đó thật thú vị bởi vì Wagenmakers là một Bayesian khó tính, anh ta đã viết rất nhiều chống lại giá trị p. Tuy nhiên, tôi thấy một số thỏa thuận khái niệm ở đây.
amip nói rằng Phục hồi lại

6

Tha thứ cho sự mỉa mai của tôi, nhưng một ví dụ điển hình rõ ràng về tiện ích của giá trị p là trong việc xuất bản. Tôi đã có một người thí nghiệm tiếp cận tôi để tạo ra giá trị p ... anh ấy đã giới thiệu một gen chuyển trong một cây duy nhất để cải thiện sự tăng trưởng. Từ nhà máy đơn lẻ đó, ông đã tạo ra nhiều bản sao và chọn bản sao lớn nhất, một ví dụ trong đó toàn bộ dân số được liệt kê. Câu hỏi của anh ấy, người đánh giá muốn thấy một giá trị p mà bản sao này là lớn nhất. Tôi đã đề cập rằng không cần bất kỳ số liệu thống kê nào trong trường hợp này vì anh ta có toàn bộ dân số trong tay, nhưng không có kết quả.

Nghiêm trọng hơn, theo quan điểm khiêm tốn của tôi, từ góc độ học thuật, tôi thấy những cuộc thảo luận này thú vị và kích thích, giống như các cuộc tranh luận thường xuyên vs Bayes từ vài năm trước. Nó đưa ra những quan điểm khác nhau của những bộ óc tốt nhất trong lĩnh vực này và làm sáng tỏ nhiều giả định / cạm bẫy liên quan đến phương pháp luận mà thường không dễ dàng nhận thấy.

Trong thực tế, tôi nghĩ rằng thay vì tranh luận về cách tiếp cận tốt nhất và thay thế một thước đo thiếu sót bằng một thước đo khác, như đã được đề xuất trước đây, đối với tôi, đó là một sự mặc khải về một vấn đề hệ thống tiềm ẩn và cần tập trung vào việc cố gắng tìm ra tối ưu các giải pháp. Chẳng hạn, người ta có thể đưa ra các tình huống trong đó các giá trị p và CI bổ sung cho nhau và hoàn cảnh trong đó một tình huống đáng tin cậy hơn các tình huống khác. Trong sơ đồ lớn, tôi hiểu rằng tất cả các công cụ suy luận đều có những thiếu sót riêng cần được hiểu trong bất kỳ ứng dụng nào để không cản trở tiến trình hướng tới mục tiêu cuối cùng .. sự hiểu biết sâu sắc hơn về hệ thống nghiên cứu.


6

Tôi sẽ cung cấp cho bạn trường hợp mẫu mực về cách sử dụng và báo cáo giá trị p. Đây là một báo cáo gần đây về việc tìm kiếm một hạt bí ẩn trên Máy va chạm Hadron lớn (LHC) ở CERN .

Vài tháng trước, có rất nhiều cuộc trò chuyện hào hứng trong giới vật lý năng lượng cao về khả năng một hạt lớn được phát hiện trên LHC. Hãy nhớ điều này là sau khi phát hiện ra boson của Higgs . Đây là đoạn trích từ bài báo "Tìm kiếm cộng hưởng phân rã thành các cặp photon trong 3,2 fb − 1 va chạm pp tại √s = 13 TeV với máy dò ATLAS" của Cộng tác viên ATLAS ngày 15 tháng 12 năm 2015 và nhận xét của tôi theo sau:

nhập mô tả hình ảnh ở đây

Điều họ nói ở đây là số lượng sự kiện vượt quá những gì Mô hình Chuẩn dự đoán. Hình dưới đây từ bài báo cho thấy giá trị p của các sự kiện dư thừa dưới dạng hàm của một khối hạt. Bạn thấy cách p-value lặn khoảng 750 GeV. Vì vậy, họ nói rằng có khả năng một hạt mới được phát hiện với khối lượng tương đương 750 Giga eV . Các giá trị p trên hình được tính là "cục bộ". Giá trị p toàn cầu cao hơn nhiều. Điều đó không quan trọng cho cuộc trò chuyện của chúng tôi.

Điều quan trọng là giá trị p chưa "đủ thấp" để các nhà vật lý tuyên bố tìm thấy, nhưng "đủ thấp" để có hứng thú. Vì vậy, họ dự định tiếp tục đếm và hy vọng rằng giá trị p sẽ giảm hơn nữa.

nhập mô tả hình ảnh ở đây

Thu phóng một vài tháng tới tháng 8 năm 2016, Chicago, một hội nghị về HEP . Có một báo cáo mới trình bày "Tìm kiếm sự sản xuất cộng hưởng của các cặp photon khối lượng lớn bằng cách sử dụng 12,9 fb − 1 va chạm proton-proton ở √ s = 13 TeV và kết hợp giải thích các tìm kiếm ở 8 và 13 TeV" của Hợp tác CMS lần này. Đây là đoạn trích với ý kiến ​​của tôi một lần nữa:

nhập mô tả hình ảnh ở đây

Vì vậy, các chàng trai tiếp tục thu thập các sự kiện, và bây giờ, các sự kiện dư thừa ở 750 GeV đã biến mất. Hình dưới đây từ bài báo cho thấy giá trị p và bạn có thể thấy giá trị p tăng so với báo cáo đầu tiên. Vì vậy, họ buồn bã kết luận rằng không có hạt nào được phát hiện ở 750 GeV.

nhập mô tả hình ảnh ở đây

Tôi nghĩ rằng đây là cách giá trị p được sử dụng. Họ hoàn toàn có ý nghĩa, và họ rõ ràng làm việc. Tôi nghĩ lý do là cách tiếp cận thường xuyên vốn dĩ là tự nhiên trong vật lý. Không có gì chủ quan về sự tán xạ hạt. Bạn thu thập một mẫu đủ lớn và bạn nhận được tín hiệu rõ ràng nếu nó ở đó.

Nếu bạn thực sự quan tâm đến cách tính giá trị p chính xác ở đây, hãy đọc bài viết này : "Công thức tiệm cận cho các thử nghiệm vật lý mới dựa trên khả năng" của Cowan et al


2
Mọi người đều hy vọng rằng đỉnh 750 GeV là có thật và hiện đang buồn. Nhưng tôi thực sự hy vọng nó sẽ trở thành một biến động (và có thể đặt cược nó sẽ xảy ra) và bây giờ tôi cảm thấy nhẹ nhõm. Tôi nghĩ thật tuyệt khi mô hình tiêu chuẩn hoạt động rất tốt. Không hoàn toàn hiểu được mong muốn cháy bỏng để vượt ra ngoài mô hình tiêu chuẩn (như thể mọi thứ khác trong vật lý được giải quyết). Dù sao, +1, ví dụ tốt.
amip nói rằng Phục hồi Monica

2

Các giải thích khác đều ổn, tôi chỉ muốn thử và đưa ra một câu trả lời ngắn gọn và trực tiếp cho câu hỏi xuất hiện trong đầu tôi.

Kiểm tra sự mất cân bằng đồng biến trong các thí nghiệm ngẫu nhiên

Khiếu nại thứ hai của bạn (về các giả thuyết null không thực tế) là không đúng khi chúng tôi đang kiểm tra số dư đồng biến trong các thử nghiệm ngẫu nhiên trong đó chúng tôi biết việc ngẫu nhiên được thực hiện đúng. Trong trường hợp này, chúng tôi biết rằng giả thuyết null là đúng. Dĩ nhiên, nếu chúng ta có một sự khác biệt đáng kể giữa nhóm điều trị và nhóm đối chứng - sau khi kiểm soát nhiều so sánh - thì điều đó cho chúng ta biết rằng chúng ta đã có "kết quả xấu" trong ngẫu nhiên và chúng ta có thể không nên tin vào ước tính nguyên nhân như nhiều Điều này là do chúng tôi có thể nghĩ rằng ước tính hiệu quả điều trị của chúng tôi từ sự ngẫu nhiên "rút thăm xấu" đặc biệt này khác xa với hiệu quả điều trị thực sự so với ước tính thu được từ "kết quả tốt".

Tôi nghĩ rằng đây là một cách sử dụng hoàn hảo các giá trị p. Nó sử dụng định nghĩa của giá trị p: xác suất nhận được một giá trị là cực trị hoặc đưa ra giả thuyết null. Nếu kết quả rất khó xảy ra, thì thực tế chúng tôi đã nhận được một "trận hòa tồi tệ".

Bảng / thống kê cân bằng cũng phổ biến khi sử dụng dữ liệu quan sát để thử và đưa ra các kết luận nguyên nhân (ví dụ: so khớp, thí nghiệm tự nhiên). Mặc dù trong các trường hợp này, các bảng cân đối không đủ để chứng minh nhãn "nhân quả" cho các ước tính.


Tôi không đồng ý rằng đây là cách sử dụng giá trị p hoàn hảo (hoặc thậm chí tốt). Làm thế nào để bạn xác định một "vẽ xấu"?
đánh dấu999

2
@ đánh dấu, được rồi. Tôi nghĩ rằng tôi có thể trả lời câu hỏi cuối cùng của bạn trong khi Matt đi vắng: tất nhiên là trong mẫu. Hãy tưởng tượng một thí nghiệm ngẫu nhiên với 50 người. Hãy tưởng tượng rằng điều đó đã xảy ra đến mức tất cả 25 người trong nhóm A hóa ra là đàn ông và tất cả 25 người trong nhóm B hóa ra là phụ nữ. Rõ ràng là điều này có thể đặt ra những nghi ngờ nghiêm trọng về bất kỳ kết luận nào của nghiên cứu; đó là một ví dụ về "trận hòa xấu". Matt đề nghị tiến hành một thử nghiệm về sự khác biệt về giới tính (đồng biến) giữa A và B. Tôi không thấy câu trả lời của Matt có thể được diễn giải khác nhau như thế nào. Có thể nói không có dân số ở đây.
amip nói rằng Phục hồi Monica

1
@ mark999 Nhưng một thử nghiệm cho sự khác biệt giữa 12/11 và 13/25 rõ ràng sẽ mang lại giá trị p không đáng kể cao, vì vậy tôi không chắc quan điểm của bạn ở đây là gì. Matt đề nghị chạy thử nghiệm và coi giá trị p thấp là cờ đỏ. Không có cờ đỏ trong ví dụ của bạn. Tôi nghĩ rằng tôi sẽ dừng ở đây và để Matt tiếp tục cuộc hội thoại nếu anh ấy muốn.
amip nói phục hồi Monica

4
Không. Xem 'ngụy biện kiểm tra cân bằng': gking.harvard.edu/files/matchse.pdf Bạn mô tả trường hợp bản thân thống kê kiểm tra có thể ổn (được sử dụng làm thước đo khoảng cách để giảm thiểu) nhưng giá trị p cho nó không giác quan.
liên hợp chiến

2
Đối với một cuộc kiểm tra gần đây hơn về vấn đề tâm lý học và thần kinh học, có một bản in lại arXiv mới . Khi bạn đang cân nhắc thao túng cân bằng, v.v., bạn không lấy mẫu ngẫu nhiên và ngay cả khi bạn, các bài kiểm tra trả lời một câu hỏi suy luận khác về cân bằng trong dân số không cân bằng trong mẫu.
Livius

2

Kiểm soát tỷ lệ lỗi tương tự như kiểm soát chất lượng trong sản xuất. Robot trong dây chuyền sản xuất có một quy tắc để quyết định rằng một bộ phận bị lỗi, đảm bảo không vượt quá tỷ lệ xác định của các bộ phận bị lỗi mà không bị phát hiện. Tương tự, một cơ quan đưa ra quyết định phê duyệt thuốc dựa trên các giá trị P "trung thực" có một cách để giữ tỷ lệ từ chối sai ở mức được kiểm soát, theo định nghĩa thông qua việc xây dựng các xét nghiệm dài hạn thường xuyên. Ở đây, "trung thực" có nghĩa là không có sự thiên vị không được kiểm soát, các lựa chọn ẩn, v.v.

Tuy nhiên, cả robot và cơ quan đều không có cổ phần cá nhân trong bất kỳ loại thuốc cụ thể nào hoặc một bộ phận đi qua băng tải lắp ráp. Trong khoa học, mặt khác, chúng tôi, với tư cách là các nhà điều tra cá nhân quan tâm nhất đến giả thuyết cụ thể mà chúng tôi nghiên cứu, hơn là về tỷ lệ khiếu nại giả trong tạp chí yêu thích của chúng tôi. Cả cường độ giá trị P cũng như giới hạn của khoảng tin cậy (CI) đều đề cập trực tiếp đến câu hỏi của chúng tôi về độ tin cậy của những gì chúng tôi báo cáo. Khi chúng ta xây dựng giới hạn CI, chúng ta nên nói rằng ý nghĩa duy nhất của hai con số là nếu các nhà khoa học khác thực hiện cùng một loại tính toán CI trong nghiên cứu của họ, thì 95% hoặc bất cứ điều gì sẽ được duy trì trong toàn bộ các nghiên cứu khác nhau .

Trong ánh sáng này, tôi thấy thật mỉa mai khi các giá trị P đang bị các tạp chí "cấm", vì trong khủng hoảng nhân rộng, chúng có giá trị hơn đối với các biên tập viên tạp chí hơn là các nhà nghiên cứu gửi bài báo của họ, như một cách thực tế để giữ tỷ lệ phát hiện giả được báo cáo bởi một tạp chí tại vịnh, về lâu dài. Giá trị P rất tốt trong việc lọc hoặc như IJ Good đã viết, chúng rất tốt để bảo vệ phần sau của nhà thống kê, nhưng không quá nhiều phần phía sau của máy khách.

Tái bút: Tôi là một fan hâm mộ lớn của ý tưởng của Stewamini và Hochberg về việc kỳ vọng vô điều kiện qua các nghiên cứu với nhiều bài kiểm tra. Theo "null" toàn cầu, FDR "thường xuyên" vẫn được kiểm soát - các nghiên cứu với một hoặc nhiều từ chối xuất hiện trên một tạp chí với tỷ lệ được kiểm soát, mặc dù, trong trường hợp này, bất kỳ nghiên cứu nào thực hiện một số từ chối thực sự đều có tỷ lệ từ chối sai bằng một.


1

Tôi đồng ý với Matt rằng giá trị p rất hữu ích khi giả thuyết null là đúng.

Ví dụ đơn giản nhất tôi có thể nghĩ đến là thử nghiệm một trình tạo số ngẫu nhiên. Nếu trình tạo hoạt động chính xác, bạn có thể sử dụng bất kỳ kích thước mẫu phù hợp nào của việc thực hiện và khi kiểm tra sự phù hợp trên nhiều mẫu, các giá trị p phải có phân phối đồng đều. Nếu họ làm, đây là bằng chứng tốt cho một thực hiện chính xác. Nếu họ không, bạn biết bạn đã mắc lỗi ở đâu đó.

Các tình huống tương tự khác xảy ra khi bạn biết một biến thống kê hoặc biến ngẫu nhiên nên có một phân phối nhất định (một lần nữa, bối cảnh rõ ràng nhất là mô phỏng). Nếu các giá trị p là đồng nhất, bạn đã tìm thấy hỗ trợ cho việc triển khai hợp lệ. Nếu không, bạn biết bạn có một vấn đề ở đâu đó trong mã của bạn.


1

Tôi có thể nghĩ về ví dụ trong đó giá trị p là hữu ích, trong Vật lý năng lượng cao thực nghiệm. Xem hình 1 Sơ đồ này được lấy từ bài báo này: Quan sát một hạt mới trong quá trình tìm kiếm boson Model Higgs tiêu chuẩn với máy dò ATLAS tại LHC

5σH125

nhập mô tả hình ảnh ở đây


1
Bạn cần cung cấp thêm thông tin về cốt truyện, với bối cảnh và cách giải quyết câu hỏi ban đầu. Đây không phải là gần đủ thông tin.
Greenparker

@Greenparker, đã cố gắng thêm một số nền tảng về cốt truyện.
Nicolas Gutierrez

±1σ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.