Hiệu ứng kích thước như giả thuyết để thử nghiệm ý nghĩa


37

Hôm nay, tại Câu lạc bộ Tạp chí Xác thực chéo (tại sao bạn không ở đó?), @Mbq hỏi:

Bạn có nghĩ rằng chúng ta (các nhà khoa học dữ liệu hiện đại) biết ý nghĩa quan trọng không? Và làm thế nào nó liên quan đến sự tự tin của chúng tôi trong kết quả của chúng tôi?

@Michelle trả lời như một số (bao gồm cả tôi) thường làm:

Tôi đang tìm thấy khái niệm về tầm quan trọng (dựa trên giá trị p) ngày càng ít hữu ích hơn khi tôi tiếp tục trong sự nghiệp. Ví dụ: tôi có thể đang sử dụng các bộ dữ liệu cực lớn để mọi thứ đều có ý nghĩa thống kê ( )p<.01

Đây có lẽ là một câu hỏi ngu ngốc, nhưng không phải là vấn đề giả thuyết đang được thử nghiệm? Nếu bạn kiểm tra giả thuyết null "A bằng B" thì bạn biết câu trả lời là "Không". Các tập dữ liệu lớn hơn sẽ chỉ đưa bạn đến gần hơn với kết luận chắc chắn đúng này. Tôi tin rằng chính Deming đã từng đưa ra một ví dụ với giả thuyết "số lượng lông ở bên phải của một con cừu bằng với số lông ở bên trái của nó." Chà, tất nhiên là không rồi.

Một giả thuyết tốt hơn sẽ là "A không khác với B quá nhiều." Hoặc, trong ví dụ về con cừu, "số lượng lông ở hai bên của con cừu không khác nhau nhiều hơn X%".

Điều này có nghĩa không?


1) Thử nghiệm tính tương đương trung bình (giả sử đó là những gì bạn muốn) trong một số trường hợp có thể được đơn giản hóa để kiểm tra tầm quan trọng của sự khác biệt trung bình của chúng. Với một lỗi tiêu chuẩn cho ước tính chênh lệch này, bạn có thể thực hiện tất cả các loại thử nghiệm "không khác biệt với B bằng nhiều ...". 2) Đối với kích thước mẫu - có, đối với ss lớn, tầm quan trọng của việc giảm đáng kể, nhưng nó vẫn rất quan trọng đối với các mẫu nhỏ hơn, nơi bạn không thể chỉ tạo các giá trị bổ sung.
Ondrej

11
Re "Tất nhiên là không." Theo phỏng đoán, một con cừu có thứ tự sợi lông ở mỗi bên. Nếu có một số chẵn như vậy và chúng được phân phối ngẫu nhiên với cơ hội bằng nhau ở cả hai bên và hai bên được phân định rõ ràng, thì khả năng cả hai số này chính xác bằng nhau là 0,178%. Trong một đàn lớn vài trăm con, bạn sẽ mong đợi được nhìn thấy một con cừu cân bằng hoàn hảo như vậy được sinh ra ít nhất một lần mỗi thập kỷ (giả sử số lông chẵn xuất hiện khoảng 50% thời gian). Hoặc: chỉ về mỗi người chăn nuôi cừu già đã có một con cừu như vậy! 105
whuber

1
@whuber Nó được xác định bởi mục đích của phân tích. Một sự tương tự tốt hơn sẽ là kích thước hiệu quả tối thiểu sẽ chứng minh sự đầu tư thêm vào một loại thuốc sau một thử nghiệm. Chỉ cần sự tồn tại của một tác dụng có ý nghĩa thống kê là không đủ, vì việc phát triển một loại thuốc rất tốn kém và có thể có những tác dụng phụ cần được xem xét. Đó không phải là một câu hỏi thống kê, nhưng là một câu hỏi thực tế.
Dikran Marsupial

2
@whuber Tôi nghi ngờ rằng trong hầu hết các ứng dụng không có thông tin thực tế để quyết định kích thước hiệu ứng tối thiểu của lợi ích, thì thử nghiệm giả thuyết tiêu chuẩn là tốt, ví dụ thử nghiệm cho tính quy phạm. Là một người Bayes, tôi đồng ý với quan điểm là một vấn đề tối ưu hóa hơn là vấn đề kiểm tra giả thuyết. Một phần của vấn đề với các bài kiểm tra giả thuyết là kết quả của cách tiếp cận sách dạy nấu ăn thống kê, trong đó các bài kiểm tra được thực hiện như một truyền thống mà không xem xét đúng mục đích của bài tập, hoặc ý nghĩa thực sự của kết quả (tất nhiên là IMHO).
Dikran Marsupial

1
@DikranMarsupial không phải là chìa khóa mà các sinh viên đang được dạy kiểm tra bằng cách học vẹt, như được xác định bởi gung dưới đây, thay vì tầm quan trọng của thiết kế nghiên cứu tốt? Việc nhấn mạnh hơn vào thiết kế nghiên cứu sẽ giúp giải quyết một số vấn đề - không nhất thiết phải có các tập dữ liệu lớn?
Michelle

Câu trả lời:


25

Theo như thử nghiệm ý nghĩa (hoặc bất cứ điều gì khác về cơ bản giống như thử nghiệm ý nghĩa), từ lâu tôi đã nghĩ rằng cách tiếp cận tốt nhất trong hầu hết các tình huống có thể là ước tính kích thước hiệu ứng được tiêu chuẩn hóa, với khoảng tin cậy 95% về điều đó độ hiệu quả. Không có gì thực sự mới ở đó - về mặt toán học, bạn có thể xáo trộn qua lại giữa chúng - nếu giá trị p cho 'nil' null là <0,05, thì 0 sẽ nằm ngoài 95% CI và ngược lại. Lợi thế của điều này, theo tôi, là tâm lý; nghĩa là, nó làm cho thông tin nổi bật tồn tại nhưng mọi người không thể nhìn thấy khi chỉ báo cáo giá trị p. Ví dụ, thật dễ dàng để thấy rằng một hiệu ứng cực kỳ "đáng kể", nhưng nhỏ đến mức nực cười; hoặc 'không đáng kể', nhưng chỉ vì các thanh lỗi rất lớn trong khi hiệu quả ước tính ít nhiều là những gì bạn mong đợi. Chúng có thể được ghép nối với các giá trị thô và CI của chúng.

Bây giờ, trong nhiều lĩnh vực, các giá trị thô thực sự có ý nghĩa và tôi nhận ra rằng điều đó đặt ra câu hỏi liệu có còn giá trị để tính các biện pháp kích thước hiệu ứng cho rằng chúng ta đã có các giá trị như phương tiện và độ dốc hay không. Một ví dụ có thể là nhìn vào sự tăng trưởng thấp còi; chúng ta biết ý nghĩa của một người đàn ông 20 tuổi, da trắng ngắn hơn 6 +/- 2 inch (tức là 15 +/- 5 cm), so với những gì họ có thể, vậy tại sao lại đề cập đến ? Tôi có xu hướng nghĩ rằng vẫn có thể có giá trị trong báo cáo cả hai và các hàm có thể được viết để tính toán những thứ này để nó làm thêm rất ít, nhưng tôi nhận ra rằng ý kiến ​​sẽ thay đổi. Ở mức độ nào, tôi lập luận rằng các ước tính điểm với khoảng tin cậy thay thế giá trị p là phần đầu tiên trong phản hồi của tôi. d=1.6±.5

Mặt khác, tôi nghĩ một câu hỏi lớn hơn là 'có phải việc kiểm tra ý nghĩa thực hiện những gì chúng ta thực sự muốn?' Tôi nghĩ vấn đề thực sự là đối với hầu hết mọi người phân tích dữ liệu (nghĩa là các học viên không phải là thống kê), kiểm tra ý nghĩa có thể trở thành toàn bộ phân tích dữ liệu. Dường như với tôi, điều quan trọng nhất là có một cách nguyên tắc để suy nghĩ về những gì đang xảy ra với dữ liệu của chúng tôi và kiểm tra ý nghĩa giả thuyết null là, một phần rất nhỏ trong đó. Hãy để tôi đưa ra một ví dụ tưởng tượng (tôi thừa nhận rằng đây là tranh biếm họa, nhưng thật không may, tôi sợ nó có phần hợp lý):

Bob tiến hành một nghiên cứu, thu thập dữ liệu về thứ này hay thứ khác. Anh ta hy vọng dữ liệu sẽ được phân phối bình thường, phân cụm chặt chẽ xung quanh một số giá trị và dự định tiến hành thử nghiệm một mẫu để xem liệu dữ liệu của anh ta có 'khác biệt đáng kể' so với một số giá trị được chỉ định trước hay không. Sau khi thu thập mẫu của mình, anh ta kiểm tra xem dữ liệu của mình có được phân phối bình thường hay không và thấy rằng chúng không phải. Thay vào đó, chúng không có một khối rõ rệt ở trung tâm nhưng tương đối cao trong một khoảng thời gian nhất định và sau đó thoát ra với một cái đuôi dài bên trái. Bob lo lắng về những gì anh ta nên làm để đảm bảo rằng bài kiểm tra của mình là hợp lệ. Anh ta kết thúc việc làm một cái gì đó (ví dụ, một phép biến đổi, một phép thử không tham số, v.v.), và sau đó báo cáo một thống kê kiểm tra và giá trị p.

Tôi hy vọng điều này không xảy ra là khó chịu. Tôi không có ý chế giễu bất cứ ai, nhưng tôi nghĩ đôi khi điều này xảy ra. Nếu kịch bản này xảy ra, tất cả chúng ta có thể đồng ý rằng đó là phân tích dữ liệu kém. Tuy nhiên, vấn đề không phải là thống kê kiểm tra hoặc giá trị p là sai; chúng ta có thể khẳng định rằng dữ liệu đã được xử lý đúng theo khía cạnh đó. Tôi sẽ lập luận rằng vấn đề là Bob đang tham gia vào cái mà Cleveland gọi là "phân tích dữ liệu vẹt". Anh ta dường như tin rằng điểm duy nhất là có được giá trị p phù hợp và nghĩ rất ít về dữ liệu của mình ngoài việc theo đuổi mục tiêu đó. Anh ta thậm chí có thể đã chuyển sang đề xuất của tôi ở trên và báo cáo kích thước hiệu ứng được tiêu chuẩn hóa với khoảng tin cậy 95% và nó sẽ không thay đổi những gì tôi thấy là vấn đề lớn hơn (đây là điều tôi muốn nói "về cơ bản giống như vậy "Bằng một cách khác). Trong trường hợp cụ thể này, thực tế là dữ liệu không giống như anh ta mong đợi (nghĩa là không bình thường) là thông tin thực, thật thú vị, và rất có thể quan trọng, nhưng thông tin đó về cơ bản chỉ là vứt đi. Bob không nhận ra điều này, vì tập trung vào thử nghiệm quan trọng. Theo tôi, đó là vấn đề thực sự với việc kiểm tra ý nghĩa.

Hãy để tôi giải quyết một vài quan điểm khác đã được đề cập, và tôi muốn rất rõ ràng rằng tôi không chỉ trích bất cứ ai.

  1. Người ta thường đề cập rằng nhiều người không thực sự hiểu giá trị p (ví dụ, nghĩ rằng đó là xác suất null là đúng), v.v. Đôi khi người ta lập luận rằng, nếu chỉ có người sử dụng phương pháp Bayes, những vấn đề này sẽ biến đi. Tôi tin rằng mọi người có thể tiếp cận phân tích dữ liệu Bayes theo cách hoàn toàn không khoa học và máy móc. Tuy nhiên, tôi nghĩ rằng việc hiểu sai ý nghĩa của giá trị p sẽ ít gây hại hơn nếu không ai nghĩ nhận được giá trị p là mục tiêu.
  2. Sự tồn tại của 'dữ liệu lớn' thường không liên quan đến vấn đề này. Dữ liệu lớn chỉ rõ ràng rằng việc tổ chức phân tích dữ liệu xung quanh 'tầm quan trọng' không phải là một cách tiếp cận hữu ích.
  3. Tôi không tin vấn đề là với giả thuyết đang được thử nghiệm. Nếu mọi người chỉ muốn xem liệu giá trị ước tính nằm ngoài một khoảng, chứ không phải nếu nó bằng một giá trị điểm, nhiều vấn đề tương tự có thể phát sinh. (Một lần nữa, tôi muốn làm rõ Tôi biết bạn không phải là 'Bob' .)
  4. Đối với hồ sơ, tôi muốn đề cập rằng đề xuất của riêng tôi từ đoạn đầu tiên, không giải quyết vấn đề, như tôi đã cố gắng chỉ ra.

Đối với tôi, đây là vấn đề cốt lõi: Những gì chúng ta thực sự muốn là một cách nguyên tắc để suy nghĩ về những gì đã xảy ra . Điều đó có nghĩa là trong bất kỳ tình huống nhất định không được cắt và sấy khô. Làm thế nào để truyền đạt điều đó cho sinh viên trong một lớp phương pháp không rõ ràng cũng không dễ dàng. Kiểm tra ý nghĩa có rất nhiều quán tính và truyền thống đằng sau nó. Trong một lớp thống kê, rõ ràng những gì cần được dạy và làm thế nào. Đối với sinh viên và học viên, có thể phát triển một lược đồ khái niệm để hiểu tài liệu và một danh sách kiểm tra / sơ đồ (tôi đã thấy một số!) Để tiến hành phân tích. Kiểm tra ý nghĩa có thể tự nhiên phát triển thành phân tích dữ liệu vẹt mà không có ai bị câm hoặc lười biếng hoặc xấu. Đó là vấn đề.


Tôi thích khoảng tin cậy :) Một câu hỏi: ý của bạn là ngụ ý rằng tính toán bài hoc về kích thước hiệu ứng có ổn không?
Michelle

x¯1=10x¯2=14SD=6d=.67

Vâng, tôi nghĩ rằng chúng tôi đang đồng ý ở đây.
Michelle

+1 Câu chuyện về Bob làm tôi nhớ đến điều này: pss.sagepub.com/content/early/2011/10/17/0956797611417632
Carlos Accioly

+1 Tôi thích khoảng thời gian đáng tin cậy bản thân mình. Về điểm 1 tôi sẽ lập luận rằng các lựa chọn thay thế Bayes ít có khả năng dẫn đến phân tích dữ liệu vẹt, vì định nghĩa của xác suất không quá trực quan, giúp cho việc đặt câu hỏi mà bạn thực sự muốn hỏi theo cách thống kê dễ dàng hơn nhiều . Vấn đề thực sự nằm ở chỗ việc thực hiện thử nghiệm đòi hỏi phải có sự xen kẽ, quá khó để các phương pháp đó được áp dụng rộng rãi. Hy vọng phần mềm sẽ phát triển đến mức người dùng có thể tập trung vào việc hình thành câu hỏi và để phần còn lại cho máy tính.
Dikran Marsupial

18

Tại sao chúng tôi nhấn mạnh vào bất kỳ hình thức kiểm tra giả thuyết nào trong thống kê?

Trong cuốn sách tuyệt vời Thống kê như lý luận nguyên tắc Robert Abelson lập luận rằng phân tích thống kê là một phần của một lập luận nguyên tắc về chủ đề được đề cập. Ông nói rằng, thay vì được đánh giá là giả thuyết bị từ chối hoặc không bị từ chối (hoặc thậm chí được chấp nhận!?!) Chúng ta nên đánh giá chúng dựa trên những gì ông gọi là tiêu chí MAGIC:

Tầm quan trọng - nó lớn như thế nào? Phát âm - Có đầy đủ các ngoại lệ? Có rõ không? Tính tổng quát - Nó thường được áp dụng như thế nào? Thú vị - Chúng ta có quan tâm đến kết quả không? Sự tín nhiệm - Chúng ta có thể tin được không?

Đánh giá của tôi về cuốn sách trên blog của tôi


4
Vấn đề được gây ra bởi một số giáo sư. Tiến sĩ của tôi là trong khoa tâm lý học, đó là trong khoa tâm lý học. Tôi nghe các giáo sư từ các bộ phận khác nói rằng "chỉ báo cáo giá trị p, đó mới là vấn đề". Công việc của tôi là tư vấn, chủ yếu là với các sinh viên tốt nghiệp và các nhà nghiên cứu trong các lĩnh vực xã hội, hành vi, giáo dục và y tế. Số lượng thông tin sai lệch được đưa ra bởi các ủy ban tiến sĩ là đáng kinh ngạc.
Peter Flom - Tái lập Monica

1
+1 cho "Tại sao ...", đó là một phần lớn của những gì tôi đã cố gắng nhận được trong câu trả lời của mình.
gung - Phục hồi Monica

Một phần khác của những gì tôi đã cố gắng để có được trong câu trả lời của tôi là tôi nghĩ rằng điều này xảy ra tự nhiên. Btw, không có công bằng nhận được hai upvote ;-), bạn có thể kết hợp những thứ này.
gung - Phục hồi Monica

13

H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2Pr(|X1X2|>ϵ)


(+1) Và, chào mừng đến 1000 danh tiếng. Chúc mừng.
Đức hồng y

6

Các thử nghiệm giả thuyết truyền thống cho bạn biết liệu có bằng chứng có ý nghĩa thống kê cho sự tồn tại của hiệu ứng hay không, trong khi điều chúng ta thường muốn biết là sự tồn tại của bằng chứng về hiệu quả thực tế.

Chắc chắn có thể hình thành các "bài kiểm tra giả thuyết" của Bayes với kích thước hiệu ứng tối thiểu (IIRC có một ví dụ về điều này trong cuốn sách của David MacKay về "Lý thuyết thông tin, suy luận và thuật toán học tập", tôi sẽ tìm kiếm nó khi tôi có một khoảnh khắc .

Kiểm tra định mức là một ví dụ điển hình khác, chúng tôi thường biết rằng dữ liệu không thực sự được phân phối bình thường, chúng tôi chỉ kiểm tra để xem liệu có bằng chứng nào cho thấy đây không phải là một xấp xỉ hợp lý. Hoặc thử nghiệm cho sự thiên vị của một đồng tiền, chúng tôi biết rằng nó khó có thể bị sai lệch hoàn toàn vì nó là giả định.


6

Rất nhiều điều này thuộc về câu hỏi mà bạn đang thực sự hỏi, cách bạn thiết kế nghiên cứu của bạn và thậm chí cả những gì bạn có nghĩa là bằng nhau.

Tôi đã chạy accros một phần nhỏ thú vị trong Tạp chí Y học Anh khi nói về những gì mọi người diễn giải các giai đoạn nhất định. Nó chỉ ra rằng "luôn luôn" có thể có nghĩa là một cái gì đó xảy ra thấp đến 91% (BMJ VOLUME 333 26 THÁNG 8 NĂM 2006 trang 445). Vì vậy, có thể bằng và tương đương (hoặc trong X% đối với một số giá trị của X) có thể được cho là có nghĩa tương tự. Và hãy hỏi máy tính một đẳng thức đơn giản, sử dụng R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

$$

Ha:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμμ0μμ0μ0 μ

Rất nhiều trong số này đi xuống để đặt câu hỏi đúng và thiết kế nghiên cứu đúng cho câu hỏi đó. Nếu bạn kết thúc với đủ dữ liệu để cho thấy rằng một sự khác biệt thực sự vô nghĩa có ý nghĩa thống kê, thì bạn đã lãng phí tài nguyên để có được nhiều dữ liệu đó. Sẽ tốt hơn nếu quyết định một sự khác biệt có ý nghĩa sẽ là gì và thiết kế nghiên cứu để cung cấp cho bạn đủ sức mạnh để phát hiện sự khác biệt đó nhưng không nhỏ hơn.

Và nếu chúng ta thực sự muốn chia tóc, làm thế nào để chúng ta xác định phần nào của con cừu ở bên phải và phần bên trái? Nếu chúng ta định nghĩa nó bằng một dòng mà theo định nghĩa có số lượng lông bằng nhau ở mỗi bên thì câu trả lời cho câu hỏi trên trở thành "Tất nhiên là như vậy".


Tôi nghi ngờ câu trả lời bạn nhận được từ R chỉ đơn giản là kết quả của một số vấn đề số học dấu phẩy động, không phải là một quyết định có ý thức để coi thường những khác biệt không liên quan. Hãy xem xét ví dụ kinh điển (.1 + .2) == .3 Một nhà toán học thuần túy Cạn sẽ cho bạn biết họ bằng nhau, ở bất kỳ mức độ chính xác nào, nhưng R trả về FALSE.
Gala

@ GaëlLaurans, quan điểm của tôi là do làm tròn (dù là bằng con người hay bằng máy tính), các khái niệm chính xác bằng nhau và trong X% cho một X đủ nhỏ thực tế là như nhau.
Greg Snow

5

Từ góc độ tổ chức, có thể là chính phủ với các lựa chọn chính sách hoặc một công ty đang tìm cách đưa ra một quy trình / sản phẩm mới, việc sử dụng phân tích lợi ích chi phí đơn giản cũng có thể giúp ích. Tôi đã lập luận trong quá khứ rằng (bỏ qua các lý do chính trị) với chi phí đã biết của một sáng kiến ​​mới, điểm hòa vốn cho số người phải chịu ảnh hưởng tích cực của sáng kiến ​​đó là gì? Ví dụ, nếu sáng kiến ​​mới là đưa nhiều người thất nghiệp vào làm việc và chi phí sáng kiến $100,000, liệu nó có đạt được mức giảm chuyển giao thất nghiệp ít nhất $100,000không? Nếu không, thì hiệu quả của sáng kiến ​​không thực sự có ý nghĩa.

Đối với kết quả sức khỏe, giá trị của một cuộc sống thống kê có tầm quan trọng. Điều này là do các lợi ích sức khỏe được tích lũy trong suốt cuộc đời (và do đó, các lợi ích được điều chỉnh giảm giá trị dựa trên tỷ lệ chiết khấu ). Vì vậy, thay vì có ý nghĩa thống kê, người ta sẽ tranh luận về cách ước tính giá trị của một cuộc sống thống kê và tỷ lệ chiết khấu nào sẽ được áp dụng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.