Làm thế nào để kiểm tra giả thuyết không có sự khác biệt nhóm?


39

Hãy tưởng tượng bạn có một nghiên cứu với hai nhóm (ví dụ: nam và nữ) đang xem xét một biến phụ thuộc số (ví dụ: điểm kiểm tra trí thông minh) và bạn có giả thuyết rằng không có sự khác biệt về nhóm.

Câu hỏi:

  • Một cách tốt để kiểm tra xem không có sự khác biệt nhóm?
  • Làm thế nào bạn sẽ xác định kích thước mẫu cần thiết để kiểm tra đầy đủ cho không có sự khác biệt nhóm?

Suy nghĩ ban đầu:

  • Sẽ không đủ để thực hiện kiểm tra t tiêu chuẩn vì việc không từ chối giả thuyết null không có nghĩa là tham số quan tâm bằng hoặc gần bằng 0; đây là trường hợp đặc biệt với các mẫu nhỏ
  • Tôi có thể xem xét khoảng tin cậy 95% và kiểm tra xem tất cả các giá trị nằm trong một phạm vi đủ nhỏ; có lẽ cộng hoặc trừ 0,3 độ lệch chuẩn.

ý bạn là gì khi "điều này giả định giả thuyết khống là đúng"?
cướp girard

Nếu bạn muốn có thể kiểm soát xác suất khai báo sai "có một sự khác biệt", bạn cần tách hai giả thuyết (tôi đã đề cập đến việc tôi thích trích dẫn này: stats.stackexchange.com/questions/726/ tựa ;))
cướp girard

@Robin giá trị p của một thử nghiệm có ý nghĩa giả thuyết null là xác suất nhìn thấy hoặc nhiều dữ liệu cực đoan hơn so với giả định giả định null là đúng; nhưng có lẽ tôi có thể từ những tuyên bố trên tốt hơn.
Jeromy Anglim

@Robin Tôi đã sửa đổi câu hỏi để cố gắng làm rõ hơn quan điểm của mình
Jeromy Anglim

Câu trả lời:


20

Tôi nghĩ rằng bạn đang hỏi về thử nghiệm cho tương đương . Về cơ bản, bạn cần phải quyết định mức độ chênh lệch lớn có thể chấp nhận được đối với bạn để vẫn kết luận rằng hai nhóm tương đương nhau một cách hiệu quả. Quyết định đó xác định giới hạn khoảng tin cậy 95% (hoặc khác) và tính toán kích thước mẫu được thực hiện trên cơ sở này.

Có cả một cuốn sách về chủ đề này.

Một "tương đương" lâm sàng rất phổ biến của các xét nghiệm tương đương là xét nghiệm / thử nghiệm không kém . Trong trường hợp này, bạn "thích" một nhóm hơn nhóm kia (một phương pháp điều trị đã được thiết lập) và thiết kế thử nghiệm của bạn để cho thấy rằng phương pháp điều trị mới không thua kém điều trị đã được thiết lập ở một số mức độ bằng chứng thống kê.

Tôi nghĩ rằng tôi cần phải ghi có Harvey Motulsky cho trang web GraphPad.com (trong "Thư viện" ).


16

Bên cạnh khả năng đã được đề cập của một số loại thử nghiệm tương đương , trong đó hầu hết trong số chúng, theo sự hiểu biết tốt nhất của tôi, hầu hết được định hướng theo truyền thống thường xuyên cũ, có khả năng tiến hành các thử nghiệm thực sự cung cấp định lượng bằng chứng trong ủng hộ một giả thuyết null, cụ thể là các bài kiểm tra bayes .

Một triển khai thử nghiệm t bayesian có thể được tìm thấy ở đây: Wetzels, R., Raaijmakers, JGW, Jakab, E., & Wagenmakers, E.-J. (2009). Cách định lượng hỗ trợ cho và chống lại giả thuyết null: Việc triển khai WinBUGS linh hoạt của kiểm tra t Bayes mặc định. Bản tin & Đánh giá tâm lý, 16, 752-760.

Ngoài ra còn có một hướng dẫn về cách làm tất cả điều này trong R:

http://www.ruudwetzels.com/index.php?src=SDtest


Một cách khác (có lẽ là cách tiếp cận hiện đại hơn) của bài kiểm tra t Bayes được cung cấp (có mã) trong bài viết này của Kruschke:

Kruschke, JK (2013). Ước lượng Bayes thay thế thử nghiệm t . Tạp chí Tâm lý học Thực nghiệm: Chung , 142 (2), 573 Ảo603. doi: 10.1037 / a0029146


Tất cả các đạo cụ cho câu trả lời này (trước khi thêm Kruschke) nên đến đồng nghiệp của tôi David Kellen. Tôi đã đánh cắp câu trả lời của anh ấy từ câu hỏi này .


Tôi đã tự hỏi nếu ai đó sẽ cung cấp một cách tiếp cận Bayes. Xuất sắc. Cảm ơn.
Jeromy Anglim

1
Có thể đáng để cập nhật câu trả lời này để bao gồm một tham chiếu đến gói BayesFactor tuyệt vời cho R.
crsh


8

Có hàng tấn giấy tờ và thậm chí sách về chủ đề này.
Michael Chernick

7

Gần đây tôi đã nghĩ về một cách khác của "thử nghiệm tương đương" dựa trên khoảng cách giữa hai bản phân phối thay vì giữa các phương tiện của chúng.

Có một số phương pháp cung cấp khoảng tin cậy cho sự chồng chéo của hai phân phối Gaussian:nhập mô tả hình ảnh ở đây

O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1 và .P2

Điều đó có nghĩa là, ví dụ, nếu thì xác suất được đưa ra bởi của bất kỳ sự kiện nào không khác nhau nhiều hơn . Nói một cách đơn giản, hai bản phân phối đưa ra dự đoán giống nhau lên tới .O(P1,P2)>0.9P1P20.110%

Do đó, thay vì sử dụng tiêu chí chấp nhận dựa trên giá trị quan trọng cho sự khác biệt giữa phương tiện và , như trong thử nghiệm tương đương cổ điển, chúng tôi có thể dựa trên giá trị quan trọng cho sự khác biệt giữa xác suất của các dự đoán được đưa ra bởi Hai bản phân phối.μ1μ2

Tôi nghĩ rằng có một lợi thế về "tính khách quan" của tiêu chí. Giá trị tới hạn củanên được đưa ra bởi một chuyên gia về vấn đề thực sự: đây phải là một giá trị vượt ra ngoài sự khác biệt có tầm quan trọng thực tế. Nhưng đôi khi không ai có kiến ​​thức vững chắc về vấn đề thực sự và không có chuyên gia nào có thể cung cấp một giá trị quan trọng. Việc chấp nhận một giá trị quan trọng thông thường về có thể là một cách để một tiêu chí không phụ thuộc vào vấn đề vật lý đang được xem xét.|μ1μ2|TV(P1,P2)

Trong trường hợp Gaussian có cùng phương sai, sự trùng lặp là một đối một liên quan đến sự khác biệt trung bình được tiêu chuẩn hóa .|μ1μ2|σ


Bạn có bất kỳ tài nguyên nào cho thấy sự chồng chéo đang được sử dụng trong một số vấn đề thực sự không? Điều này nghe có vẻ rất hứa hẹn, nhưng đối với tôi không rõ người ta sẽ áp dụng nó như thế nào trong một vấn đề thực sự (trong đó kết luận của bạn có khả năng bị loại bỏ vài bước khỏi "phân phối này khá giống với X", do đó làm cho nó hơi khó để thấy điều đó như thế nào 10% TV chuyển thành kích thước của tác động lên các suy luận).
Stumpy Joe Pete

1
@StumpyJoePete Tôi đã viết một cái gì đó với tinh thần tương tự trên blog của mình: stla.github.io/stlapblog/posts/ trộm
Stéphane Laurent

5

Trong các ngành khoa học y tế, tốt hơn là sử dụng cách tiếp cận khoảng tin cậy thay vì hai xét nghiệm một phía (tost). Tôi cũng khuyên bạn nên vẽ đồ thị ước tính điểm, các TCTD và tỷ lệ tương đương được xác định trước để xác định rõ ràng.

Câu hỏi của bạn có thể sẽ được giải quyết bằng một cách tiếp cận như vậy.

Các hướng dẫn TIÊU DÙNG cho các nghiên cứu không thua kém / tương đương là khá hữu ích trong vấn đề này.

Xem Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ và nhóm TIẾNG VIỆT. Báo cáo về các thử nghiệm ngẫu nhiên không tương đương và tương đương: một phần mở rộng của tuyên bố TIÊU DÙNG. JAMA. 2006, 8 tháng 3; 295 (10): 1152-60. (Liên kết đến toàn văn.)


1
Tôi không nhất thiết phải nói rằng khoảng tin cậy được ưa thích. Trong thực tế, khoảng tin cậy tương ứng với các bài kiểm tra giả thuyết. TOST có thể đạt được bằng cách xem xét các khoảng tin cậy thu được bằng cách giao giữa hai khoảng tin cậy một phía tương ứng với hai phép thử t một phía được sử dụng trong quy trình.
Michael Chernick

4

Vâng. Đây là thử nghiệm tương đương. Về cơ bản, bạn đảo ngược giả thuyết không và thay thế và dựa vào kích thước mẫu dựa trên sức mạnh để cho thấy rằng sự khác biệt của phương tiện nằm trong cửa sổ tương đương. Blackwelder gọi đó là "Chứng minh giả thuyết khống". Điều này thường được thực hiện trong các thử nghiệm lâm sàng dược phẩm trong đó sự tương đương của một loại thuốc chung với thuốc bán trên thị trường được thử nghiệm hoặc một loại thuốc được phê duyệt được so sánh với một công thức mới (thường được gọi là tương đương sinh học). Phiên bản một mặt được gọi là không thua kém. Đôi khi một loại thuốc có thể được chấp thuận chỉ bằng cách chỉ ra rằng loại thuốc mới không thua kém đối thủ cạnh tranh trên thị trường. Shao và Pigeot đã phát triển một cách tiếp cận bootstrap nhất quán để tương đương sinh học bằng cách sử dụng các thiết kế chéo.


0

Bootstrap khác biệt (ví dụ: sự khác biệt giữa các phương tiện) giữa 2 nhóm mẫu và kiểm tra ý nghĩa thống kê. Một mô tả chi tiết hơn về phương pháp này, mặc dù trong một bối cảnh khác, có thể được tìm thấy ở đây http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/


1
Bạn đang nhầm lẫn sự sai lầm của việc chấp nhận giả thuyết khống không có sự khác biệt và tìm thấy bằng chứng cho thấy hai đại lượng là tương đương .
Alexis
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.