Bài kiểm tra hai đuôi Bài tôi không bị thuyết phục. Vấn đề ở đây là gì?


59

Đoạn trích sau đây là từ mục, Sự khác biệt giữa các bài kiểm tra một đuôi và hai đuôi là gì? , trên trang trợ giúp thống kê của UCLA.

... Hãy xem xét hậu quả của việc thiếu một hiệu ứng theo hướng khác. Hãy tưởng tượng bạn đã phát triển một loại thuốc mới mà bạn tin là một sự cải tiến so với một loại thuốc hiện có. Bạn muốn tối đa hóa khả năng phát hiện sự cải thiện, vì vậy bạn chọn thử nghiệm một lần. Khi làm như vậy, bạn không kiểm tra khả năng thuốc mới kém hiệu quả hơn thuốc hiện có.

Sau khi tìm hiểu những điều cơ bản tuyệt đối của kiểm tra giả thuyết và đến phần về một trong hai bài kiểm tra đuôi ... Tôi hiểu toán học cơ bản và tăng khả năng phát hiện của một bài kiểm tra đuôi, v.v ... Nhưng tôi chỉ không thể quấn lấy đầu mình xung quanh một điều ... quan điểm là gì? Tôi thực sự không hiểu tại sao bạn nên phân chia alpha của mình giữa hai thái cực khi kết quả mẫu của bạn chỉ có thể ở một hoặc khác hoặc không.

Lấy kịch bản ví dụ từ văn bản trích dẫn ở trên. Làm thế nào bạn có thể "không thể kiểm tra" cho kết quả theo hướng ngược lại? Bạn có ý nghĩa mẫu của bạn. Bạn có ý nghĩa dân số của bạn. Số học đơn giản cho bạn biết cái nào cao hơn. Có gì để kiểm tra, hoặc không kiểm tra, theo hướng ngược lại? Điều gì ngăn cản bạn chỉ bắt đầu từ đầu với giả thuyết ngược lại nếu bạn thấy rõ rằng ý nghĩa của mẫu là tắt theo hướng khác?

Một trích dẫn khác từ cùng một trang:

Chọn thử nghiệm một đầu sau khi chạy thử nghiệm hai đuôi mà không từ chối giả thuyết khống là không phù hợp, bất kể mức độ "gần" với thử nghiệm hai đuôi có ý nghĩa như thế nào.

Tôi cho rằng điều này cũng áp dụng để chuyển đổi tính phân cực của bài kiểm tra một đầu của bạn. Nhưng làm thế nào mà kết quả "tài liệu hóa" này ít có giá trị hơn so với việc bạn chỉ đơn giản chọn bài kiểm tra một đầu đúng ở vị trí đầu tiên?

Rõ ràng tôi đang thiếu một phần lớn của bức tranh ở đây. Tất cả chỉ có vẻ quá độc đoán. Theo tôi, đó là ý nghĩa của những gì biểu thị "có ý nghĩa thống kê" - 95%, 99%, 99,9% ... là tùy ý bắt đầu.


18
Đây có vẻ là một câu hỏi hoàn toàn tốt với tôi, +1.
gung - Phục hồi Monica

5
Mặc dù hoàn toàn rõ ràng rằng bạn nên thiết kế thử nghiệm và thử nghiệm của mình trước khi thu thập dữ liệu, tôi thấy ví dụ của họ về các loại thuốc khá hấp dẫn với thực tế là các loại thuốc mới thường được thử nghiệm với xét nghiệm 1 mặt mà không bị phản đối nhiều .
P-Gn

3
@ user1735003 một bài báo mỉa mai khi xem xét nhiều thử nghiệm về tâm trạng / hành vi điều chỉnh dược phẩm đang được xem xét kỹ lưỡng cho sự thiên vị của người quan sát. Một Cochrane thú vị về Ritalin ở đây . "Ưu thế vượt trội của giả dược" là điều mà bất kỳ người dùng thử nào cũng gọi là "tác hại", vì vậy tôi không thấy nó ít nhất là không thể tưởng tượng được. Nhưng trong các thử nghiệm này, nếu các nghiên cứu dừng lại để gây hại, tín hiệu là từ các sự kiện bất lợi.
AdamO

10
"Bạn có ý nghĩa mẫu của bạn. Bạn có ý nghĩa dân số của bạn ... Điều gì ngăn bạn bắt đầu lại từ đầu với giả thuyết ngược lại nếu bạn thấy rõ rằng ý nghĩa của mẫu là đi theo hướng khác?" . Không, toàn bộ vấn đề kiểm định giả thuyết là bạn không có ý nghĩa dân số và bạn đang sử dụng trung bình mẫu để kiểm tra giả định về ý nghĩa dân số (giả thuyết khống). Vì vậy, không có "rõ ràng rằng ý nghĩa mẫu là tắt" , bởi vì đó chính xác là những gì bạn đang thử nghiệm, không phải là nhất định.
StAtS

1
những rắc rối thường là bạn không biết cực tính, vì vậy bạn phải chạy thử nghiệm hai đuôi. hãy tưởng tượng cắm vôn kế vào nguồn điện DC khi bạn không biết phích cắm nào là TÍCH CỰC
Aksakal

Câu trả lời:


46

Hãy nghĩ về dữ liệu như phần nổi của tảng băng - tất cả những gì bạn có thể thấy ở trên mặt nước là phần nổi của tảng băng trôi nhưng thực tế bạn lại quan tâm đến việc tìm hiểu điều gì đó về toàn bộ tảng băng.

Các nhà thống kê, nhà khoa học dữ liệu và những người khác làm việc với dữ liệu cẩn thận không để những gì họ nhìn thấy bên trên ảnh hưởng của dòng nước và thiên vị đánh giá của họ về những gì ẩn dưới dòng nước. Vì lý do này, trong một tình huống thử nghiệm giả thuyết, họ có xu hướng hình thành các giả thuyết không và thay thế trước khi họ nhìn thấy phần nổi của tảng băng, dựa trên những kỳ vọng của họ (hoặc thiếu) về những gì có thể xảy ra nếu họ có thể xem toàn bộ tảng băng .

Nhìn vào dữ liệu để đưa ra các giả thuyết của bạn là một thực tiễn kém và nên tránh - nó giống như đặt xe đẩy trước ngựa. Hãy nhớ lại rằng dữ liệu đến từ một mẫu được chọn (hy vọng sử dụng cơ chế chọn ngẫu nhiên) từ dân số / vũ trụ quan tâm. Mẫu có các đặc điểm riêng, có thể hoặc không thể phản ánh dân số cơ bản. Tại sao bạn muốn giả thuyết của mình phản ánh một lát hẹp của dân số thay vì toàn bộ dân số?

Một cách khác để suy nghĩ về điều này là, mỗi khi bạn chọn một mẫu từ dân số mục tiêu của mình (sử dụng cơ chế chọn ngẫu nhiên), mẫu sẽ mang lại dữ liệu khác nhau. Nếu bạn sử dụng dữ liệu (mà bạn không nên !!!) để hướng dẫn đặc điểm kỹ thuật của bạn về các giả thuyết không và thay thế, các giả thuyết của bạn sẽ xuất hiện trên bản đồ, chủ yếu được điều khiển bởi các tính năng bình dị của từng mẫu. Tất nhiên, trong thực tế chúng ta chỉ vẽ một mẫu, nhưng sẽ rất suy nghĩ khi biết rằng nếu ai đó thực hiện cùng một nghiên cứu với một mẫu khác có cùng kích thước, họ sẽ phải thay đổi giả thuyết của mình để phản ánh thực tế của mẫu của họ.

Một trong những giáo sư trường đại học của tôi từng có một câu nói rất khôn ngoan: "Chúng tôi không quan tâm đến mẫu, ngoại trừ việc nó cho chúng tôi biết điều gì đó về dân số" . Chúng tôi muốn đưa ra các giả thuyết của mình để tìm hiểu điều gì đó về dân số mục tiêu, chứ không phải về một mẫu mà chúng tôi đã chọn để chọn từ dân số đó.


1
@ subhashc.davar: Chỉ vì bạn không thấy sự liên quan của câu trả lời của tôi, điều đó không có nghĩa là người khác sẽ không. Xin lưu ý rằng câu trả lời dành cho toàn bộ cộng đồng không chỉ dành cho người đặt câu hỏi. Tôi rất vui khi xóa câu trả lời của tôi nếu bạn cảm thấy mạnh mẽ về điều này.
Isabella Ghement

7
@ subhashc.davar Một ví dụ có thể giúp: Giả sử bạn kiểm tra nếu một bữa ăn nhẹ ảnh hưởng đến hiệu suất. Bạn chạy thử nghiệm và tìm thấy một số điểm tăng nhẹ trong những người ăn nhẹ. Tuyệt quá! Chạy thử nghiệm một đuôi để xem nếu người ăn vặt> người không ăn vặt. Vấn đề: bạn sẽ làm gì nếu bạn vẽ một mẫu mà những người ăn vặt thực hiện kém hơn? Bạn có thực hiện một thử nghiệm một đuôi cho những người ăn nhẹ <không ăn vặt không? Nếu vậy, bạn đang phạm lỗi và để các idiosyncracies hướng dẫn kiểm tra của bạn.
RM

21
Một giai thoại từ giáo sư của tôi: "Chúng tôi đã đến thăm con gái mới sinh của một người bạn tại phòng hộ sinh. 20 đứa trẻ và 18 trong số 20 người đội mũ hồng. Vì vậy, tôi đã làm những gì mà bất kỳ nhà thống kê nào sẽ làm: tính giá trị p cho giới tính trong thực tế là 50 / 50. Nó rất có ý nghĩa thống kê. Vậy ai muốn viết bài này với tôi? Không ai? Tại sao? Bạn không thể sử dụng dữ liệu tạo ra một giả thuyết để kiểm tra giả thuyết. "
AdamO

4
@AdamO Tôi thấy nhận xét của bạn là một lời giải thích tốt hơn chính câu trả lời. Tôi sẽ viết lại câu cuối tho là 'Bạn không nên sử dụng cùng một dữ liệu mà bạn đã tạo ra giả thuyết của mình để kiểm tra giả thuyết của mình.'. Một hàm ý liên quan là việc thay đổi giả thuyết của bạn dựa trên kết quả của bất kỳ bài kiểm tra nào bạn đã chọn trước đây là tốt. Nhưng sau đó bạn nên kiểm tra giả thuyết mới của mình với dữ liệu mới.
Kenny Evitt

3
@KennyEvitt đúng chính xác. Những phát hiện ngẫu nhiên rất quan trọng và cần được báo cáo, nhưng chúng không nên được bán như những giả thuyết được quy định trước.
AdamO

18

Tôi nghĩ rằng khi xem xét câu hỏi của bạn sẽ hữu ích nếu bạn cố gắng giữ mục tiêu / điểm bán của thử nghiệm ý nghĩa giả thuyết null (NHST) trong tâm trí; đó chỉ là một mô hình (mặc dù rất phổ biến) cho suy luận thống kê và những cái khác cũng có thế mạnh riêng của họ (ví dụ, xem ở đây để thảo luận về NHST liên quan đến suy luận Bayes). Lợi ích lớn của NHST là gì?: Kiểm soát lỗi dài hạn . Nếu bạn tuân theo các quy tắc của NHST (và đôi khi đó là một điều rất lớn nếu), thì bạn nên có ý thức tốt về khả năng bạn sẽ sai với những suy luận bạn đưa ra, về lâu dài.

Một trong những quy tắc khó hiểu của NHST là, không cần thay đổi thêm về quy trình thử nghiệm của bạn, bạn chỉ có thể xem xét thử nghiệm quan tâm của mình. Các nhà nghiên cứu trong thực tế thường bỏ qua (hoặc không biết) quy tắc này (xem Simmons et al., 2012), tiến hành nhiều thử nghiệm sau khi thêm sóng dữ liệu, kiểm tra của họp-giá trị sau khi thêm / xóa các biến vào mô hình của họ, v.v. Vấn đề với điều này là các nhà nghiên cứu hiếm khi trung lập về kết quả của NHST; họ nhận thức sâu sắc rằng các kết quả quan trọng có nhiều khả năng được công bố hơn là kết quả không đáng kể (vì những lý do vừa sai lầm vừa hợp pháp; Rosenthal, 1979). Do đó, các nhà nghiên cứu thường được thúc đẩy để thêm dữ liệu / sửa đổi mô hình / chọn các ngoại lệ và liên tục kiểm tra cho đến khi chúng "phát hiện ra" một hiệu ứng đáng kể (xem John và cộng sự, 2011, một giới thiệu tốt).

Một vấn đề phản trực giác được tạo ra bởi các thực tiễn trên, được mô tả độc đáo trong dienes (2008): nếu các nhà nghiên cứu sẽ tiếp tục điều chỉnh mẫu / thiết kế / mô hình của họ cho đến khi đạt được mức độ quan trọng, thì tỷ lệ lỗi dài hạn mong muốn của họ là phát hiện dương tính giả (thường là ) và kết quả âm tính giả (thường là ) sẽ lần lượt từng cách tiếp cận 1.0 và 0.0 (nghĩa là bạn sẽ luôn từ chối , cả khi nó sai và khi đúng).α=.05β=.20H0

Trong bối cảnh các câu hỏi cụ thể của bạn, các nhà nghiên cứu sử dụng các thử nghiệm hai đuôi làm mặc định khi họ không muốn đưa ra dự đoán cụ thể liên quan đến hướng của hiệu ứng. Nếu họ đoán sai và chạy thử nghiệm một đầu theo hướng hiệu ứng, dài hạn của họ sẽ bị thổi phồng. Nếu họ xem xét các số liệu thống kê mô tả và chạy thử nghiệm một đuôi dựa trên xu hướng nhãn cầu của họ, dài hạn của họ sẽ bị thổi phồng. Trong thực tế, bạn có thể nghĩ rằng đây không phải là một vấn đề lớn, rằng giá trị mất đi ý nghĩa lâu dài của chúng, nhưng nếu chúng không giữ được ý nghĩa của chúng, nó đặt ra câu hỏi tại sao bạn lại sử dụng cách tiếp cận suy luận rằng ưu tiên kiểm soát lỗi dài hạn.alpha pααp

Cuối cùng (và là vấn đề sở thích cá nhân), tôi sẽ ít gặp vấn đề hơn nếu lần đầu tiên bạn tiến hành thử nghiệm hai đuôi, thấy nó không có ý nghĩa, sau đó thực hiện thử nghiệm một đầu theo hướng thử nghiệm đầu tiên ngụ ý và thấy nó có ý nghĩa nếu (và chỉ khi) bạn thực hiện sao chép xác nhận nghiêm ngặt hiệu ứng đó trong một mẫu khác và xuất bản bản sao trong cùng một bài báo. Phân tích dữ liệu thăm dò - với thực hành phân tích linh hoạt tỷ lệ lỗi tăng cao - là tốt, miễn là bạn có thể sao chép hiệu ứng của mình trong một mẫu mới mà không có tính linh hoạt phân tích tương tự.

Người giới thiệu

Điền, Z. (2008). Hiểu tâm lý học như một khoa học: Giới thiệu về suy luận khoa học và thống kê . Palgrave Macmillan.

John, LK, Loewenstein, G., & Prelec, D. (2012). Đo lường mức độ phổ biến của thực tiễn nghiên cứu đáng ngờ với các khuyến khích cho việc nói sự thật. Khoa học tâm lý , 23 (5), 524-532.

Rosenthal, R. (1979). Các vấn đề ngăn kéo tập tin và dung sai cho kết quả null. Bản tin tâm lý , 86 (3), 638.

Simmons, JP, Nelson, LD, & Simonsohn, Hoa Kỳ (2011). Tâm lý dương tính giả: Tính linh hoạt không được tiết lộ trong thu thập và phân tích dữ liệu cho phép trình bày bất cứ điều gì quan trọng. Khoa học tâm lý , 22 (11), 1359-1366.


Câu trả lời rất hay. Đã giúp tôi tập hợp một số mối quan tâm mà tôi có trong quá trình nghiên cứu gần đây (với tư cách là giáo dân), dường như xác nhận ý tưởng rằng giá trị p một đầu chỉ có thể được "tin cậy" nếu bạn có lý do để tự tin vào "tiêu cực tương quan "hướng là sai.
Venryx

10

Thật không may, ví dụ thúc đẩy phát triển thuốc không phải là một ví dụ tốt vì đó không phải là những gì chúng ta làm để phát triển thuốc. Chúng tôi sử dụng các quy tắc khác nhau, nghiêm ngặt hơn để dừng nghiên cứu nếu các xu hướng đứng về phía gây hại. Điều này là vì sự an toàn của bệnh nhân và cũng vì thuốc không có khả năng xoay vòng một cách kỳ diệu theo hướng có lợi.

Vậy tại sao hai bài kiểm tra đuôi ? (trong hầu hết các trường hợp, chúng ta có một số khái niệm tiên nghiệm về hướng hiệu quả có thể có mà chúng ta đang cố gắng mô hình hóa)

Giả thuyết khống nên có một số điểm tương đồng với niềm tin theo nghĩa là hợp lý, được thông báo và biện minh. Trong hầu hết các trường hợp, mọi người đồng ý "kết quả không thú vị" là khi có 0 hiệu ứng, trong khi đó hiệu ứng tiêu cực hoặc tích cực được quan tâm như nhau. Rất khó để đưa ra một giả thuyết null tổng hợp, ví dụ như trường hợp chúng ta biết số liệu thống kê có thể bằng hoặcít hơn một lượng nhất định Người ta phải rất rõ ràng về một giả thuyết không có giá trị để hiểu được những phát hiện khoa học của họ. Đáng để chỉ ra rằng cách thức mà người ta tiến hành kiểm tra giả thuyết tổng hợp là thống kê theo giả thuyết null giả định giá trị phù hợp nhất trong phạm vi của dữ liệu được quan sát. Vì vậy, nếu hiệu ứng theo hướng tích cực như mong đợi, dù sao giá trị null sẽ được đưa về 0 và chúng tôi đã di chuyển không cần thiết.

Một thử nghiệm hai đuôi để tiến hành hai thử nghiệm một phía với sự kiểm soát cho nhiều so sánh! Bài kiểm tra hai đuôi thực sự có giá trị một phần vì cuối cùng nó sẽ bảo thủ hơn. Khi chúng tôi có niềm tin tốt về hướng hiệu quả, hai thử nghiệm đuôi sẽ mang lại kết quả dương tính giả bằng một nửa thường xuyên với rất ít ảnh hưởng tổng thể đến sức mạnh.

Trong trường hợp đánh giá điều trị trong một thử nghiệm ngẫu nhiên có kiểm soát, nếu bạn cố bán cho tôi xét nghiệm một phía, tôi sẽ ngăn bạn hỏi, "Đợi đã, tại sao chúng tôi tin rằng việc điều trị thực sự có hại? để hỗ trợ điều này? Thậm chí còn có trang bị [khả năng chứng minh hiệu quả có lợi]? " Sự không nhất quán logic đằng sau thử nghiệm một phía gọi toàn bộ nghiên cứu vào câu hỏi. Nếu thực sự không có gì được biết, bất kỳ giá trị nào khác 0 đều được coi là thú vị và thử nghiệm hai đuôi không chỉ là một ý tưởng hay, điều đó là cần thiết.


8

Một cách để tiếp cận nó là tạm thời quên đi việc kiểm tra giả thuyết và thay vào đó hãy nghĩ về khoảng tin cậy. Thử nghiệm một phía tương ứng với khoảng tin cậy một phía và thử nghiệm hai mặt tương ứng với khoảng tin cậy hai mặt.

Giả sử bạn muốn ước tính giá trị trung bình của dân số. Đương nhiên, bạn lấy một mẫu và tính toán một mẫu có nghĩa. Không có lý do để ước tính điểm theo mệnh giá, vì vậy bạn thể hiện câu trả lời của mình theo khoảng thời gian mà bạn tự tin một cách hợp lý có chứa giá trị trung bình thực. Bạn chọn loại khoảng nào? Một khoảng cách hai mặt là sự lựa chọn tự nhiên hơn. Khoảng cách một phía chỉ có ý nghĩa khi bạn đơn giản không quan tâm đến việc tìm giới hạn trên hoặc giới hạn dưới của ước tính của mình (vì bạn tin rằng bạn đã biết ràng buộc hữu ích theo một hướng). Làm thế nào thường xuyên bạn thực sự chắc chắn về tình hình?

Có lẽ việc chuyển câu hỏi sang khoảng tin cậy không thực sự đặt ra câu hỏi, nhưng nó không nhất quán về mặt phương pháp để thích các bài kiểm tra một đầu nhưng khoảng tin cậy hai mặt.


4

Sau khi tìm hiểu những điều cơ bản tuyệt đối của kiểm tra giả thuyết và đến phần về một trong hai bài kiểm tra đuôi ... Tôi hiểu toán học cơ bản và tăng khả năng phát hiện của một bài kiểm tra đuôi, v.v ... Nhưng tôi chỉ không thể quấn lấy đầu mình xung quanh một điều ... điểm gì? Tôi thực sự không hiểu tại sao bạn nên phân chia alpha của mình giữa hai thái cực khi kết quả mẫu của bạn chỉ có thể ở một hoặc khác hoặc không.

Vấn đề là bạn không biết ý nghĩa dân số. Tôi chưa bao giờ gặp phải một kịch bản trong thế giới thực mà tôi biết ý nghĩa dân số thực sự.

Lấy kịch bản ví dụ từ văn bản trích dẫn ở trên. Làm thế nào bạn có thể "không thể kiểm tra" cho kết quả theo hướng ngược lại? Bạn có ý nghĩa mẫu của bạn. Bạn có ý nghĩa dân số của bạn. Số học đơn giản cho bạn biết cái nào cao hơn. Có gì để kiểm tra, hoặc không kiểm tra, theo hướng ngược lại? Điều gì ngăn cản bạn chỉ bắt đầu từ đầu với giả thuyết ngược lại nếu bạn thấy rõ rằng ý nghĩa của mẫu là tắt theo hướng khác?

Tôi đã đọc đoạn văn của bạn nhiều lần, nhưng tôi vẫn không chắc chắn về lập luận của bạn. Bạn có muốn viết lại nó không? Bạn không thể "kiểm tra" nếu dữ liệu của bạn không đưa bạn đến các khu vực quan trọng đã chọn.

Tôi cho rằng điều này cũng áp dụng để chuyển đổi tính phân cực của bài kiểm tra một đầu của bạn. Nhưng làm thế nào mà kết quả "tài liệu hóa" này ít có giá trị hơn so với việc bạn chỉ đơn giản chọn bài kiểm tra một đầu đúng ở vị trí đầu tiên?

Các trích dẫn là chính xác bởi vì hack một giá trị p là không phù hợp. Bao nhiêu chúng ta biết về p-hack "trong tự nhiên"? có nhiều chi tiết hơn.

Rõ ràng tôi đang thiếu một phần lớn của bức tranh ở đây. Tất cả chỉ có vẻ quá độc đoán. Theo tôi, đó là ý nghĩa của những gì biểu thị "có ý nghĩa thống kê" - 95%, 99%, 99,9% ... là tùy ý bắt đầu. Cứu giúp?

Nó là tùy tiện. Đó là lý do tại sao các nhà khoa học dữ liệu thường báo cáo mức độ của giá trị p (không chỉ đáng kể hoặc không đáng kể), và cả kích thước hiệu ứng.


Để rõ ràng, tôi không cố gắng để thách thức những nền tảng của suy luận thống kê. Như tôi đã nói, tôi chỉ mới học được những điều cơ bản và gặp khó khăn trong việc hiểu làm thế nào bất kỳ phát hiện tiềm năng nào có thể bị bỏ qua khi không sử dụng bài kiểm tra chính xác.
Từ TheAshes

Nói rằng bạn thân của bạn, Joe, phát minh ra một sản phẩm mới mà anh ta tuyên bố giúp tăng cường đáng kể sự phát triển của thực vật. Tò mò, bạn nghĩ ra một nghiên cứu mạnh mẽ với nhóm kiểm soát và nhóm điều trị. Null null của bạn. là sẽ không có thay đổi trong tăng trưởng, giả thuyết thay thế của bạn. là thuốc xịt ma thuật của Joe làm tăng đáng kể sự tăng trưởng - vì vậy một thử nghiệm một đầu. 2 tuần sau, bạn thực hiện các quan sát cuối cùng và phân tích kết quả. Sự tăng trưởng trung bình của nhóm điều trị hóa ra là hơn 5 lỗi tiêu chuẩn DƯỚI điều khiển. Làm thế nào điều này rất có ý nghĩa tìm thấy bất kỳ ít rõ ràng hoặc hợp lệ vì sự lựa chọn của bạn kiểm tra?
Từ TheAshes

2
Nếu tôi yêu cầu bạn gọi đầu hoặc đuôi để tung đồng xu, xác suất dự đoán kết quả của bạn là 50/50 (giả sử một đồng xu cân bằng và một người giao dịch trung thực). Tuy nhiên, nếu tôi lật đồng xu trước và để bạn nhìn vào nó và sau đó đưa ra dự đoán của bạn, nó sẽ không còn là 50/50 nữa. Nếu bạn đang tiến hành thử nghiệm một đầu với mức độ alpha là 0,01 nhưng sau đó lật hướng thử nghiệm sau khi thấy kết quả vì p <.01 theo hướng khác, nguy cơ xảy ra lỗi Loại I là không lâu .01 nhưng cao hơn nhiều Lưu ý rằng giá trị p-value và Loại I được quan sát không giống nhau.
dbwilson

@FromTheAshes không có gì sai khi cố gắng thử thách các nền tảng. Kiểm tra giả thuyết thống kê không phải là vô ích, nhưng nó có chứa những lỗ hổng logic lớn, và nó hoàn toàn hợp lý để thách thức chúng!
Flounderer

3

Vâng, tất cả sự khác biệt phụ thuộc vào câu hỏi bạn muốn trả lời. Nếu câu hỏi là: "Một nhóm các giá trị có lớn hơn nhóm kia không?" bạn có thể sử dụng một bài kiểm tra một đuôi. Để trả lời câu hỏi: "Các nhóm giá trị này có khác nhau không?" bạn sử dụng thử nghiệm hai đuôi. Hãy xem xét rằng một tập hợp dữ liệu có thể cao hơn thống kê khác, nhưng không khác biệt về mặt thống kê ... và đó là số liệu thống kê.


1
'Nếu câu hỏi là: "Một nhóm giá trị có lớn hơn nhóm kia không?" bạn có thể sử dụng một bài kiểm tra một đuôi. ' Chính xác hơn, nếu câu hỏi là "Nhóm * này có lớn hơn nhóm khác không", thì bạn nên sử dụng bài kiểm tra hai đuôi.
Tích lũy

Cần lưu ý rằng đó là ngụ ý rằng nếu bạn hỏi câu hỏi đó rằng "Và nhân tiện, nếu nó trông giống như nhóm khác thực sự lớn hơn thì tôi không quan tâm". Nếu bạn sẽ thấy điều ngược lại với những gì bạn mong đợi và sau đó tiếp tục lật hướng kiểm tra giả thuyết thì bạn chỉ đang tự dối lòng mình và nên thực hiện một bài kiểm tra hai đuôi để bắt đầu.
Dason

2

Nhưng làm thế nào mà kết quả "tài liệu hóa" này ít có giá trị hơn so với việc bạn chỉ đơn giản chọn bài kiểm tra một đầu đúng ở vị trí đầu tiên?

Giá trị alpha là xác suất mà bạn sẽ từ chối null, với điều kiện null là đúng. Giả sử null của bạn là giá trị trung bình mẫu thường được phân phối với giá trị trung bình bằng không. Nếu P (giá trị trung bình mẫu> 1 | H0) = 0,05, thì quy tắc "Thu thập mẫu và từ chối null nếu giá trị trung bình mẫu lớn hơn 1" có xác suất, với giá trị null là đúng, là 5% từ chối null. Quy tắc "Thu thập mẫu và nếu giá trị trung bình của mẫu là dương, thì từ chối null nếu giá trị trung bình của mẫu lớn hơn 1 và nếu giá trị trung bình của mẫu là âm, hãy từ chối null nếu giá trị trung bình của mẫu nhỏ hơn 1" có xác suất, cho rằng null là đúng, 10% từ chối null. Vì vậy, quy tắc đầu tiên có tỷ lệ alpha là 5% và quy tắc thứ hai có tỷ lệ alpha là 10%. Nếu bạn bắt đầu với một bài kiểm tra hai đuôi, và sau đó thay đổi nó thành thử nghiệm một đầu dựa trên dữ liệu, sau đó bạn đang tuân theo quy tắc thứ hai, do đó sẽ không chính xác khi báo cáo alpha của bạn là 5%. Giá trị alpha không chỉ phụ thuộc vào dữ liệu là gì, mà bạn đang tuân theo quy tắc nào trong việc phân tích dữ liệu. Nếu bạn đang hỏi tại sao sử dụng một số liệu có thuộc tính này, thay vì chỉ phụ thuộc vào dữ liệu, thì đó là một câu hỏi phức tạp hơn.


2

Về điểm thứ 2

Chọn thử nghiệm một đầu sau khi chạy thử nghiệm hai đuôi mà không từ chối giả thuyết khống là không phù hợp, bất kể mức độ "gần" với thử nghiệm hai đuôi có ý nghĩa như thế nào.

chúng ta có điều đó, nếu null là đúng, thử nghiệm đầu tiên, hai đuôi, từ chối sai với xác suất , nhưng một mặt cũng có thể từ chối trong giai đoạn thứ hai.α

Do đó, xác suất từ ​​chối tổng thể sẽ vượt quá và bạn không kiểm tra ở cấp độ mà bạn tin là đang kiểm tra nữa - bạn thường nhận được các từ chối sai hơn so với trong các trường hợp áp dụng chiến lược giả thuyết null thực sự.αα100%

Nhìn chung, chúng tôi tìm kiếm mà chúng tôi có thể biểu thị là Hai sự kiện trong liên minh không khớp nhau, do đó chúng ta theo sau Đối với thuật ngữ thứ hai, có khối lượng xác suất giữa các lượng tử và (nghĩa là các điểm loại bỏ của thử nghiệm một phía và hai mặt), đó là xác suất chung của thử nghiệm hai mặt không từ chối nhưng thử nghiệm một phía làm như vậy. Vì thế,

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
để xác suất loại bỏ tổng thể của chiến lược này là Có hiệu quả, chúng tôi chỉ cần cộng các xác suất mà thống kê kiểm tra nằm ở bên trái của -quantile, giữa các lượng tử và phía trên hoặc bên phải của -quantile.α/21-α1-α/21-α/2
α+α2>α
α/21α1α/21α/2

Dưới đây là một minh họa số nhỏ:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

Đây chỉ là một cách tùy ý để xem xét nó: Kiểm tra thống kê được sử dụng để làm gì? Có lẽ lý do thường xuyên nhất để thực hiện kiểm tra là vì bạn muốn thuyết phục mọi người (ví dụ như biên tập viên, người đánh giá, người đọc, khán giả) rằng kết quả của bạn là "đủ xa ngẫu nhiên" là đáng chú ý. Và bằng cách nào đó chúng tôi đã kết luận rằng là sự thật tùy tiện, nhưng phổ quát.p<α=0.05

Đối với bất kỳ lý do hợp lý khác để thực hiện các bài kiểm tra, bạn sẽ không bao giờ giải quyết cho một cố định của , nhưng bạn sẽ thay đổi của bạn theo từng trường hợp, tùy theo hậu quả là quan trọng như thế nào, mà bạn vẽ từ các thử nghiệm.0,05 αα0.05α

Trở lại với việc thuyết phục mọi người, rằng một cái gì đó "đủ xa chỉ là ngẫu nhiên" để đáp ứng một tiêu chí phổ biến đáng chú ý. Chúng tôi có một tiêu chí không thể chấp nhận được, nhưng được chấp nhận rộng rãi, mà chúng tôi cho rằng "không ngẫu nhiên" ở cho thử nghiệm hai mặtα=0.05 . Một tiêu chí tương đương sẽ là xem xét dữ liệu, quyết định cách kiểm tra và vẽ đường thẳng tại . Cái thứ hai tương đương với cái thứ nhất, nhưng nó không phải là thứ chúng ta đã giải quyết trong lịch sử.α=0.025

Khi bạn bắt đầu thực hiện các thử nghiệm một phía với bạn sẽ nghi ngờ về hành vi không đáng có, về việc đánh bắt cá có ý nghĩa. Đừng làm vậy, nếu bạn muốn thuyết phục mọi người!α=0.05


Sau đó, tất nhiên, có một thứ gọi là mức độ tự do của các nhà nghiên cứu . Bạn có thể tìm thấy ý nghĩa trong bất kỳ loại dữ liệu nào, nếu bạn có đủ dữ liệu và được tự do kiểm tra nó theo nhiều cách bạn muốn. Đây là lý do tại sao bạn có ý định quyết định thử nghiệm bạn tiến hành trước khi xem dữ liệu. Mọi thứ khác dẫn đến kết quả kiểm tra không thể đưa ra. Tôi khuyên bạn nên truy cập youtube và xem Andrew Gelmans nói "Tội ác trên dữ liệu để biết thêm về điều đó.


1
Hmm, giả thuyết null không phải là kết quả ngẫu nhiên. Điều này sẽ gây nhầm lẫn cho các bác sĩ lâm sàng và các nhà khoa học, những người rất xem kết quả công việc của họ là đạt được kết quả cố định.
AdamO

1
Điểm "Một khi bạn bắt đầu thực hiện các bài kiểm tra một phía với điểm ..." là rất quan trọng. Lý do rất phổ biến là vì kinh nghiệm thực tế của RA Fisher tại Rothamsted là vì có hơn độ lệch chuẩn so với giá trị dự kiến ​​thường đáng để điều tra thêm, và từ đó, ông đã chọn thử nghiệm làm quy tắc ngón tay cái của mình , không phải cách khác. Do đó, tương đương một đuôi sẽ làα=0.050.0525%2.5%
Henry

1

Thoạt nhìn, cả hai tuyên bố này đều không khẳng định rằng xét nghiệm hai mặt là 'vượt trội' so với nghiên cứu một phía. Đơn giản chỉ cần có một kết nối hợp lý từ giả thuyết nghiên cứu đang được thử nghiệm liên quan đến suy luận thống kê đang được thử nghiệm.

Ví dụ:

... Hãy xem xét hậu quả của việc thiếu một hiệu ứng theo hướng khác. Hãy tưởng tượng bạn đã phát triển một loại thuốc mới mà bạn tin là một sự cải tiến so với một loại thuốc hiện có. Bạn muốn tối đa hóa khả năng phát hiện sự cải thiện, vì vậy bạn chọn thử nghiệm một lần. Khi làm như vậy, bạn không kiểm tra khả năng thuốc mới kém hiệu quả hơn thuốc hiện có.

Trước hết đây là một nghiên cứu thuốc. Vì vậy, không chính xác theo hướng ngược lại có ý nghĩa xã hội vượt ra ngoài khuôn khổ thống kê. Vì vậy, giống như nhiều người đã nói rằng sức khỏe không phải là tốt nhất để tạo ra sự khái quát.

Trong trích dẫn ở trên, có vẻ như là về việc thử nghiệm một loại thuốc khi một loại khác đã tồn tại. Vì vậy, với tôi, điều này ngụ ý thuốc của bạn được coi là đã có hiệu quả. Tuyên bố liên quan đến việc so sánh hai loại thuốc hiệu quả sau đó. Khi so sánh các phân phối này nếu bạn bỏ bê một phía của dân số vì mục đích cải thiện kết quả so sánh của nó? Đó không chỉ là một kết luận thiên vị mà sự so sánh không còn là một kết luận hợp lệ để biện minh: bạn đang so sánh táo với cam.

Tương tự như vậy, rất có thể có các ước tính điểm rằng vì lợi ích của suy luận thống kê không có sự khác biệt nào với kết luận, nhưng rất quan trọng về mặt xã hội. Đó là bởi vì mẫu của chúng tôi đại diện cho cuộc sống của mọi người: một cái gì đó không thể "tái diễn" và là vô giá.

Ngoài ra, tuyên bố ngụ ý nhà nghiên cứu có một động cơ: "bạn muốn tối đa hóa khả năng phát hiện sự cải thiện của mình ..." Khái niệm này không tầm thường đối với trường hợp bị cô lập là một giao thức xấu.

Chọn thử nghiệm một đầu sau khi chạy thử nghiệm hai đuôi mà không từ chối giả thuyết khống là không phù hợp, bất kể mức độ "gần" với thử nghiệm hai đuôi có ý nghĩa như thế nào.

Một lần nữa ở đây, nó ngụ ý nhà nghiên cứu đang 'chuyển đổi' thử nghiệm của mình: từ một mặt sang một mặt. Điều này không bao giờ thích hợp. Bắt buộc phải có mục đích nghiên cứu trước khi thử nghiệm. Bằng cách luôn luôn mặc định sự tiện lợi của cách tiếp cận hai mặt - các nhà nghiên cứu thuận tiện không thể hiểu rõ hơn về hiện tượng này.

Trên thực tế, đây là một bài viết về chủ đề này, làm cho trường hợp các xét nghiệm hai mặt đã bị lạm dụng.

Nó đổ lỗi cho việc sử dụng quá mức một bài kiểm tra hai mặt về việc thiếu một:

phân biệt rõ ràng và mối liên kết logic giữa giả thuyết nghiên cứu và giả thuyết thống kê của nó

Nó có vị trí và lập trường mà các nhà nghiên cứu:

có thể không nhận thức được sự khác biệt giữa hai chế độ biểu cảm hoặc nhận thức được dòng chảy logic trong đó giả thuyết nghiên cứu nên được dịch thành giả thuyết thống kê. Sự pha trộn theo định hướng thuận tiện của các giả thuyết nghiên cứu và thống kê có thể là nguyên nhân của việc sử dụng quá mức thử nghiệm hai đuôi ngay cả trong trường hợp sử dụng thử nghiệm hai đuôi là không phù hợp.

những gì cần thiết là để nắm bắt các số liệu thống kê chính xác trong việc diễn giải kết quả kiểm tra thống kê. Không chính xác dưới cái tên bảo thủ là không nên. Theo nghĩa đó, các tác giả nghĩ rằng chỉ báo cáo kết quả thử nghiệm như là Nó Nó có ý nghĩa thống kê ở mức ý nghĩa 0,05 (nghĩa là p <0,05).

Mặc dù lý thuyết hai đuôi là bảo thủ hơn trong lý thuyết, nó tách rời mối liên hệ giữa giả thuyết nghiên cứu định hướng và giả thuyết thống kê của nó, có thể dẫn đến giá trị p tăng gấp đôi.

Các tác giả cũng đã chỉ ra rằng lập luận cho việc tìm kiếm kết quả quan trọng theo hướng ngược lại chỉ có ý nghĩa trong bối cảnh khám phá chứ không phải trong bối cảnh
biện minh . Trong trường hợp kiểm tra giả thuyết nghiên cứu và lý thuyết cơ bản của nó, các nhà nghiên cứu không nên đồng thời giải quyết bối cảnh khám phá và biện minh.

https://www.scTHERirect.com/science/article/pii/S0148296312000550


1

Thông thường một bài kiểm tra quan trọng được thực hiện cho giả thuyết khống chống lại một giả thuyết thay thế . Đây là khi một đuôi so với hai đuôi tạo nên sự khác biệt.


  • Đối với giá trị p, giá trị này (hai hoặc một mặt) không thành vấn đề! Vấn đề là bạn chọn một tiêu chí chỉ xảy ra một phần của thời điểm khi giả thuyết null là đúng. Đây là hai mảnh nhỏ của cả hai đuôi, hoặc một mảnh lớn của một đuôi, hoặc một cái gì đó khác.α

    Tỷ lệ lỗi loại I không khác nhau đối với các thử nghiệm một hoặc hai mặt.

  • Mặt khác, đối với sức mạnh nó quan trọng .

    Nếu giả thuyết thay thế của bạn không đối xứng, thì bạn muốn tập trung tiêu chí để từ chối giả thuyết khống chỉ ở phần đuôi / kết thúc này; sao cho khi giả thuyết thay thế là đúng thì bạn sẽ ít có khả năng không từ chối ("chấp nhận") giả thuyết khống.

    Nếu giả thuyết thay thế của bạn là đối xứng (bạn không quan tâm đặt nhiều hơn hoặc ít năng lượng hơn vào một bên cụ thể) và độ lệch / hiệu ứng ở cả hai bên được mong đợi như nhau (hoặc chỉ là không xác định / không xác định), thì việc sử dụng một cách mạnh mẽ hơn kiểm tra hai mặt (bạn không mất 50% năng lượng cho phần đuôi mà bạn không kiểm tra và nơi bạn sẽ mắc nhiều lỗi loại II).

    Tỷ lệ lỗi loại II là khác nhau đối với các thử nghiệm một và hai mặt và tùy thuộc vào giả thuyết thay thế là tốt.

Bây giờ nó trở nên giống một khái niệm Bayes hơn khi chúng ta bắt đầu liên quan đến các định kiến ​​về việc liệu chúng ta có mong đợi một hiệu ứng rơi vào một bên hoặc cả hai bên hay không và khi nào chúng ta muốn sử dụng thử nghiệm (để xem liệu chúng ta có thể làm sai lệch giả thuyết không) để 'xác nhận' hoặc tạo ra nhiều khả năng hơn như hiệu ứng.


0

Vì vậy, một nỗ lực trả lời thêm:

Tôi đoán việc lấy một đuôi hay hai đuôi hoàn toàn phụ thuộc vào giả thuyết Thay thế .

Xem xét ví dụ sau về kiểm tra có nghĩa trong kiểm tra t:

H0:μ=0

Ha:μ0

Bây giờ nếu bạn quan sát trung bình mẫu rất âm hoặc trung bình mẫu rất dương, giả thuyết của bạn không chắc là đúng.

Mặt khác, bạn sẽ sẵn sàng chấp nhận giả thuyết của mình nếu giá trị trung bình mẫu của bạn gần bằng cho dù âm hay dương . Bây giờ bạn cần chọn khoảng thời gian, nếu ý nghĩa mẫu của bạn sẽ giảm, bạn sẽ không từ chối giả thuyết khống. Rõ ràng bạn sẽ chọn một khoảng có cả hai mặt tiêu cực và tích cực xung quanh . Vì vậy, bạn chọn thử nghiệm hai bên.0 00

Nhưng nếu bạn không muốn kiểm tra , mà là . Bây giờ theo trực giác những gì chúng tôi muốn làm ở đây là nếu giá trị của mẫu có nghĩa là rất tiêu cực, thì chúng tôi chắc chắn có thể từ chối null của chúng tôi. Vì vậy, chúng tôi muốn từ chối null chỉ với giá trị âm của mẫu trung bình.μ=0μ0

Nhưng chờ đã! Nếu đó là giả thuyết null của tôi, làm thế nào tôi có thể thiết lập phân phối null của mình. Phân phối null của giá trị trung bình mẫu được biết đến với một số giá trị giả định của tham số dân số (ở đây ). Nhưng dưới null hiện tại nó có thể mất nhiều giá trị.0

Hãy nói rằng chúng ta có thể làm những giả thuyết vô hạn. Mỗi giả sử giá trị dương của . Nhưng hãy nghĩ về điều này: Trong giả thuyết đầu tiên của chúng tôi về , nếu chúng tôi chỉ từ chối null về việc ám ảnh mẫu âm rất xa, thì mọi giả thuyết tiếp theo với cũng sẽ từ chối nó. Bởi vì đối với họ, giá trị trung bình mẫu thậm chí còn xa hơn từ tham số dân số. Vì vậy, về cơ bản, tất cả những gì chúng ta cần làm thực sự chỉ là làm một giả thuyết nhưng một đầu .μH0:μ=0H0:μ>0

Vì vậy, giải pháp của bạn trở thành:

H0:μ=0

Ha:μ<0

Ví dụ tốt nhất là thử nghiệm Dickey-Fuller cho sự ổn định.

Hi vọng điêu nay co ich. (Muốn bao gồm các sơ đồ nhưng trả lời từ điện thoại di động).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.