Giải thích các kết quả không quan trọng theo xu hướng


16

Gần đây, hai đồng nghiệp khác nhau đã sử dụng một loại tranh luận về sự khác biệt giữa các điều kiện dường như không chính xác với tôi. Cả hai đồng nghiệp này đều sử dụng số liệu thống kê, nhưng họ không phải là thống kê. Tôi là một người mới trong thống kê.

Trong cả hai trường hợp, tôi lập luận rằng, vì không có sự khác biệt đáng kể giữa hai điều kiện trong một thử nghiệm, nên việc đưa ra tuyên bố chung về các nhóm này liên quan đến thao tác là không chính xác. Lưu ý rằng "đưa ra yêu cầu chung" có nghĩa là viết: "Nhóm A sử dụng X thường xuyên hơn nhóm B".

Các đồng nghiệp của tôi vặn lại với: "mặc dù không có sự khác biệt đáng kể, xu hướng vẫn còn đó" và "mặc dù không có sự khác biệt đáng kể, vẫn có một sự khác biệt". Đối với tôi, cả hai âm thanh này giống như một sự không tương đồng, nghĩa là, chúng đã thay đổi ý nghĩa của "sự khác biệt" từ: "một sự khác biệt có khả năng là kết quả của một cái gì đó ngoài cơ hội" (nghĩa là ý nghĩa thống kê), thành "bất kỳ không -zero sự khác biệt trong đo lường giữa các nhóm ".

Là phản ứng của đồng nghiệp của tôi đúng? Tôi đã không chấp nhận điều đó vì họ vượt xa tôi.


Tôi thấy những bài viết này hữu ích Vẫn không đáng kể và có ý nghĩa ký quỹ
20637

Câu trả lời:


26

Đây là một câu hỏi hay; Câu trả lời phụ thuộc rất nhiều vào bối cảnh.

Nói chung tôi sẽ nói bạn đúng : đưa ra yêu cầu chung không đủ tiêu chuẩn như "nhóm A được sử dụng X thường xuyên hơn nhóm B" là sai lệch. Sẽ là tốt hơn để nói một cái gì đó như

trong nhóm thử nghiệm A của chúng tôi đã sử dụng X thường xuyên hơn nhóm B, nhưng chúng tôi rất không chắc chắn điều này sẽ diễn ra như thế nào trong dân số nói chung

hoặc là

Mặc dù nhóm A sử dụng X 13% thường xuyên hơn nhóm B trong thử nghiệm của chúng tôi, nhưng ước tính của chúng tôi về sự khác biệt trong dân số nói chung là không rõ ràng : các giá trị hợp lý nằm trong phạm vi từ A sử dụng X 5% ít hơn so với nhóm B đến A sử dụng X 21% thường xuyên hơn nhóm B

hoặc là

nhóm A sử dụng X 13% thường xuyên hơn nhóm B, nhưng sự khác biệt không có ý nghĩa thống kê (95% CI -5% đến 21%; p = 0,75)

Mặt khác: đồng nghiệp của bạn nói đúng rằng trong thí nghiệm cụ thể này , nhóm A đã sử dụng X thường xuyên hơn nhóm B. Tuy nhiên, mọi người hiếm khi quan tâm đến những người tham gia trong một thử nghiệm cụ thể; họ muốn biết kết quả của bạn sẽ khái quát như thế nào với dân số lớn hơn và trong trường hợp này, câu trả lời chung là bạn không thể tự tin nói liệu nhóm A được chọn ngẫu nhiên sẽ sử dụng X thường xuyên hơn hay ít hơn nhóm B. được chọn ngẫu nhiên.

Nếu bạn cần đưa ra lựa chọn ngay hôm nay về việc nên sử dụng điều trị A hay điều trị B để tăng mức sử dụng X, trong trường hợp không có bất kỳ thông tin hoặc sự khác biệt nào về chi phí, v.v., thì chọn A sẽ là lựa chọn tốt nhất của bạn. Nhưng nếu bạn muốn thoải mái rằng có lẽ bạn đã lựa chọn đúng, bạn sẽ cần thêm thông tin.

Lưu ý rằng bạn không nên nói "không có sự khác biệt giữa nhóm A và nhóm B trong cách sử dụng X" hoặc "nhóm A và nhóm B sử dụng X cùng một lượng". Điều này đúng cả với những người tham gia thử nghiệm của bạn (trong đó A đã sử dụng X 13% nhiều hơn) hoặc trong dân số nói chung; trong hầu hết các bối cảnh trong thế giới thực, bạn biết rằng thực sự phải có một số hiệu ứng (dù nhẹ đến đâu) của A so với B; bạn chỉ không biết nó đi theo hướng nào.


5
Phản ứng đẹp, Ben! Tôi tự hỏi liệu tuyên bố ví dụ thứ hai của bạn có thể được sửa đổi cho rõ ràng để phản ánh ý chính của tuyên bố ví dụ đầu tiên không: "mặc dù nhóm A sử dụng X 13% thường xuyên hơn nhóm B TRONG TRẢI NGHIỆM CỦA CHÚNG TÔI, sự khác biệt trong SỬ DỤNG X GIỮA CÁC NHÓM DÂN SỐ không rõ ràng : phạm vi chính đáng của SỰ KHÁC BIỆT đã đi từ A sử dụng X ít hơn 5% so với nhóm B đến A sử dụng X thường xuyên hơn 21% so với nhóm B. "
Isabella Ghement

3
cảm ơn, được kết hợp một phần (cố gắng cân bằng sự ngắn gọn / rõ ràng và chính xác ...)
Ben Bolker

8
+1 Tôi nghĩ rằng nhiều người không nhận ra rằng trong trường hợp không có bằng chứng thống kê, sự khác biệt quan sát được rất có thể trái ngược với những gì đang xảy ra với dân số!
Dave

@Dave: ngay cả khi sự hiện diện của "bằng chứng thống kê" (giá trị p có ý nghĩa thống kê?), "Sự khác biệt quan sát được rất có thể trái ngược với những gì đang xảy ra với dân số"
boscovich

@boscovich Chắc chắn, tôi đã nói chuyện một cách tuyệt đối khi chúng tôi thống kê, nhưng tôi nghĩ đó là một giá trị p không đáng kể có nghĩa là bạn thực sự không biết gì về những gì đang xảy ra với dân số. Ít nhất với một giá trị p đáng kể, bạn đã đạt đến một số bằng chứng xác lập để đề nghị rằng bạn biết điều gì đó. Nhưng chắc chắn có thể nhận được giá trị p đáng kể khi xác định sai hướng. Lỗi đó nên xảy ra theo thời gian.
Dave

3

Đó là một câu hỏi khó khăn!

Trước tiên, bất kỳ ngưỡng nào bạn có thể chọn để xác định ý nghĩa thống kê là tùy ý. Thực tế là hầu hết mọi người sử dụng giá trị p 5% không làm cho nó chính xác hơn bất kỳ ai khác. Vì vậy, theo một nghĩa nào đó, bạn nên nghĩ về ý nghĩa thống kê như là một "phổ" chứ không phải là một chủ đề đen trắng.p

Giả sử chúng ta có một giả thuyết null H0 (ví dụ: các nhóm AB hiển thị cùng một giá trị trung bình cho biến X hoặc trung bình dân số cho biến Y là dưới 5). Bạn có thể nghĩ về giả thuyết khống là giả thuyết "không xu hướng". Chúng tôi thu thập một số dữ liệu để kiểm tra xem chúng tôi có thể từ chối H0 (giả thuyết null không bao giờ được "chứng minh là đúng"). Với mẫu của chúng tôi, chúng tôi thực hiện một số thống kê và cuối cùng nhận được giá trị p . Nói ngắn gọn, giá trị p là xác suất mà cơ hội thuần túy sẽ tạo ra kết quả ngang bằng (hoặc hơn) so với những gì chúng ta có, giả sử dĩ nhiên là H0 là đúng (nghĩa là không có xu hướng).

Nếu chúng tôi nhận được giá trị p "thấp" , chúng tôi nói rằng cơ hội hiếm khi tạo ra kết quả như vậy, do đó chúng tôi từ chối H0 (có bằng chứng có ý nghĩa thống kê rằng H0 có thể sai). Nếu chúng ta nhận được giá trị p "cao" , thì kết quả có nhiều khả năng là kết quả của sự may mắn, thay vì xu hướng thực tế. Chúng tôi không nói H0 là đúng, nhưng đúng hơn, việc nghiên cứu sâu hơn nên diễn ra để từ chối nó.

p23%23%23%H0:=0.5% p

XβH0: β=0β0

β=0

4%

Tôi hy vọng lời giải thích quá dài dòng này sẽ giúp bạn sắp xếp ý tưởng của mình. Tóm tắt là bạn hoàn toàn đúng! Chúng tôi không nên điền vào các báo cáo của mình, cho dù đó là cho nghiên cứu, kinh doanh hay bất cứ điều gì, với các tuyên bố hoang dã được hỗ trợ bởi ít bằng chứng. Nếu bạn thực sự nghĩ rằng có một xu hướng, nhưng bạn đã không đạt được ý nghĩa thống kê, thì hãy lặp lại thử nghiệm với nhiều dữ liệu hơn!


1
+1 để chỉ ra rằng bất kỳ ngưỡng ý nghĩa nào là tùy ý (và theo hàm ý, không thể suy ra tuyên bố tuyệt đối về dân số chung từ các kết quả trong một mẫu - tất cả những gì bạn nhận được là xác suất tốt hơn).
Peter - Tái lập lại

0

Hiệu ứng đáng kể chỉ có nghĩa là bạn đã đo được một sự bất thường không thể xảy ra (không thể xảy ra nếu giả thuyết khống, không có hiệu lực, sẽ là sự thật). Và do đó, nó phải được nghi ngờ với xác suất cao (mặc dù xác suất này không bằng giá trị p và cũng phụ thuộc vào niềm tin trước đó).

Tùy thuộc vào chất lượng của thử nghiệm, bạn có thể đo cùng kích thước hiệu ứng , nhưng nó có thể không phải là bất thường (không phải là kết quả không thể xảy ra nếu giả thuyết null là đúng).

Khi bạn quan sát một hiệu ứng nhưng nó không đáng kể thì thực sự nó vẫn có thể ở đó, nhưng nó chỉ không đáng kể (các phép đo không chỉ ra rằng giả thuyết null nên bị nghi ngờ / bác bỏ với xác suất cao). Điều đó có nghĩa là bạn nên cải thiện thử nghiệm của mình, thu thập nhiều dữ liệu hơn, để chắc chắn hơn.

Vì vậy, thay vì hiệu ứng phân đôi so với không có hiệu lực, bạn nên chọn bốn loại sau:

bốn loại

Hình ảnh từ https://en.wikipedia.org/wiki/Equivalence_test giải thích quy trình kiểm tra t hai mặt (TOST)

Bạn dường như thuộc loại D, bài kiểm tra không có kết quả. Đồng nghiệp của bạn có thể sai khi nói rằng có hiệu lực. Tuy nhiên, cũng sai lầm không kém khi nói rằng không có hiệu lực!


p

@David, tôi hoàn toàn đồng ý với bạn rằng giá trị p chính xác hơn là thước đo cho 'xác suất chúng tôi mắc lỗi có điều kiện rằng giả thuyết null là đúng' (hoặc xác suất để thấy kết quả cực đoan như vậy), và nó không bày tỏ trực tiếp 'xác suất rằng giả thuyết khống là sai'. Tuy nhiên, tôi cảm thấy rằng giá trị p không có nghĩa là được sử dụng theo nghĩa 'chính thức' này. Giá trị p được sử dụng để thể hiện sự nghi ngờ trong giả thuyết null, để thể hiện rằng các kết quả chỉ ra sự bất thườngsự bất thường sẽ khiến chúng ta nghi ngờ null ....
Sextus Empiricus

.... trong trường hợp của bạn, khi bạn thể hiện thách thức hiệu ứng null (thách thức ý tưởng rằng người ta không thể dự đoán được tiền) bằng cách cung cấp một trường hợp hiếm hoi (giống như người phụ nữ nếm trà) thì chúng ta thực sự nên nghi ngờ về null giả thuyết. Trong thực tế, chúng ta sẽ cần đặt giá trị p thích hợp cho điều này (vì thực sự người ta có thể thách thức null bằng cơ hội đơn thuần) và tôi sẽ không sử dụng mức 1%. Xác suất cao để nghi ngờ null không nên được đánh đồng, một đối một, với giá trị p (vì xác suất đó là một khái niệm Bayes nhiều hơn).
Sextus Empiricus

Tôi đã điều chỉnh văn bản để loại bỏ sự giải thích sai này.
Sextus Empiricus

0

Có vẻ như họ đang tranh cãi giá trị p so với định nghĩa của "Xu hướng".

Nếu bạn vẽ dữ liệu ra trên biểu đồ chạy, bạn có thể thấy một xu hướng ... một chuỗi các điểm cốt truyện cho thấy xu hướng tăng hoặc giảm theo thời gian.

Nhưng, khi bạn thực hiện các số liệu thống kê về nó .. giá trị p cho thấy nó không đáng kể.

Để giá trị p hiển thị ít ý nghĩa, nhưng để chúng thấy xu hướng / chạy trong chuỗi dữ liệu ... đó sẽ phải là một xu hướng rất nhẹ.

Vì vậy, nếu đó là trường hợp, tôi sẽ rơi vào giá trị p .. IE: ok, vâng, có một xu hướng / chạy trong dữ liệu .. nhưng nó rất nhẹ và không đáng kể rằng các số liệu thống kê cho thấy nó không đáng để theo đuổi thêm phân tích.

Một xu hướng không đáng kể là một cái gì đó có thể được quy cho một số sai lệch trong nghiên cứu .. có thể là một thứ rất nhỏ .. một cái gì đó có thể chỉ là một lần xảy ra trong thí nghiệm xảy ra để tạo ra một xu hướng nhỏ.

Nếu tôi là người quản lý của nhóm, tôi sẽ bảo họ ngừng lãng phí thời gian và tiền bạc để đào sâu vào những xu hướng không đáng kể, và tìm kiếm những thứ quan trọng hơn.


0

Có vẻ như trong trường hợp này, họ có ít lời biện minh cho yêu cầu của mình và chỉ lạm dụng số liệu thống kê để đi đến kết luận mà họ đã có. Nhưng có những lúc không quá khắt khe với việc cắt p-val. Điều này (làm thế nào để sử dụng ý nghĩa thống kê và cắt giảm giá trị) là một cuộc tranh luận đã nổ ra kể từ khi Fisher, Neyman và Pearson lần đầu tiên đặt nền móng cho kiểm tra thống kê.

Giả sử bạn đang xây dựng một mô hình và bạn đang quyết định các biến bao gồm. Bạn thu thập một ít dữ liệu để thực hiện một số điều tra sơ bộ về các biến tiềm năng. Bây giờ có một biến mà nhóm kinh doanh thực sự quan tâm, nhưng điều tra sơ bộ của bạn cho thấy biến đó không có ý nghĩa thống kê. Tuy nhiên, "hướng" của biến số sẽ phù hợp với những gì nhóm kinh doanh mong đợi và mặc dù nó không đáp ứng được ngưỡng quan trọng, nhưng nó đã kết thúc. Có lẽ nó đã bị nghi ngờ có mối tương quan tích cực với kết quả và bạn có hệ số beta là dương nhưng giá trị chỉ cao hơn một chút so với ngưỡng 0,05.

Trong trường hợp đó, bạn có thể tiếp tục và bao gồm nó. Đó là một thống kê bayes không chính thức - có một niềm tin mạnh mẽ trước đó rằng đó là một biến hữu ích và cuộc điều tra ban đầu cho thấy một số bằng chứng theo hướng đó (nhưng không phải là bằng chứng có ý nghĩa thống kê!) Vì vậy bạn cho nó lợi ích của sự nghi ngờ và giữ nó trong mô hình. Có lẽ với nhiều dữ liệu hơn, nó sẽ rõ ràng hơn về mối quan hệ của nó với kết quả quan tâm.

Một ví dụ khác có thể là nơi bạn đang xây dựng một mô hình mới và bạn xem xét các biến đã được sử dụng trong mô hình trước đó - bạn có thể tiếp tục bao gồm một biến biên (một biến số có ý nghĩa) để duy trì sự liên tục từ mô hình để mô hình.

Về cơ bản, tùy thuộc vào những gì bạn đang làm, có những lý do để ngày càng ít nghiêm ngặt hơn về những điều này.

Mặt khác, cũng cần lưu ý rằng ý nghĩa thống kê không phải ngụ ý một ý nghĩa thực tế! Hãy nhớ rằng trung tâm của tất cả điều này là kích thước mẫu. Thu thập đủ dữ liệu và sai số chuẩn của ước tính sẽ giảm xuống còn 0. Điều này sẽ tạo ra bất kỳ sự khác biệt nào, dù nhỏ đến mức nào, 'có ý nghĩa thống kê' ngay cả khi sự khác biệt đó có thể không tương đương với bất cứ điều gì trong thế giới thực. Ví dụ: giả sử xác suất của một đồng xu cụ thể hạ cánh trên đầu là .500000000000001. Điều này có nghĩa là về mặt lý thuyết bạn có thể thiết kế một thử nghiệm kết luận rằng đồng tiền này không công bằng, nhưng với tất cả ý nghĩa và mục đích, đồng xu có thể được coi là một đồng tiền công bằng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.