Quy tắc dừng tùy chọn không có trong sách giáo khoa


16

Các quy tắc dừng ảnh hưởng đến mối quan hệ giữa các giá trị P và tỷ lệ lỗi liên quan đến các quyết định. Một bài báo gần đây của Simmons et al. Năm 2011 , thuật ngữ mức độ tự do của nhà nghiên cứu để mô tả một tập hợp các hành vi mà họ cho là chịu trách nhiệm cho nhiều báo cáo trong tài liệu tâm lý học đã được tìm thấy là không thể tái tạo.

Trong những hành vi đó, các quy tắc dừng tùy chọn hoặc phân tích tạm thời không được khai báo là những gì tôi hiện đang quan tâm. Tôi mô tả ảnh hưởng của chúng đối với tỷ lệ lỗi đối với học sinh của tôi, nhưng dường như chúng không được mô tả trong sách giáo khoa mà học sinh của tôi sử dụng (hoặc không sử dụng!). Trong cửa hàng sách chính tại trường đại học của tôi, có mười bốn sách giáo khoa thống kê nhằm vào sinh viên cấp độ giới thiệu trong các ngành khác nhau như sinh học, kinh doanh, kỹ thuật, v.v. Chỉ có một trong những văn bản đó có mục chỉ mục "kiểm tra tuần tự 'và không có mục nào có mục lục' dừng quy tắc '.

Có một sách giáo khoa thống kê cấp độ giới thiệu giải thích vấn đề của các quy tắc dừng tùy chọn?

Simmons, JP, Nelson, LD, & Simonsohn, Hoa Kỳ (2011). Tâm lý học tích cực sai: Tính linh hoạt không được tiết lộ trong thu thập và phân tích dữ liệu cho phép trình bày bất cứ điều gì quan trọng . Khoa học tâm lý, 22 (11), 1359 Từ1366. doi: 10.1177 / 0956797611417632


1
Không phải vấn đề sẽ biến mất nếu bạn bỏ các số liệu thống kê thường xuyên và sử dụng các phương pháp CNTT hoặc Bayes? . Trong tương lai, sẽ không còn người thường xuyên nữa.
thedude

1
Có, vấn đề sẽ biến mất nếu không sử dụng các phương pháp nên tuân thủ nguyên tắc tần số. Tuy nhiên, một tương lai như vậy có thể không đến trong thế giới này. Nó là gì?
Michael Lew

2
@Michael: Gần như chắc chắn nó (nghĩa là CNTT) là viết tắt của "lý thuyết thông tin".
Đức hồng y

Về một chủ đề liên quan: errorstatistic.com/2013/04/06/ trên
Fr.

2
@thedude sử dụng khung lý thuyết khác nhau giới thiệu các vấn đề khác . Vấn đề ở đây là tất cả các bạn đều coi toán học là một cái gì đó khác hơn là một mô tả về thế giới. Số liệu thống kê thường xuyên là một cách rất hữu ích để mô tả thế giới, bayesian là một cách khác. Không cung cấp cho bạn một Oracle của sự thật .
Xúi giục

Câu trả lời:


2

Bạn không thể có một quy tắc dừng mà không có một số ý tưởng về phân phối và kích thước hiệu ứng của bạn - mà bạn không biết một tiên nghiệm.

Ngoài ra, chúng ta cần tập trung vào kích thước hiệu ứng - và chưa bao giờ được coi là chính xác khi chỉ xem xét các giá trị p và chúng ta chắc chắn không nên hiển thị các bảng hoặc biểu đồ hiển thị giá trị p hoặc giá trị F thay vì kích thước hiệu ứng.

Có những vấn đề với Thử nghiệm suy luận thống kê truyền thống (mà Cohen nói là xứng đáng với từ viết tắt của nó, và cả Fisher và Pearson đều sẽ lật lại trong các ngôi mộ nếu họ thấy tất cả những gì đang được thực hiện trong những cái tên đối nghịch dữ dội của họ ngày hôm nay).

Để xác định N, bạn cần xác định mức ý nghĩa và ngưỡng sức mạnh mục tiêu, cũng như đưa ra nhiều giả định về phân phối, và đặc biệt bạn cũng cần xác định kích thước hiệu ứng mà bạn muốn thiết lập. Việc nói xấu là hoàn toàn chính xác rằng đây phải là điểm khởi đầu - kích thước hiệu ứng tối thiểu nào sẽ có hiệu quả về chi phí!

"Số liệu thống kê mới" đang ủng hộ cho thấy kích thước hiệu ứng (như sự khác biệt được ghép nối khi thích hợp), cùng với độ lệch hoặc phương sai tiêu chuẩn liên quan (vì chúng ta cần hiểu phân phối) và độ lệch chuẩn hoặc khoảng tin cậy (nhưng đã có độ lệch chuẩn khóa trong giá trị p và quyết định về việc bạn dự đoán hướng hay đặt cược từng cách). Nhưng thiết lập hiệu ứng tối thiểu của dấu hiệu được chỉ định bằng dự đoán khoa học, làm rõ điều này - mặc dù mặc định tiền khoa học là để thử và sai và chỉ tìm kiếm sự khác biệt. Nhưng một lần nữa bạn đã đưa ra các giả định về tính quy tắc nếu bạn đi theo cách này.

Một cách tiếp cận khác là sử dụng các ô vuông như một cách tiếp cận không tham số, nhưng các quy ước về râu ria và ngoại lệ rất khác nhau và thậm chí sau đó chúng bắt nguồn từ các giả định phân phối.

Vấn đề dừng thực sự không phải là vấn đề của một nhà nghiên cứu cá nhân hay không đặt N, mà là chúng ta có cả một cộng đồng gồm hàng ngàn nhà nghiên cứu, trong đó 1000 nhiều hơn 1 / alpha cho mức 0,05 truyền thống. Câu trả lời hiện được đề xuất là cung cấp số liệu thống kê tóm tắt (trung bình, stddev, stderr - hoặc "phiên bản không tham số - trung bình, v.v. như với boxplot) để tạo điều kiện cho phân tích tổng hợp và đưa ra kết quả tổng hợp từ tất cả các thử nghiệm cho dù chúng có xảy ra hay không có đạt được mức độ alpha cụ thể hay không.

Liên quan chặt chẽ là vấn đề kiểm tra nhiều vấn đề, cũng khó khăn và trong đó các thí nghiệm được giữ quá mức trong tên của bảo toàn năng lượng, trong khi các phương pháp overcomplex được đề xuất để phân tích kết quả.

Tôi không nghĩ có thể có một chương sách giáo khoa xử lý vấn đề này một cách dứt khoát, vì chúng ta vẫn không biết mình đang làm gì ...

Hiện tại, cách tiếp cận tốt nhất có lẽ là tiếp tục sử dụng số liệu thống kê truyền thống phù hợp nhất với vấn đề, kết hợp với hiển thị số liệu thống kê tóm tắt - hiệu ứng và lỗi tiêu chuẩn và N là quan trọng nhất. Việc sử dụng các khoảng tin cậy về cơ bản tương đương với thử nghiệm T tương ứng, nhưng cho phép so sánh các kết quả mới với các kết quả được công bố một cách có ý nghĩa hơn, cũng như cho phép một ethos khuyến khích khả năng tái tạo và xuất bản các thí nghiệm được sao chép và phân tích tổng hợp.

Về phương pháp Thông tin lý thuyết hoặc Bayes, họ sử dụng các công cụ khác nhau và đưa ra các giả định khác nhau, nhưng vẫn không có tất cả các câu trả lời, và cuối cùng phải đối mặt với cùng một vấn đề, hoặc tồi tệ hơn vì suy luận Bayes lùi lại khỏi việc đưa ra một quyết định dứt khoát trả lời và chỉ thêm bằng chứng tương đối giả hoặc vắng mặt linh mục.

Cuối cùng, Machine Learning cũng có những kết quả cần xem xét về tầm quan trọng - thường là với các TCTD hoặc T-Test, thường là với các biểu đồ, hy vọng ghép nối thay vì chỉ so sánh và sử dụng các phiên bản được bù phù hợp khi các bản phân phối không khớp. Nó cũng có những tranh cãi về bootstrapping và xác nhận chéo, và sai lệch và phương sai. Tệ nhất là, nó có xu hướng tạo và kiểm tra vô số các mô hình thay thế chỉ bằng cách tham số hóa triệt để tất cả các thuật toán trong một trong nhiều hộp công cụ, được áp dụng cho các bộ dữ liệu được lưu trữ một cách chu đáo để cho phép kiểm tra nhiều lần. Tệ nhất vẫn là trong thời kỳ đen tối sử dụng độ chính xác, hoặc tệ hơn vẫn là thước đo F, để đánh giá - chứ không phải là phương pháp chính xác.

Tôi đã đọc hàng tá bài báo về các vấn đề này, nhưng không tìm thấy điều gì hoàn toàn thuyết phục - ngoại trừ các khảo sát tiêu cực hoặc các bài phân tích tổng hợp dường như chỉ ra rằng hầu hết các nhà nghiên cứu không xử lý và giải thích các số liệu thống kê phù hợp với bất kỳ "tiêu chuẩn nào" ", Cũ hay mới. Sức mạnh, nhiều thử nghiệm, kích thước và dừng sớm, giải thích các lỗi tiêu chuẩn và khoảng tin cậy, ... đây chỉ là một số vấn đề.

Hãy bắn tôi xuống - Tôi muốn được chứng minh là sai! Theo quan điểm của tôi, có rất nhiều nước tắm, nhưng chúng tôi chưa tìm thấy em bé! Ở giai đoạn này, không có quan điểm cực đoan hay cách tiếp cận thương hiệu nào có vẻ hứa hẹn là câu trả lời, và những người muốn loại bỏ mọi thứ khác có lẽ đã mất đứa bé.


Đó không phải là vấn đề bắn hạ bạn, tôi không nghĩ rằng CÓ THỂ có một giải pháp cho những vấn đề này. Chúng ta là con người nhận ra các mô hình trên thế giới, chúng ta phải giải quyết với tính hợp lệ hội tụ. Sau nỗ lực kém cỏi trong việc chứng minh một vị thần tồn tại, Descartes đã đạt được hiệu lực hội tụ. Đôi khi nó ở đó, đôi khi không, nhưng chúng ta chủ yếu chống lại sức mạnh vô cùng nhỏ bé của tính toán nhận thức.
Xúi giục

1

Tôi không tin rằng "quy tắc dừng" tùy chọn là một thuật ngữ kỹ thuật liên quan đến việc dừng tối ưu. Tuy nhiên, tôi nghi ngờ rằng bạn sẽ tìm thấy nhiều cuộc thảo luận chuyên sâu về chủ đề này trong sách giáo khoa thống kê tâm lý học cấp độ giới thiệu.

Lý do hoài nghi cho điều này là tất cả sinh viên khoa học xã hội có kỹ năng toán học yếu. Câu trả lời tốt hơn, IMHO, là các bài kiểm tra t đơn giản không phù hợp với hầu hết các thí nghiệm khoa học xã hội. Người ta phải xem xét sức mạnh hiệu ứng và tìm hiểu xem điều đó có giải quyết được sự khác biệt giữa các nhóm không. Cái trước có thể chỉ ra rằng cái sau là có thể nhưng đó là tất cả những gì nó có thể làm.

Các biện pháp chi tiêu phúc lợi, quy định của nhà nước và đô thị hóa đều có mối quan hệ có ý nghĩa thống kê với các biện pháp hành vi tôn giáo. Tuy nhiên, chỉ cần nêu giá trị p là đóng khung thử nghiệm trong mối quan hệ nhân quả hoàn toàn hoặc không có gì. Xem như sau:

nhập mô tả hình ảnh ở đây

Kết quả từ cả chi tiêu phúc lợiđô thị hóa đều có giá trị p có ý nghĩa thống kê nhưng chi tiêu phúc lợi có mối tương quan mạnh mẽ hơn nhiều. Đó là chi tiêu phúc lợi chương trình như một mối quan hệ mạnh mẽ với các biện pháp khác của tôn giáo ( tỷ lệ phi tôn giáo cũng như sự thoải mái trong tôn giáo ) mà đô thị hóa thậm chí không đạt được một giá trị p của < .10, cho thấy rằng đô thị hóa không ảnh hưởng đến niềm tin tôn giáo nói chung. Tuy nhiên, lưu ý rằng ngay cả chi tiêu phúc lợi cũng không giải thích được Ireland hoặc Philippines, cho thấy rằng một số hiệu ứng khác tương đối mạnh hơn chi tiêu phúc lợi .

Dựa vào "quy tắc dừng" có thể dẫn đến dương tính giả, đặc biệt là trong các cỡ mẫu tâm lý nhỏ. Tâm lý học như một lĩnh vực đang thực sự bị kìm hãm bởi những loại shenanigans thống kê này. Tuy nhiên, đặt tất cả niềm tin của chúng tôi vào một giá trị p tùy ý cũng khá ngu ngốc. Ngay cả khi tất cả chúng tôi đã gửi kích thước mẫu của chúng tôi và các tuyên bố giả thuyết cho một tạp chí trước khi tiến hành thí nghiệm, chúng tôi vẫn sẽ chạy vào dương tính giả như học viện được chung trolling cho ý nghĩa thống kê.

Điều đúng đắn không phải là dừng khai thác dữ liệu, điều đúng đắn cần làm là mô tả các kết quả liên quan đến hiệu quả của chúng . Các lý thuyết được đánh giá không chỉ bởi tính chính xác của dự đoán mà còn bởi tiện ích của những dự đoán đó. Cho dù phương pháp nghiên cứu tốt đến đâu, một loại thuốc giúp cải thiện 1% các triệu chứng cảm lạnh không đáng là bao để bỏ vào viên nang.

Cập nhật Để rõ ràng, tôi hoàn toàn đồng ý rằng các nhà khoa học xã hội nên được tổ chức theo tiêu chuẩn cao hơn: chúng ta cần cải thiện giáo dục, cung cấp cho các nhà khoa học xã hội công cụ tốt hơn và tăng mức độ quan trọng lên 3-sigma. Tôi đang cố gắng nhấn mạnh một điểm dưới đại diện: phần lớn các nghiên cứu tâm lý học là vô giá trị vì kích thước hiệu ứng quá nhỏ.

Nhưng với Amazon Turk, tôi có thể bù một cách hợp lý cho việc chạy 10 nghiên cứu song song và duy trì mức độ tin cậy> 3-sigma rất rẻ. Nhưng nếu cường độ hiệu ứng là nhỏ, thì có những mối đe dọa đáng kể đối với tính hợp lệ bên ngoài. Tác động của việc thao túng có thể là do một câu chuyện tin tức, hoặc thứ tự của các câu hỏi, hoặc ....

Tôi không có thời gian cho một bài luận, nhưng các vấn đề chất lượng trong khoa học xã hội vượt xa các phương pháp thống kê nhảm nhí.


Tôi hiểu rằng có một số sự kết hợp của xã hội học (thường là nghiên cứu phi thực nghiệm) và các thử nghiệm lâm sàng ở đây. Tuy nhiên, câu đầu tiên của bạn không có ý nghĩa: quy tắc dừng là một lĩnh vực nghiên cứu khổng lồ trong các thử nghiệm lâm sàng. Lý do cho điều này là nhiều giả thuyết tương quan được kiểm tra tuần tự là một phần của kế hoạch phân tích được định trước . Liên kết trong câu hỏi OP, tuy nhiên, không phải là một vấn đề của toán học xấu, nó là một trong những khoa học xấu. Tiến hành nhiều thử nghiệm thống kê để "cảm nhận" phân tích đúng và dừng lại khi người ta thấy tầm quan trọng là khoa học xấu cho dù bạn cắt nó như thế nào.
AdamO

@AdamO Tôi đồng ý! Khi tôi viết bài này, tôi là một sinh viên chưa tốt nghiệp đang cố gắng sử dụng các phương pháp khai thác dữ liệu và khi tôi đi để đảm bảo rằng tôi đang làm mọi thứ chính xác (mà tôi) là những phản ứng ban đầu tôi nhận được từ các giáo sư và nhà thống kê là ... ngây thơ. Trớ trêu thay, quy trình vận hành tiêu chuẩn cho các phòng thí nghiệm khoa học xã hội là chạy các nghiên cứu thí điểm cho đến khi họ tìm thấy điều gì đó thú vị. Tôi đã làm điều tương tự, nhưng thực sự đang cố gắng bù đắp cho nó: p
Làm mất lòng

0

Bài báo bạn trích dẫn không đề cập đến các quy tắc dừng và dường như ít có liên quan đến vấn đề trong tay. Mối quan hệ duy nhất, rất nhỏ của họ là nhiều thử nghiệm là một khái niệm thống kê , không phải là một khoa học.

Trong tài liệu về các thử nghiệm lâm sàng, bạn sẽ thấy rằng các quy tắc dừng được thực hiện nghiêm ngặt với thông tin rõ ràng về các điều kiện mà một nghiên cứu sẽ "nhìn": dựa trên năm dương lịch, hoặc ghi danh năm người, cài đặt mức độ alpha và cũng giới hạn về tác dụng đối với các phương pháp điều trị "hiệu quả" so với "có hại". Thật vậy, chúng ta nên xem xét các hành vi nghiêm ngặt của các nghiên cứu như một ví dụ về khoa học được thực hiện tốt . FDA thậm chí sẽ đi xa hơn để nói, sau một phát hiện quan trọng về hiệu quả khác với quy định trước đó, một thử nghiệm thứ hai phải được tiến hành để xác nhận những phát hiện này. Đây vẫn là một vấn đề rất nhiều để Thomas Flemming khuyến nghị rằng tất cả các nghiên cứu lâm sàng cần phảixác nhận với một thử nghiệm xác nhận thứ hai hoàn toàn độc lập, được thực hiện bởi các thực thể riêng biệt. Vì vậy, xấu là vấn đề sai lầm dương tính khi xem xét cuộc sống và chăm sóc y tế.

Với sự giám sát dường như vô hại, các lĩnh vực khoa học khác đã duy trì đạo đức xấu trong nghiên cứu. Thật vậy, khoa học xã hội không ảnh hưởng đến các phương pháp điều trị mà mọi người nhận được, họ giải quyết các tóm tắt và các mô hình khái niệm chỉ nâng cao hiểu biết của chúng ta về sự tương tác của lý thuyết và quan sát. Tuy nhiên, bất kỳ người tiêu dùng khoa học xã hội, giáo dân hay khoa học, thường được trình bày với những phát hiện mâu thuẫn: sô cô la tốt cho bạn, sô cô la là xấu cho bạn (nhân tiện, sô cô la tốt cho bạn đường và chất béotrong sô cô la là xấu cho bạn), tình dục là tốt cho bạn, hôn nhân làm bạn buồn / hôn nhân làm cho bạn hạnh phúc. Lĩnh vực này là remiss với khoa học xấu. Ngay cả tôi cũng có tội khi làm việc trên các phân tích mà tôi không hài lòng với ngôn ngữ nhân quả mạnh mẽ mà sau đó gắn liền với các khuyến nghị mạnh mẽ về chính sách và hỗ trợ của liên bang, hoàn toàn không chính đáng và nó đã bị công khai.

Bài báo của Simmons mô tả hiệu quả, cách tiết lộ sẽ hỗ trợ trong việc đưa ra các loại "phím tắt" mà các nhà nghiên cứu đưa ra trong các nghiên cứu xã hội. Simmons đưa ra trong Bảng 1 một ví dụ về cách nạo vét dữ liệu làm tăng đáng kể tỷ lệ lỗi dương tính giả theo cách điển hình của nhà khoa học phi đạo đức "câu cá tìm kiếm". Tóm tắt các phát hiện trong Bảng 2 mô tả các khía cạnh thường xuyên bị bỏ qua của các bài viết sẽ phục vụ để cải thiện đáng kể sự hiểu biết về cách có thể có nhiều hơn một phân tích được thực hiện.

Tóm lại, các quy tắc dừng sẽ chỉ phù hợp với một giả thuyết được chỉ định trước: đây là những quy tắc đạo đức và yêu cầu các phương pháp thống kê. Bài báo của Simmons thừa nhận rằng phần lớn nghiên cứu thậm chí không cho phép điều đó, và nó không có căn cứ về mặt đạo đức nhưng ngôn ngữ thống kê đang thuyết phục tại sao chính xác là nó sai.


Tôi không hiểu tại sao bạn lại nói rằng bài báo được trích dẫn có chút vấn đề trong tay. Nó chứa một phần tiêu đề gọi là "Xem xét kỹ hơn về tính linh hoạt trong kích thước mẫu", tất cả là về việc dừng tùy chọn. Có cái nhìn khác.
Michael Lew

@MichaelLew để tóm tắt câu trả lời: các quy tắc dừng phải được thực hiện với các thử nghiệm lâm sàng, tuyển dụng và theo dõi nhưng thử nghiệm một giả thuyết được chỉ định trước đây là một thực hành có thể chấp nhận được trong nghiên cứu cho các thiết bị và tác nhân trị liệu của FDA. Bài viết của Simmons đề cập đến đạo đức nghiên cứu, tiêu chí và p-hack trong nghiên cứu và học thuật y học xã hội. Bạn có thể mô tả chính xác hơn cách bạn nhìn thấy mối quan hệ? Có lẽ bạn có thể chỉnh sửa bài đăng của mình để xác định các thuật ngữ và cung cấp tài liệu tham khảo cho các tài liệu khác, đặc biệt liên quan đến "quy tắc dừng" mà AFAIK không tồn tại bên ngoài các thử nghiệm lâm sàng.
AdamO

Tôi cũng không nghĩ rằng đặc tính của bạn "các lĩnh vực khoa học khác đã duy trì đạo đức xấu trong nghiên cứu" là công bằng hay hữu ích. Điểm của câu hỏi ban đầu của tôi là dường như không có lý do tại sao người dùng thống kê bán thời gian thậm chí sẽ nhận thức được các vấn đề tiềm ẩn phát sinh từ các phân tích tạm thời không được công bố. Thật không công bằng khi gọi sự thiếu hiểu biết là phi đạo đức.
Michael Lew

@MichaelLew bạn định nghĩa thế nào là "phân tích tạm thời"?
AdamO

Adam, tôi không nghĩ rằng bạn đúng khi nói rằng "các quy tắc dừng lại không tồn tại bên ngoài các thử nghiệm lâm sàng". Chúng có thể không thường được đề cập bên ngoài các thử nghiệm lâm sàng (xem câu hỏi ban đầu của tôi), nhưng chúng tồn tại cho mọi thử nghiệm. Ngay cả một thử nghiệm cỡ mẫu cố định cũng có quy tắc dừng 'tiếp tục cho đến khi đạt được kích thước mẫu'.
Michael Lew
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.