Dữ liệu thăm dò dữ liệuvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv


30

Nhiều lần tôi đã bắt gặp những cảnh báo không chính thức chống lại "rình mò dữ liệu" (đây là một ví dụ thú vị ) và tôi nghĩ rằng tôi có một ý tưởng trực quan về điều đó có nghĩa là gì, và tại sao nó có thể là một vấn đề.

Mặt khác, "phân tích dữ liệu thăm dò" dường như là một quy trình hoàn toàn đáng kính trong thống kê, ít nhất là đánh giá bởi thực tế rằng một cuốn sách với tiêu đề đó vẫn được trích dẫn là một tác phẩm kinh điển.

Trong công việc của tôi, tôi thường bắt gặp những gì trông giống như "rình mò dữ liệu" tràn lan, hoặc có lẽ nó được mô tả tốt hơn là " tra tấn dữ liệu ", mặc dù những người làm việc đó dường như thấy hoạt động tương tự như thăm dò "hoàn toàn hợp lý và không có gì khó hiểu ".

Đây là kịch bản điển hình: thử nghiệm tốn kém được thực hiện (không cần suy nghĩ nhiều về phân tích tiếp theo), các nhà nghiên cứu ban đầu không thể dễ dàng nhận ra một "câu chuyện" trong dữ liệu thu thập được, ai đó được đưa vào để áp dụng một số "phù thủy thống kê", và ai , sau khi cắt và cắt dữ liệu theo mọi cách, cuối cùng cũng có thể trích xuất một số "câu chuyện" có thể xuất bản từ nó.

Tất nhiên, thường có một số "xác nhận" được đưa ra trong báo cáo / báo cáo cuối cùng để cho thấy rằng phân tích thống kê đang tăng lên, nhưng thái độ công bố trắng trợn tất cả đằng sau nó khiến tôi nghi ngờ.

Thật không may, sự hiểu biết hạn hẹp của tôi về việc làm và không nên phân tích dữ liệu khiến tôi không vượt qua được những nghi ngờ mơ hồ như vậy, vì vậy phản ứng bảo thủ của tôi là về cơ bản coi thường những phát hiện đó.

Hy vọng của tôi là không chỉ hiểu rõ hơn về sự khác biệt giữa thăm dò và rình mò / tra tấn, mà còn, và quan trọng hơn là nắm bắt tốt hơn các nguyên tắc và kỹ thuật để phát hiện khi đường đó bị cắt ngang, sẽ cho phép tôi đánh giá những phát hiện đó trong một cách hợp lý có thể giải thích một cách hợp lý một quy trình phân tích kém tối ưu, và do đó có thể vượt ra ngoài phản ứng khá đơn giản hiện tại của tôi về sự hoài nghi chăn.


EDIT: Cảm ơn tất cả các bạn cho ý kiến ​​và câu trả lời rất thú vị. Đánh giá theo nội dung của họ, tôi nghĩ rằng tôi có thể chưa giải thích câu hỏi của mình đủ tốt. Tôi hy vọng bản cập nhật này sẽ làm rõ vấn đề.

Câu hỏi của tôi ở đây không quan tâm lắm đến việc tôi nên làm gì để tránh tra tấn dữ liệu của mình (mặc dù đây là câu hỏi cũng khiến tôi quan tâm), nhưng thay vào đó: tôi nên xem xét (hoặc đánh giá) kết quả mà tôi biết như thế nào đã được thông qua "tra tấn dữ liệu" như vậy.

Tình huống trở nên thú vị hơn trong những trường hợp (hiếm hơn), trong đó, ngoài ra, tôi có thể đưa ra ý kiến ​​về những "phát hiện" đó trước khi chúng được gửi để xuất bản.

Tại thời điểm này, hầu hết tôi có thể làm là nói cái gì đó như "Tôi không biết có bao nhiêu tin tưởng tôi có thể cung cấp cho những phát hiện này, cho những gì tôi biết về các giả định và thủ tục mà đi vào nhận được chúng." Điều này là quá mơ hồ để có thể nói. Muốn vượt xa sự mơ hồ như vậy là động lực cho bài viết của tôi.

Công bằng mà nói, những nghi ngờ của tôi ở đây dựa trên nhiều phương pháp thống kê có vẻ nghi vấn. Trên thực tế, tôi thấy vấn đề thứ hai là hậu quả của vấn đề sâu sắc hơn: sự kết hợp giữa thái độ ung dung đối với thiết kế thử nghiệm cùng với cam kết phân loại để công bố kết quả khi chúng đứng (tức là không có bất kỳ thử nghiệm nào nữa). Tất nhiên, các dự án tiếp theo luôn được hình dung, nhưng đơn giản là không có câu hỏi nào mà không một tờ giấy nào được đưa ra, nói, "một tủ lạnh chứa 100.000 mẫu."

Thống kê đi vào bức tranh chỉ như một phương tiện để thực hiện mục tiêu tối cao này. Sự biện minh duy nhất cho việc bám vào các số liệu thống kê (thứ yếu như trong toàn bộ kịch bản) là một thách thức trực diện đối với giả định "xuất bản bằng mọi giá" chỉ đơn giản là vô nghĩa.

Trên thực tế, tôi chỉ có thể nghĩ đến một phản ứng hiệu quả trong các tình huống như vậy: đề xuất một số thử nghiệm thống kê (không yêu cầu thử nghiệm bổ sung) thực sự kiểm tra chất lượng của phân tích. Nhưng tôi không có số liệu thống kê cho nó. Hy vọng của tôi (ngây thơ khi nhìn lại) là tìm ra những gì tôi có thể nghiên cứu có thể cho phép tôi đưa ra các bài kiểm tra như vậy ...

Khi tôi viết điều này, tôi nhận ra rằng, nếu nó chưa tồn tại, thế giới có thể sử dụng một nhánh thống kê mới, dành cho các kỹ thuật phát hiện và phơi bày "tra tấn dữ liệu". (Tất nhiên, tôi không có nghĩa là bị mang theo ẩn dụ "tra tấn": vấn đề không phải là "tra tấn dữ liệu" mỗi lần, mà là "phát hiện" giả mà nó có thể dẫn đến.)


1
@BabakP Câu trích dẫn đó xuất hiện trong sáu câu trả lời ở đây, bao gồm trong các câu chuyện cười thống kê và chủ đề trích dẫn thống kê. (Cái sau là một nguồn tốt cho các trích dẫn có liên quan nếu bạn đang săn lùng một số thứ.)
whuber

7
Tôi không nghĩ có bất kỳ sự khác biệt nào giữa các kỹ thuật được sử dụng trong 'dữ liệu rình mò' & trong 'phân tích dữ liệu khám phá' - việc sử dụng thuật ngữ trước đây là để phân tích khám phá được trình bày sai lệch như một phân tích xác nhận.
Scortchi - Phục hồi Monica

8
Feynman, trong cuốn sách mà bạn tham khảo, đã trả lời câu hỏi này: "Nếu anh ta muốn kiểm tra giả thuyết này [tìm thấy thông qua thăm dò], ... anh ta phải thực hiện một thí nghiệm khác." Những gì bạn dường như đang quan tâm liệu Feynman có thể đã quá cực đoan ("phóng đại một chút"): đến mức nào, nếu ở tất cả, liệu có thể kiểm tra chính thức các giả thuyết khi chúng được phát triển bằng cách khám phá cùng một dữ liệu không?
whuber

2
@whuber: trong thực tế, nó thậm chí còn kịch tính hơn, bởi vì thường thử nghiệm với các dữ liệu khác nhau, nhưng cùng một thiết lập thử nghiệm hoặc loại thử nghiệm sẽ vô tình dẫn đến kết quả tương tự.
Tháng Một

1
@Janemony: điều đó phụ thuộc vào dữ liệu / thí nghiệm của bạn tôi nghĩ. Xem xét ví dụ nghiên cứu sinh học / y tế. Đối với dữ liệu tôi thấy, sự khác biệt lớn nhất thường là giữa bệnh nhân (đối tượng). Lặp đi lặp lại thử nghiệm với các bệnh nhân mới hy vọng sẽ dẫn đến kết quả tương tự, nhưng trong thực tế, điều này khá thường không xảy ra (nghĩa là kết quả dự đoán của các mô hình được phát triển trên nhóm bệnh nhân đầu tiên tồi tệ hơn nhiều so với dự kiến, điều đó có nghĩa là xảy ra quá mức dữ liệu trong thí nghiệm đầu tiên bị "tra tấn")
cbeleites hỗ trợ Monica

Câu trả lời:


22

Có một sự khác biệt mà đôi khi không nhận được đủ sự chú ý, đó là tạo ra giả thuyết so với thử nghiệm giả thuyết hoặc phân tích khám phá so với thử nghiệm giả thuyết. Bạn được phép tất cả các mánh khóe bẩn thỉu trên thế giới đưa ra ý tưởng / giả thuyết của bạn. Nhưng khi bạn kiểm tra nó sau đó, bạn phải tàn nhẫn giết chết những người thân yêu của mình.

Tôi là một nhà sinh vật học làm việc với dữ liệu thông lượng cao mọi lúc, và vâng, tôi thường xuyên thực hiện việc "cắt và thái hạt lựu" này. Hầu hết các trường hợp thí nghiệm thực hiện không được thiết kế cẩn thận; hoặc có thể những người đã lên kế hoạch nó đã không tính đến tất cả các kết quả có thể. Hoặc thái độ chung khi lập kế hoạch là "hãy xem những gì trong đó". Chúng tôi kết thúc với các bộ dữ liệu thú vị , đắt tiền và bản thân mà sau đó tôi quay lại và tìm ra một câu chuyện.

Nhưng sau đó, nó chỉ là một câu chuyện (có thể đi ngủ). Sau khi bạn đã chọn một vài góc độ thú vị - và đây là điểm quan trọng - bạn phải kiểm tra nó không chỉ với các tập dữ liệu độc lập hoặc các mẫu độc lập, mà tốt nhất là với một cách tiếp cận độc lập , một hệ thống thử nghiệm độc lập.

Tầm quan trọng của điều cuối cùng này - một thiết lập thử nghiệm độc lập, không chỉ tập hợp các phép đo hoặc mẫu độc lập - thường bị đánh giá thấp. Tuy nhiên, khi chúng tôi kiểm tra 30.000 biến để tìm sự khác biệt đáng kể, thường xảy ra rằng trong khi các mẫu tương tự (nhưng khác nhau) từ cùng một đoàn hệ và được phân tích với cùng một phương pháp sẽ không bác bỏ giả thuyết chúng tôi dựa trên tập trước đó. Nhưng sau đó chúng tôi chuyển sang một loại thử nghiệm khác và một đoàn hệ khác, và kết quả của chúng tôi hóa ra là kết quả của sự thiên lệch về phương pháp hoặc bị hạn chế trong khả năng ứng dụng của chúng.

Đó là lý do tại sao chúng ta thường cần một số bài báo của một số nhà nghiên cứu độc lập để thực sự chấp nhận một giả thuyết hoặc một mô hình.

Vì vậy, tôi nghĩ rằng tra tấn dữ liệu như vậy là tốt, miễn là bạn giữ sự khác biệt này trong tâm trí và nhớ những gì bạn đang làm, ở giai đoạn nào của quá trình khoa học. Bạn có thể sử dụng các giai đoạn mặt trăng hoặc xác định lại 2 + 2 miễn là bạn có xác thực dữ liệu độc lập . Để đặt nó trên một hình ảnh:

nhập mô tả hình ảnh ở đây

Thật không may, có những người đặt hàng microarray để làm tròn một bài báo sau khi một vài thí nghiệm đã được thực hiện và không có câu chuyện nào nổi lên, với hy vọng rằng phân tích thông lượng cao cho thấy điều gì đó. Hoặc họ bối rối về toàn bộ thử nghiệm giả thuyết so với thế hệ.


Tôi cho rằng người ta có thể hiểu cái mà tôi đã xem là "thế hệ giả thuyết", nhưng mục đích của các thao tác mà tôi đang nói đến chắc chắn là công bố kết quả thu được từ dữ liệu "bị tra tấn" và làm như vậy ở mức cao nhất -Nhận xét tạp chí sẽ chấp nhận bài báo. Không cần phải nói, những bài báo như vậy không bao giờ mang bất kỳ gợi ý nào về nguồn gốc bị tra tấn của những phát hiện của họ. Trong thực tế, AFAICT, các tác giả hoàn toàn không gặp rắc rối với điều này. Tuy nhiên, tôi nghĩ rằng phần lớn độc giả của những tờ báo như vậy sẽ giảm giá mạnh cho những phát hiện nếu họ biết chính xác có bao nhiêu sự tra tấn dữ liệu đã khiến họ ...
kjo

1
@kjo: thế hệ giả thuyết là một phần của quá trình khoa học mà chắc chắn có thể được công bố. Vì vậy, đó không phải là lý do.
cbeleites hỗ trợ Monica

@ Tháng một: bạn đã quên đề cập đến DoE "lấy tất cả các mẫu chúng tôi có thể nhận được - dù sao chúng cũng sẽ quá ít" - đó là DoE thường gặp nhất mà tôi gặp.
cbeleites hỗ trợ Monica

@cbeleites: tốt, tôi sẽ không mơ ước chỉ trích thái độ này nói chung; thông thường các thí nghiệm có thể được hưởng lợi từ số lượng lớn hơn các bản sao. Nhưng tôi đồng ý rằng các nhà thực nghiệm thường có xu hướng bao gồm nhiều điều kiện (loại mẫu, chủng, biến thể, lớp, v.v.) chỉ có thể về mặt vật lý, làm cho phân tích trở thành một cơn ác mộng và đôi khi hoàn toàn che khuất câu hỏi.
Tháng Một

12

Herman Friedman, giáo sư yêu thích của tôi ở trường học, đã từng nói rằng

"nếu bạn không ngạc nhiên, bạn đã không học được gì"

Tránh tuyệt đối bất cứ điều gì ngoại trừ việc kiểm tra nghiêm ngặt nhất các giả thuyết được xác định trước đã hạn chế nghiêm trọng khả năng ngạc nhiên của bạn.

Tôi nghĩ điều quan trọng là chúng tôi thành thật về những gì chúng tôi đang làm. Nếu chúng ta đang ở trong một chế độ khám phá cao, chúng ta nên nói như vậy. Ở phía đối diện, một giáo sư mà tôi biết đã nói với sinh viên của mình thay đổi các giả thuyết của mình vì những điều ban đầu không được coi là có ý nghĩa.


4
Không có gì sai khi kiểm tra nghiêm ngặt các giả thuyết được xác định trước theo dõi cùng một dữ liệu để đề xuất các giả thuyết được xác định trước tiếp theo sẽ được kiểm tra nghiêm ngặt. Và nếu chúng ta ở chế độ thăm dò thậm chí hơi nhẹ, chúng ta nên nói như vậy - chỉ cần nói những gì chúng ta thực sự đã làm - và để người khác quyết định chính xác mức độ lớn mà họ muốn nhận kết quả của chúng ta, tuy nhiên tin chắc về tính hợp lệ của chúng ta chính chúng ta Tôi muốn đưa ra câu trả lời này nhiều hơn một phiếu bầu để nhấn mạnh sự trung thực.
Scortchi - Phục hồi Monica

7

Hãy để tôi thêm một vài điểm:

  • trước hết, thế hệ giả thuyết là một phần quan trọng của khoa học. Và kết quả không dự đoán (thăm dò / mô tả) có thể được công bố.

  • IMHO rắc rối không phải là do việc khám phá dữ liệu được sử dụng trên một tập dữ liệu và chỉ một phần của những phát hiện đó được công bố. Vấn đề là

    • không mô tả bao nhiêu đã được thử
    • sau đó rút ra kết luận như thể nghiên cứu là một nghiên cứu xác nhận cho một số mô hình dự đoán / nghiên cứu thử nghiệm giả thuyết
  • Khoa học và phát triển phương pháp là các quá trình lặp đi lặp lại một cách tổng quát hơn nhiều so với chỉ tạo ra giả thuyết - thử nghiệm - tạo ra các giả thuyết mới - thử nghiệm .... IMHO là vấn đề của sự phán đoán chuyên nghiệp là loại hành vi phù hợp nào là cần thiết ở giai đoạn nào (xem ví dụ phía dưới).

Những gì tôi làm:

  • cố gắng làm cho mọi người nhận thức được sự thiên vị lạc quan mà kết quả
    Khi tôi có cơ hội, tôi cũng cho mọi người thấy mức độ khác biệt tạo ra (khả thi chủ yếu với mức độ thấp hơn của cùng một vấn đề, ví dụ: so sánh dữ liệu được xác thực độc lập với bệnh nhân với hiệu suất bên trong ước tính các thói quen tối ưu hóa siêu tham số, chẳng hạn như tìm kiếm lưới cho paraters SVM, "mô hình kết hợp" như PCA-LDA, v.v. Không thực sự khả thi cho việc nạo vét dữ liệu thực sự, bởi vì cho đến nay, không ai cho tôi tiền để kiếm tiền một bản sao thực sự của một nghiên cứu có kích thước hợp lý ...)
  • đối với các bài báo mà tôi là đồng tác giả: nhấn mạnh vào một cuộc thảo luận về những hạn chế của kết luận. Hãy chắc chắn rằng các kết luận không được đưa ra một cách tổng quát hơn so với nghiên cứu cho phép.
  • Khuyến khích đồng nghiệp sử dụng kiến ​​thức chuyên môn của họ về đối tượng nghiên cứu và quy trình tạo dữ liệu để quyết định cách xử lý dữ liệu thay vì thực hiện tốn kém (về kích thước mẫu bạn cần thực hiện đúng) model- "hyper" -parameter (chẳng hạn như loại tiền xử lý nào sẽ sử dụng).
  • song song: cố gắng làm cho mọi người nhận thức được việc kinh doanh tối ưu hóa này tốn kém như thế nào nếu được thực hiện đúng cách (dù điều này được gọi là thăm dò hay không liên quan, nếu thực hiện sai, nó sẽ có kết quả tương tự như nạo vét dữ liệu), ví dụ Beleites, C. và Neugebauer , U. và Bocklitz, T. và Krafft, C. và Popp, J.: Lập kế hoạch cỡ mẫu cho các mô hình phân loại. Hậu môn Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
    bản thảo được chấp nhận trên arXiv: 1211.1323
  • Đây là một nghiên cứu cho thấy người mù cố gắng này cũng thường vô ích, ví dụ
    J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: Phá vỡ xu hướng trong quá trình tiền xử lý?, Xu hướng TrAC trong Hóa học phân tích, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
    (họ đã thử một số lượng lớn kết hợp các bước tiền xử lý và thấy rằng rất ít dẫn đến các mô hình tốt hơn so với không xử lý trước)

  • Nhấn mạnh rằng tôi không tra tấn dữ liệu của mình nhiều hơn mức cần thiết:
    ví dụ :

    Tất cả quá trình tiền xử lý được quyết định sử dụng kiến ​​thức phổ và không có quá trình tiền xử lý dựa trên dữ liệu nào được thực hiện.

    Một bài viết tiếp theo sử dụng cùng một dữ liệu làm ví dụ cho việc phát triển lý thuyết (khác nhau) đọc

    Tất cả quá trình tiền xử lý được quyết định bởi kiến ​​thức phổ, không bao gồm các bước dựa trên dữ liệu và không thực hiện tối ưu hóa tham số. Tuy nhiên, chúng tôi đã kiểm tra rằng phép chiếu PLS [45] của phổ lên 25 biến tiềm ẩn khi xử lý trước cho đào tạo LR không dẫn đến nhiều thay đổi nhỏ trong dự đoán (xem hình bổ sung S.2).

    Bởi vì trong khi đó tôi đã được một biên tập viên của tạp chí CILS yêu cầu rõ ràng (trong một cuộc hội thảo) để so sánh các mô hình với tiền xử lý PLS.

  • Theo quan điểm thực tế: Ví dụ, trong nghiên cứu về tế bào hình sao được liên kết ở trên, tất nhiên tôi vẫn quyết định một số điểm sau khi xem dữ liệu (chẳng hạn như ngưỡng cường độ nào tương ứng với các phép đo được lấy từ bên ngoài mẫu - sau đó bị loại bỏ). Các quyết định khác mà tôi biết là không chính xác (đường cơ sở so với bậc hai: kinh nghiệm của tôi với loại dữ liệu đó cho thấy rằng điều này thực sự không thay đổi nhiều - điều này cũng hoàn toàn phù hợp với những gì mà Jasper Engel tìm thấy trên các dữ liệu khác nhau thuộc loại tương tự, vì vậy Tôi sẽ không mong đợi một sự thiên vị lớn đến từ việc quyết định loại đường cơ sở bằng cách xem dữ liệu (bài báo đưa ra lập luận tại sao điều đó hợp lý).
    Dựa trên nghiên cứu chúng tôi đã làm, bây giờ chúng tôi có thể nói những gì nên được giải quyết tiếp theo và những gì nên được thay đổi. Và bởi vì chúng ta vẫn đang ở giai đoạn đầu phát triển phương pháp (nhìn vào các mẫu ex-vivo ), không có giá trị trong khi phải trải qua tất cả "bài tập về nhà" cuối cùng sẽ cần thiết trước khi phương pháp có thể được sử dụng in-vivo . Ví dụ, ở giai đoạn hiện tại của phân loại tế bào hình sao, xác nhận lại mẫu là một lựa chọn hợp lý hơn so với bộ thử nghiệm bên ngoài. Tôi vẫn nhấn mạnh rằng một nghiên cứu xác nhận bên ngoài thực sự sẽ cần thiết vào một lúc nào đó, bởi vì một số đặc điểm hiệu suất chỉ có thể được đo theo cách đó (ví dụ như tác động của sự trôi dạt / chứng minh rằng chúng ta có thể sửa cho những điều này). Nhưng ngay bây giờ trong khi chúng tôi vẫn đang chơi với ex-vivocác mẫu và đang giải quyết các phần khác của vấn đề lớn (trong các tài liệu được liên kết: cách xử lý các trường hợp đường biên), mức tăng kiến ​​thức hữu ích từ một nghiên cứu xác thực ex-vivo thích hợp là quá thấp trong khi nỗ lực (IMHO: trừ khi đã được thực hiện để đo độ lệch do nạo vét dữ liệu).

  • Tôi đã từng đọc một cuộc tranh luận về các tiêu chuẩn thống kê và báo cáo, và liệu điều đó có nên được quyết định là cần thiết cho một tạp chí (không nhớ cái nào) đã thuyết phục tôi: ý tưởng bày tỏ rằng không cần các biên tập viên thử đồng ý và thực thi một số tiêu chuẩn (sẽ gây ra nhiều cuộc thảo luận vô ích) bởi vì:

    • Những người sử dụng các kỹ thuật phù hợp thường rất ý thức / tự hào về điều đó và sẽ (và nên) báo cáo chi tiết những gì đã được thực hiện.
    • Nếu một điểm nhất định (ví dụ nạo vét dữ liệu, xác nhận không độc lập ở cấp độ bệnh nhân) không được đánh vần rõ ràng, thì giả định mặc định cho người đánh giá / người đọc là nghiên cứu không tuân thủ các nguyên tắc phù hợp trong câu hỏi đó (có thể vì họ đã không ' t biết rõ hơn)

4

Đôi khi những điều bạn xem là "tra tấn dữ liệu" không thực sự. Không phải lúc nào cũng rõ ràng chính xác những gì bạn sẽ làm với dữ liệu để đưa ra những gì bạn tin là kết quả thực sự của thử nghiệm cho đến khi bạn nhìn thấy nó.

Ví dụ: với dữ liệu thời gian phản ứng cho một nhiệm vụ quyết định, bạn thường muốn từ chối những lần không liên quan đến quyết định (nghĩa là khi chúng diễn ra quá nhanh, rõ ràng chúng chỉ đoán và không đưa ra quyết định). Bạn có thể vẽ chính xác của quyết định chống lại RT để xem việc đoán thường xảy ra ở đâu. Nhưng cho đến khi bạn đã thử nghiệm mô hình cụ thể đó, bạn không có cách nào biết được điểm cắt ở đâu (về thời gian, không chính xác). Đối với một số nhà quan sát, một quy trình như vậy trông giống như tra tấn dữ liệu nhưng miễn là nó không liên quan trực tiếp đến các kiểm tra giả thuyết (bạn không điều chỉnh nó dựa trên các kiểm tra) thì đó không phải là tra tấn dữ liệu.

Dữ liệu rình mò trong một thử nghiệm là được miễn là nó được thực hiện đúng cách. Có lẽ không hợp lý khi dán thí nghiệm của bạn vào hộp đen và chỉ thực hiện phân tích khi số lượng đối tượng dự kiến ​​đã được chạy. Đôi khi thật khó để nói rằng có vấn đề với thử nghiệm cho đến khi bạn xem dữ liệu và bạn nên xem xét một số càng sớm càng tốt. Nhìn trộm dữ liệu bị chê bai mạnh mẽ vì nó tương đương với việc xem p <0,05 và quyết định tiếp tục. Nhưng có rất nhiều tiêu chí mà bạn có thể quyết định tiếp tục thu thập mà không làm gì có hại cho tỷ lệ lỗi của bạn.

Giả sử bạn muốn đảm bảo rằng ước tính phương sai của bạn nằm trong phạm vi có thể đã biết. Các mẫu nhỏ có thể có ước tính phương sai khá xa để bạn thu thập thêm dữ liệu cho đến khi bạn biết mẫu có tính đại diện hơn. Trong mô phỏng sau đây, tôi dự đoán phương sai trong mỗi điều kiện là 1. Tôi sẽ làm điều gì đó thực sự điên rồ và lấy mẫu mỗi nhóm một cách độc lập cho 10 mẫu và sau đó thêm các đối tượng cho đến khi phương sai gần bằng 1.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

Vì vậy, tôi vừa mới đi lấy mẫu bằng cách lấy mẫu và làm cho phương sai của tôi gần như mong đợi và tôi vẫn không ảnh hưởng nhiều đến alpha (chỉ dưới 0,05). Một vài ràng buộc khác như N phải bằng nhau trong mỗi nhóm và không thể nhiều hơn 30 và alpha khá nhiều trên 0,05. Nhưng còn SE thì sao? Điều gì sẽ xảy ra nếu tôi cố gắng biến SE thành một giá trị nhất định? Đó thực sự là một ý tưởng thú vị bởi vì tôi lần lượt đặt chiều rộng của CI trước (nhưng không phải là vị trí).

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

Một lần nữa, alpha đã thay đổi một lượng nhỏ mặc dù tôi đã cho phép N chuyển vùng lên tới 46 so với số 10 ban đầu dựa trên việc rình mò dữ liệu. Quan trọng hơn, tất cả các SE đều rơi vào phạm vi hẹp trong mỗi thí nghiệm. Thật dễ dàng để thực hiện một điều chỉnh alpha nhỏ để khắc phục điều đó nếu nó là một mối quan tâm. Vấn đề là một số dữ liệu rình mò không gây hại nhiều và thậm chí có thể mang lại lợi ích.

(B. )

Không có điều nào ở trên mâu thuẫn với tài liệu gần đây về việc thêm đối tượng sau khi một thí nghiệm bắt đầu. Trong các nghiên cứu đó, họ đã xem xét các mô phỏng nơi bạn đã thêm các đối tượng sau khi thực hiện kiểm tra giả thuyết để có giá trị p thấp hơn. Điều đó vẫn tệ và có thể làm tăng đột ngột alpha. Hơn nữa, tôi thực sự thích câu trả lời của tháng một và Peter Flom. Tôi chỉ muốn chỉ ra rằng việc xem dữ liệu trong khi bạn thu thập dữ liệu và thậm chí thay đổi N theo kế hoạch trong khi thu thập, không nhất thiết là điều xấu.


Không có điều nào trong số này là 'ổn' theo nghĩa không ảnh hưởng đến phân phối lấy mẫu của thống kê kiểm tra của bạn. Tất nhiên, các câu trả lời hợp lý cho những điều ngạc nhiên (câu trả lời của cf @ Peter), nhưng chúng làm loãng phần nào bản chất xác nhận của thí nghiệm của bạn, làm tăng 'mức độ tự do của nhà nghiên cứu'. Chính xác là để tránh những bất ngờ mà chúng tôi thực hiện các nghiên cứu thử nghiệm để sửa giao thức và xác định trước các quy tắc dừng, đưa chúng vào tài khoản trong phân tích. Mục tiêu là một quy trình được xác định rõ ràng có thể được nhân rộng độc lập để chứng minh tính hợp lệ của kết quả của bạn.
Scortchi - Phục hồi Monica

Bạn có thể tự mình chạy các mô phỏng nhưng có quy tắc dừng dựa trên phương sai (trên N tối thiểu hợp lý) sẽ không ảnh hưởng đến alpha và sẽ tạo ra công suất dự kiến. Bạn thậm chí có thể có quy tắc dừng dựa trên SE và có được SE phù hợp và những quy tắc này sẽ không ảnh hưởng đến alpha hoặc beta. Bạn không thể có một pquy tắc dừng dựa trên. Tất cả những lời chỉ trích về việc sửa đổi N là về việc thực hiện nó sau khi kiểm tra giả thuyết (cũng cần có những thứ khác nữa). Có khả năng điều này gây ra sự cám dỗ ... nhưng tôi bỏ qua điều đó.
Giăng

Đối với phân phối thời gian phản ứng, bạn có nên chọn điểm cắt cố định dựa trên một phi công thay vì tìm ra khi mỗi đối tượng đoán dựa trên hồi quy logistic và sử dụng điểm cắt riêng của họ? (tất nhiên điểm cắt chính xác là cố định, chỉ không phải là thời gian phản ứng một).
Giăng

(1) Quy tắc dừng dựa trên phương sai: Nó ảnh hưởng đến ước tính phương sai, và do đó có thể ảnh hưởng đến tỷ lệ lỗi khi thí nghiệm được phân tích như thể kích thước mẫu đã được sửa trước đó. Có một sự căng thẳng giữa cảnh báo "vượt quá N tối thiểu hợp lý" được đưa ra trong nhận xét của bạn và "cỡ mẫu nhỏ" được đề cập trong câu trả lời của bạn; chắc chắn bạn có nous thống kê để biết những gì gần đúng là đủ tốt khi, nhưng không phải ai cũng làm. Tổng quát hơn, một cách tiếp cận không thể tin được là xác định rõ quy tắc dừng trước khi thử nghiệm.
Scortchi - Phục hồi Monica

(2) Phân phối thời gian phản ứng: Không (mặc dù tôi thừa nhận có một cái gì đó giống như vậy trong tâm trí); Tôi đã gợi ý rằng bất cứ phương pháp nào được sử dụng để loại bỏ các quan sát không đáng tin cậy, nó sẽ được phát triển tốt hơn từ một nghiên cứu thí điểm, và sau đó được áp dụng trong một thí nghiệm xác nhận.
Scortchi - Phục hồi Monica

0

Đây thực sự là một vấn đề văn hóa của suy nghĩ không cân bằng, trong đó sự thiên vị xuất bản dẫn đến việc ủng hộ kết quả tích cực và bản chất cạnh tranh của chúng ta đòi hỏi các biên tập viên và nhà nghiên cứu phải được tạo ra kết quả quan tâm, mới lạ hoặc gây tranh cãi, theo nghĩa đặt lại kết quả của người khác. Trong nghiên cứu y học, đã có tiến bộ đáng kể để khắc phục vấn đề này bằng cách đăng ký bắt buộc các thử nghiệm và công bố kết quả với hồ sơ về các thử nghiệm bị bỏ rơi cũng được công khai. Tôi hiểu rằng vì việc xuất bản trên các tạp chí cho nghiên cứu không thành công có thể không thực hiện được, nên có kế hoạch giữ một cơ sở dữ liệu công khai về chúng. Kết quả bất thường không thể được sao chép không nhất thiết là kết quả của hành vi sai trái, như có lẽ với 50,

Sử dụng các phương pháp khác nhau cũng không nhất thiết là một giải pháp. Ví dụ, nhà hóa học nào sẽ trộn thuốc thử theo những cách khác nhau trong các điều kiện khác nhau và mong đợi kết quả giống như một vấn đề tất nhiên?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.