Làm thế nào để đối phó với phân tích dữ liệu thăm dò và nạo vét dữ liệu trong các nghiên cứu mẫu nhỏ?


25

Phân tích dữ liệu thăm dò (EDA) thường dẫn đến việc khám phá các "dấu vết" khác không nhất thiết thuộc về các giả thuyết ban đầu. Tôi phải đối mặt với tình huống như vậy trong trường hợp nghiên cứu với quy mô mẫu hạn chế và rất nhiều dữ liệu được thu thập thông qua các bảng câu hỏi khác nhau (dữ liệu nhân khẩu học xã hội, thang đo thần kinh hoặc y tế - ví dụ: chức năng tâm thần hoặc thể chất, mức độ trầm cảm / lo lắng, danh sách kiểm tra triệu chứng ). Điều xảy ra là EDA giúp làm nổi bật một số mối quan hệ bất ngờ ("bất ngờ" có nghĩa là chúng không được bao gồm trong kế hoạch phân tích ban đầu) chuyển thành các câu hỏi / giả thuyết bổ sung.

Như trường hợp quá mức, nạo vét dữ liệu hoặc rình mò sẽ dẫn đến kết quả không khái quát. Tuy nhiên, khi có rất nhiều dữ liệu, khá khó khăn (đối với nhà nghiên cứu hoặc bác sĩ) để đưa ra một giả thuyết hạn chế.

Tôi muốn biết nếu có các phương pháp, khuyến nghị hoặc quy tắc ngón tay cái được thừa nhận có thể giúp phân định EDA trong trường hợp nghiên cứu mẫu nhỏ.


Tôi không chắc tại sao kích thước mẫu của bạn lại quan trọng. Bạn có thể đưa ra lý do cụ thể nữa về lý do tại sao bạn nghĩ nó khác với n nhỏ hơn so với n lớn không?
Andy W

2
@Andy Bởi vì sau đó rất khó để xem xét một mẫu giữ và / hoặc mất cân bằng lớp với kích thước mẫu rất hạn chế ( ) thường mang lại tỷ lệ lỗi phân loại lớn hơn khi áp dụng CV; một số cá nhân có thể được coi là ngoại lệ khi nghiên cứu phân phối hai biến; và các biện pháp thu thập được về các công cụ với sai số đo riêng của họ ít đáng tin cậy (nhỏ n , lớn σ ). Theo một nghĩa nào đó, đôi khi rất khó để giải quyết một mối quan hệ bất ngờ từ một vật phẩm. 13<n<25nσ
chl

Tôi nghĩ rằng tôi có thể hiểu được tình cảm đó nếu những gì bạn quan tâm chỉ là phân loại. Tôi nghĩ đối với suy luận nguyên nhân, các vấn đề với việc rình mò dữ liệu là như nhau (nghĩa là các vấn đề không được giải quyết bằng cách tăng sức mạnh để xác định mối quan hệ). Tôi sẽ cố gắng đưa ra ý kiến ​​này thành một câu trả lời. Tôi có thể đặt câu hỏi trên diễn đàn chính trong thời gian này về việc sử dụng xác nhận chéo cho suy luận nguyên nhân, vì tôi chưa bắt gặp bất kỳ công việc nào trong lĩnh vực của mình thực hiện điều này.
Andy W

1
@Andy Cảm ơn. Hy vọng, câu hỏi của bạn sẽ nhận được rất nhiều câu trả lời thú vị.
chl

Câu trả lời:


10

Tôi nghĩ điều chính là phải trung thực khi báo cáo kết quả như vậy mà chúng là những phát hiện bất ngờ từ EDA và không phải là một phần của kế hoạch phân tích ban đầu dựa trên một giả thuyết tiên nghiệm . Một số người thích gắn nhãn kết quả như vậy 'giả thuyết tạo ra': ví dụ: lần truy cập đầu tiên từ tìm kiếm cụm từ này trên Google Scholar bao gồm phần sau trong phần kết luận tóm tắt của nó:

Vì đây là một phân tích "thăm dò", hiệu ứng này nên được coi là giả thuyết tạo ra và đánh giá triển vọng trong các thử nghiệm khác ...

Mặc dù lưu ý rằng mặc dù đây là phân tích phân nhóm hậu hoc, nó là từ một thử nghiệm đối chứng ngẫu nhiên, không phải là một nghiên cứu quan sát, trong đó vấn đề trở nên tồi tệ hơn. Philip Cole đã dè bỉu ý tưởng rằng các nghiên cứu quan sát ('dịch tễ học') có thể tạo ra các giả thuyết trong một bài bình luận mang tính khiêu khích nhưng mang tính giải trí:

P Cole. Các máy tạo giả thuyết. Dịch tễ học 1993; 4 : 271-273.


+1 Cảm ơn liên kết (và retag). Tôi sẽ nhìn vào hướng này.
chl

13

Tôi chỉ bỏ một số tài liệu tham khảo về nạo vét dữ liệunghiên cứu lâm sàng cho người đọc quan tâm. Điều này nhằm mở rộng câu trả lời tốt của @onestop . Tôi đã cố gắng tránh các bài viết chỉ tập trung vào nhiều so sánh hoặc các vấn đề thiết kế, mặc dù các nghiên cứu với nhiều điểm cuối tiếp tục đưa ra các cuộc thảo luận đầy thách thức và gây tranh cãi (rất lâu sau những tuyên bố của Rothman về các điều chỉnh vô dụng , Dịch tễ học 1990, 1: 43-46; hoặc xem xét của Feise trong BMC Phương pháp nghiên cứu y học 2002, 2: 8).

Hiểu biết của tôi là, mặc dù tôi đã nói về phân tích dữ liệu thăm dò , câu hỏi của tôi nói chung là giải quyết việc sử dụng khai thác dữ liệu, với những cạm bẫy tiềm tàng của nó, song song với thử nghiệm dựa trên giả thuyết.

  1. Koh, HC và Tân, G (2005). Ứng dụng khai thác dữ liệu trong chăm sóc sức khỏe . Tạp chí Quản lý thông tin chăm sóc sức khỏe , 19 (2), 64-72.
  2. Ioannidis, JPA (2005). Tại sao hầu hết các kết quả nghiên cứu được công bố là sai . Y học PLoS , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH và Burnham, KP (2001). Gợi ý trình bày kết quả phân tích dữ liệu . Tạp chí Quản lý động vật hoang dã , 65 (3), 373-378. - nhận xét này của @ onestop về thực tế là chúng ta phải thừa nhận việc thăm dò / mô hình hóa dựa trên dữ liệu vượt ra ngoài các giả thuyết ban đầu
  4. Michels, KB và Rosner, BA (1996). Dữ liệu đánh bắt: để câu cá hoặc không câu cá . Lancet , 348, 1152-1153.
  5. Chúa, SJ, Gebski, VJ và Keech, AC (2004). Nhiều phân tích trong các thử nghiệm lâm sàng: khoa học âm thanh hay nạo vét dữ liệu? . Tạp chí Y khoa Úc , 181 (8), 452-454.
  6. Smith, GD và Ebrahim, S (2002). Nạo vét dữ liệu, sai lệch, hoặc gây nhiễu . BMJ , 325, 1437-1438.
  7. Phi thường, D và Wolf, M (2007). Tránh 'dữ liệu rình mò' trong các mô hình hiệu ứng đa cấp và hỗn hợp . Tạp chí của Hiệp hội Thống kê Hoàng gia A , 170 (4), 1035 Từ1059
  8. Anderson, DR, Burnham, KP, Gould, WR và Cherry, S (2001). Mối quan tâm về việc tìm kiếm các hiệu ứng thực sự là giả mạo . Bản tin Xã hội Widlife , 29 (1), 311-316.

Đây chỉ là một bản tóm tắt 'về những gì tôi đọc cho đến nay. Rõ ràng, tôi sẽ không chấp nhận câu trả lời của riêng tôi . Bất kỳ suy nghĩ khác sẽ được nhiều đánh giá cao.
chl

Cảm ơn vì đã chấp nhận câu trả lời của tôi, mặc dù danh sách tham khảo của riêng bạn tốt hơn nhiều và gần đây hơn. Tôi thực sự nên nghĩ về một vài người trong số họ khi tôi có chúng trên ổ cứng của mình và thậm chí có thể đã đọc các phần của họ ...
vào
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.