Phân tích dữ liệu thăm dò (EDA) thường dẫn đến việc khám phá các "dấu vết" khác không nhất thiết thuộc về các giả thuyết ban đầu. Tôi phải đối mặt với tình huống như vậy trong trường hợp nghiên cứu với quy mô mẫu hạn chế và rất nhiều dữ liệu được thu thập thông qua các bảng câu hỏi khác nhau (dữ liệu nhân khẩu học xã hội, thang đo thần kinh hoặc y tế - ví dụ: chức năng tâm thần hoặc thể chất, mức độ trầm cảm / lo lắng, danh sách kiểm tra triệu chứng ). Điều xảy ra là EDA giúp làm nổi bật một số mối quan hệ bất ngờ ("bất ngờ" có nghĩa là chúng không được bao gồm trong kế hoạch phân tích ban đầu) chuyển thành các câu hỏi / giả thuyết bổ sung.
Như trường hợp quá mức, nạo vét dữ liệu hoặc rình mò sẽ dẫn đến kết quả không khái quát. Tuy nhiên, khi có rất nhiều dữ liệu, khá khó khăn (đối với nhà nghiên cứu hoặc bác sĩ) để đưa ra một giả thuyết hạn chế.
Tôi muốn biết nếu có các phương pháp, khuyến nghị hoặc quy tắc ngón tay cái được thừa nhận có thể giúp phân định EDA trong trường hợp nghiên cứu mẫu nhỏ.