Tôi đang đọc này bài viết trên tạp chí Nature, trong đó một số sai lầm được giải thích trong bối cảnh phân tích dữ liệu. Tôi nhận thấy rằng ngụy biện sắc nét Texas đặc biệt khó tránh:
Một cái bẫy nhận thức đang chờ trong quá trình phân tích dữ liệu được minh họa bằng câu chuyện ngụ ngôn của người bắn tỉa Texas: một tay súng không chuyên bắn một viên đạn ngẫu nhiên ở bên cạnh chuồng, rút ra một mục tiêu xung quanh khối đạn lớn nhất và tự hào chỉ vào thành công của anh ấy
Bullseye của anh rõ ràng là đáng cười - nhưng sự ngụy biện không quá rõ ràng đối với những người đánh bạc tin vào 'bàn tay nóng' khi họ có một chuỗi chiến thắng, hoặc với những người nhìn thấy ý nghĩa siêu nhiên khi rút thăm xổ số là tất cả các số lẻ.
Nó cũng không phải luôn luôn rõ ràng cho các nhà nghiên cứu. Bạn chỉ cần nhận được một số lời khích lệ từ dữ liệu và sau đó nghĩ rằng, đây là con đường để đi xuống, Shaw nói. Bạn không nhận ra mình có 27 tùy chọn khác nhau và bạn đã chọn một tùy chọn mang lại cho bạn kết quả dễ chịu hoặc thú vị nhất, và bây giờ bạn đang tham gia vào một cái gì đó không phải là một đại diện không thiên vị của dữ liệu. Giáo dục
Tôi nghĩ rằng loại công việc thăm dò là phổ biến và thông thường, các giả thuyết được xây dựng dựa trên phần phân tích đó. Có một cách tiếp cận toàn bộ ( EDA ) dành riêng cho quá trình này:
Phân tích dữ liệu thăm dò đã được John Tukey thúc đẩy để khuyến khích các nhà thống kê khám phá dữ liệu và có thể hình thành các giả thuyết có thể dẫn đến việc thu thập và thử nghiệm dữ liệu mới
Dường như bất kỳ quá trình khám phá nào được thực hiện mà không có giả thuyết trước có xu hướng tạo ra các giả thuyết giả.
Lưu ý rằng mô tả của EDA ở trên thực sự nói về new data collection and experiments
. Tôi hiểu rằng sau khi dữ liệu mới được thu thập, thì phân tích dữ liệu xác nhận (CDA) là phù hợp. Tuy nhiên, tôi không nghĩ rằng sự khác biệt này được thực hiện rất rõ ràng và mặc dù việc tách EDA và CDA sẽ là lý tưởng, chắc chắn có một số trường hợp điều này không khả thi. Tôi có thể nói rằng việc tuân theo sự tách biệt này là không phổ biến và hầu hết các học viên đều không đăng ký vào mô hình EDA.
Vì vậy, câu hỏi của tôi là: Liệu EDA (hoặc bất kỳ quá trình khám phá dữ liệu không chính thức nào) có làm cho nó dễ rơi vào sai lầm của người bắn tỉa Texas không?