Ngụy biện sắc nét Texas trong phân tích dữ liệu thăm dò


23

Tôi đang đọc này bài viết trên tạp chí Nature, trong đó một số sai lầm được giải thích trong bối cảnh phân tích dữ liệu. Tôi nhận thấy rằng ngụy biện sắc nét Texas đặc biệt khó tránh:

Một cái bẫy nhận thức đang chờ trong quá trình phân tích dữ liệu được minh họa bằng câu chuyện ngụ ngôn của người bắn tỉa Texas: một tay súng không chuyên bắn một viên đạn ngẫu nhiên ở bên cạnh chuồng, rút ​​ra một mục tiêu xung quanh khối đạn lớn nhất và tự hào chỉ vào thành công của anh ấy

Bullseye của anh rõ ràng là đáng cười - nhưng sự ngụy biện không quá rõ ràng đối với những người đánh bạc tin vào 'bàn tay nóng' khi họ có một chuỗi chiến thắng, hoặc với những người nhìn thấy ý nghĩa siêu nhiên khi rút thăm xổ số là tất cả các số lẻ.

Nó cũng không phải luôn luôn rõ ràng cho các nhà nghiên cứu. Bạn chỉ cần nhận được một số lời khích lệ từ dữ liệu và sau đó nghĩ rằng, đây là con đường để đi xuống, Shaw nói. Bạn không nhận ra mình có 27 tùy chọn khác nhau và bạn đã chọn một tùy chọn mang lại cho bạn kết quả dễ chịu hoặc thú vị nhất, và bây giờ bạn đang tham gia vào một cái gì đó không phải là một đại diện không thiên vị của dữ liệu. Giáo dục

Tôi nghĩ rằng loại công việc thăm dò là phổ biến và thông thường, các giả thuyết được xây dựng dựa trên phần phân tích đó. Có một cách tiếp cận toàn bộ ( EDA ) dành riêng cho quá trình này:

Phân tích dữ liệu thăm dò đã được John Tukey thúc đẩy để khuyến khích các nhà thống kê khám phá dữ liệu và có thể hình thành các giả thuyết có thể dẫn đến việc thu thập và thử nghiệm dữ liệu mới

Dường như bất kỳ quá trình khám phá nào được thực hiện mà không có giả thuyết trước có xu hướng tạo ra các giả thuyết giả.

Lưu ý rằng mô tả của EDA ở trên thực sự nói về new data collection and experiments. Tôi hiểu rằng sau khi dữ liệu mới được thu thập, thì phân tích dữ liệu xác nhận (CDA) là phù hợp. Tuy nhiên, tôi không nghĩ rằng sự khác biệt này được thực hiện rất rõ ràng và mặc dù việc tách EDA và CDA sẽ là lý tưởng, chắc chắn có một số trường hợp điều này không khả thi. Tôi có thể nói rằng việc tuân theo sự tách biệt này là không phổ biến và hầu hết các học viên đều không đăng ký vào mô hình EDA.

Vì vậy, câu hỏi của tôi là: Liệu EDA (hoặc bất kỳ quá trình khám phá dữ liệu không chính thức nào) có làm cho nó dễ rơi vào sai lầm của người bắn tỉa Texas không?


3
Tôi không biết chính xác ý của bạn là gì bởi "giả thuyết giả". Tinh thần của phân tích dữ liệu khám phá là xem xét dữ liệu và cởi mở với nhiều mẫu khác nhau, bao gồm cả các mẫu bạn không mong đợi. Không ít hơn, và không nhiều hơn nữa. Không có gì trong phân tích dữ liệu khám phá đảm bảo các ý tưởng tốt và không có gì loại trừ hoặc cho phép bạn phân tán bằng cách suy nghĩ nghiêm túc hoặc liên kết những gì bạn làm với khoa học cơ bản (nghĩa rộng). Vì vậy, có một số rủi ro ở đây khi chỉ trích EDA cho những điều không ai có kinh nghiệm từ chối. hoặc không ai hỗ trợ.
Nick Cox

3
Điều khó nhất để học và dạy trong EDA là chính xác những bài kiểm tra quan trọng nào cần được trợ giúp (trong các tài khoản lạc quan nhất): tập thói quen không diễn giải quá chi tiết trong dữ liệu không đủ quan trọng để đáng chú ý . Tôi sẽ lập luận rằng nhiều tài khoản của EDA không đủ sức thúc đẩy ý tưởng rằng để một mô hình được thực hiện nghiêm túc, nó phải được nhận dạng trong các bộ dữ liệu khác nhau, nhưng sự lãng quên đó là phổ biến trong khoa học thống kê.
Nick Cox

1
Cảm ơn. Vấn đề là việc tạo ra nhiều giả thuyết và kiểm tra chúng trong cùng một bộ dữ liệu thực sự nguy hiểm vì bạn có khả năng xác nhận một trong số chúng ngay cả khi đó là sai. Như Creosote mô tả, sẽ cần điều chỉnh giá trị p. Thật không may, tôi chưa bao giờ thấy điều này được thực hiện trong thực tế.
Robert Smith

2
Từ việc học EDA (tiếng Pháp) vào đầu những năm 1980, tôi có ấn tượng rằng thực sự dễ dàng hơn nhiều để phân tích phân tích của bạn đối với (các) kết luận dự định so với cấu trúc thống kê mạnh mẽ hơn ...
Xi'an

Câu trả lời:


12

Nếu một người xem vai trò của EDA hoàn toàn là tạo ra các giả thuyết, thì không có ngụy biện sắc nét nào không áp dụng. Tuy nhiên, điều rất quan trọng là các thử nghiệm xác nhận tiếp theo thực sự độc lập. Nhiều nhà nghiên cứu cố gắng "hòa giải sự khác biệt" với những thứ như phân tích gộp, phân tích tổng hợp và phương pháp Bayes. Điều này có nghĩa là ít nhất một số bằng chứng được đưa ra trong phân tích như vậy bao gồm "vòng tròn xung quanh các lỗ đạn ngẫu nhiên".


5
Chính xác. Vấn đề với rất nhiều phân tích dữ liệu khám phá là cùng một bộ được sử dụng cho cả huấn luyện (xác định nơi đạn rơi) và thử nghiệm (vẽ vòng tròn xung quanh chúng).
Michael K

11

Điều này vẽ ra một cái nhìn rất tiêu cực về phân tích dữ liệu thăm dò. Mặc dù lập luận không sai, nhưng nó thực sự nói rằng "điều gì có thể sai khi tôi sử dụng một công cụ rất quan trọng theo cách sai?"

Việc chấp nhận các giá trị p chưa được điều chỉnh từ các phương pháp EDA sẽ dẫn đến tỷ lệ lỗi loại I tăng cao. Nhưng tôi nghĩ Tukey sẽ không vui với bất cứ ai làm điều này. Quan điểm của EDA không phải là đưa ra kết luận dứt khoát về các mối quan hệ trong dữ liệu, mà là tìm kiếm các mối quan hệ mới lạ tiềm năng trong dữ liệu để theo dõi.

Rời khỏi bước này trong quy trình khoa học lớn hơn về cơ bản là cản trở khoa học để không bao giờ có thể tìm thấy các khía cạnh thú vị mới của dữ liệu của chúng tôi, bên ngoài suy luận logic thuần túy. Bạn đã bao giờ thử suy luận một cách logic về việc biểu hiện quá mức của một bộ gen sẽ ảnh hưởng đến sự tồn tại của một tế bào chưa? Gợi ý: không dễ chút nào (một trong những trò đùa yêu thích của chúng tôi trong số các nhân viên tin sinh học trong công việc của tôi là khi một nhà vật lý hỏi "Tại sao bạn không mô phỏng các tính chất vật lý của các tương tác gen khác nhau? Đó là một không gian tham số hữu hạn.")

Cá nhân, tôi nghĩ rằng sự nhầm lẫn về điều này có thể dẫn đến một sự chậm lại lớn trong tiến bộ khoa học. Tôi biết quá nhiều nhà nghiên cứu phi thống kê sẽ nói rằng họ không muốn làm các thủ tục EDA trên dữ liệu sơ bộ , vì họ "biết rằng EDA có thể xấu".

Tóm lại, hoàn toàn đúng khi sử dụng các phương pháp EDA và coi chúng là phương pháp phân tích dữ liệu xác nhận sẽ dẫn đến kết quả không hợp lệ. Tuy nhiên, việc thiếu sử dụng EDA đúng cách có thể dẫn đến gần như không có kết quả.


Cảm ơn bạn. Tôi sẽ không lo lắng quá nhiều về việc có ít người tham gia vào một số loại phân tích thăm dò. Tôi nghĩ điều ngược lại là đúng; nhiều người đang làm công việc thăm dò đó nhưng có lẽ không có biện pháp phòng ngừa đầy đủ để ngăn ngừa lỗi loại I như bạn mô tả. Tuy nhiên, thật thú vị khi bạn biết những người có ý kiến ​​tiêu cực về EDA. Nếu họ không muốn làm điều đó trong dữ liệu sơ bộ, thì khi nào họ cảm thấy thoải mái khi làm EDA (hoặc giống như EDA)?
Robert Smith

Kinh nghiệm của tôi là các nhà nghiên cứu phi thống kê thường nghe "nhiều so sánh là có vấn đề" và vì vậy khi họ đến với tôi với dữ liệu, họ rất muốn nói rằng họ muốn tránh đưa ra nhiều so sánh, ngay cả với dữ liệu sơ bộ. Tất nhiên, một sự hiểu biết đầy đủ hơn về vấn đề sẽ là bạn muốn tránh nhiều so sánh trong một nghiên cứu CDA.
Vách đá AB

Tôi hiểu. Điều đó có ý nghĩa hơn.
Robert Smith

5

Dường như bất kỳ quá trình khám phá nào được thực hiện mà không có giả thuyết trước có xu hướng tạo ra các giả thuyết giả.

Tôi sẽ tiết lộ tuyên bố này và diễn đạt nó một chút khác biệt: Chọn một giả thuyết để kiểm tra dựa trên dữ liệu làm suy yếu bài kiểm tra nếu người ta không sử dụng giả thuyết null đúng. Sự thúc đẩy của bài viết về Tự nhiên, về cơ bản, đó là việc các nhà phân tích dễ dàng tự mình bỏ qua tất cả các so sánh mà họ đang thực hiện trong quá trình khám phá.

Thiên nhiên trích dẫn Andrew Gelman, nhưng không đề cập đến bài báo của ông với Eric Loken về chủ đề này. Một đoạn trích:

Khi những chỉ trích về nhiều so sánh được đưa ra liên quan đến một số bài báo mà chúng tôi thảo luận ở đây, các nhà nghiên cứu không bao giờ trả lời rằng họ đã chọn tất cả các chi tiết về xử lý dữ liệu và phân tích dữ liệu của họ trước thời hạn; thay vào đó, họ tuyên bố rằng họ chỉ chọn một phân tích cho dữ liệu cụ thể mà họ đã thấy . Trực quan như sự bảo vệ này có vẻ như, nó không giải quyết mối quan tâm thường xuyên cơ bản của nhiều so sánh.

Khác:

Không phải là các nhà nghiên cứu đã thực hiện hàng trăm so sánh khác nhau và chọn ra những so sánh có ý nghĩa thống kê. Thay vào đó, họ bắt đầu với một ý tưởng được hình thành phần nào trong tâm trí của họ về việc so sánh sẽ thực hiện và họ tinh chỉnh ý tưởng đó dưới ánh sáng của dữ liệu. Họ nhìn thấy một mô hình màu đỏ và hồng, và họ kết hợp các màu sắc.

Ngắn gọn:

Có một ánh xạ một-nhiều từ các giả thuyết khoa học đến thống kê.

Và một điều nữa, nhấn mạnh của tôi:

Trong tất cả các trường hợp chúng ta đã thảo luận, phân tích được công bố có một câu chuyện phù hợp với các giả thuyết khoa học thúc đẩy công việc, nhưng các mẫu dữ liệu khác (với kích thước mẫu, có thể dễ dàng xảy ra một cách tình cờ) sẽ tự nhiên dẫn đến các phân tích dữ liệu khác nhau (ví dụ: tập trung vào các hiệu ứng chính thay vì tương tác hoặc lựa chọn tập hợp dữ liệu khác nhau để so sánh) mà có thể được sử dụng để hỗ trợ các giả thuyết nghiên cứu. Kết quả vẫn còn, như chúng tôi đã viết ở nơi khác, một loại máy để sản xuất và công khai các mẫu ngẫu nhiên.

Nói tóm lại, không phải EDA dẫn đến một "giả thuyết giả"; đó là việc kiểm tra một giả thuyết với cùng một bộ dữ liệu đã thúc đẩy giả thuyết này có thể dẫn đến kết luận giả.

Nếu bạn quan tâm đến việc chinh phục trở ngại này, Gelman có một bài báo khác lập luận rằng nhiều vấn đề trong số này biến mất trong khuôn khổ Bayes và bài báo với Loken tham khảo "sao chép trước khi xuất bản" như được mô tả trong phần đầu của bài viết này .


Cảm ơn bạn. Rất thú vị. Tôi sẽ xem bài báo của Gelman về nhiều so sánh.
Robert Smith

3

Hầu như theo định nghĩa, tất nhiên, EDA mà không có CDA thu hút các tay súng Texas.

pp


Cảm ơn bạn. Có, một sự điều chỉnh sẽ được yêu cầu. Tôi không nghĩ rằng việc này là rất phổ biến.
Robert Smith

3

Chỉ cần thêm vào các câu trả lời tuyệt vời: Có một điểm trung gian giữa CDA đầy đủ và chỉ chấp nhận kết quả EDA của bạn theo mệnh giá. Khi bạn đã tìm thấy một tính năng có thể quan tâm (hoặc giả thuyết), bạn có thể cảm nhận được sự mạnh mẽ của nó bằng cách thực hiện xác thực chéo (CV) hoặc mô phỏng bootstrap. Nếu phát hiện của bạn chỉ phụ thuộc vào một vài quan sát chính, thì CV hoặc Bootstrap sẽ cho thấy nhiều mẫu gấp (CV) hoặc mẫu boostrap không thể tái tạo tính năng quan sát được.

Đây không phải là một phương pháp hoàn hảo, nhưng nó là một kiểm tra trung gian tốt trước khi tìm CDA đầy đủ (hoặc cố tình giữ một "bộ xác nhận" từ nhóm dữ liệu ban đầu của bạn).


0

Tiêu chí khắt khe nhất để lựa chọn mô hình dữ liệu là mức độ gần đúng với Độ phức tạp Kolmogorov của dữ liệu - nghĩa là mức độ mà nó nén dữ liệu một cách dễ dàng. Về lý thuyết, điều này có thể là kết quả của việc phân tích dữ liệu thăm dò một mình.

Xem "Giải mã nhân quả bằng các mô hình tổng quát thuật toán "

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.