Ví dụ về hậu quả tốn kém từ việc sử dụng các công cụ thống kê không đúng cách


12

Tôi nghi ngờ rằng hầu hết người dùng các công cụ thống kê là người dùng phụ trợ (những người ít được đào tạo chính thức về thống kê). Các nhà nghiên cứu và các chuyên gia khác rất muốn áp dụng các phương pháp thống kê vào dữ liệu của họ chỉ vì họ đã thấy nó được thực hiện trước khi đưa vào các bài báo đánh giá ngang hàng, tài liệu xám, web hoặc tại một hội nghị. Tuy nhiên, làm như vậy mà không có sự hiểu biết rõ ràng về các giả định bắt buộc và các hạn chế của công cụ thống kê có thể dẫn đến kết quả sai lầm Các lỗi của lỗi thường không được kiểm chứng!

Tôi thấy rằng sinh viên đại học (đặc biệt là trong khoa học xã hội và tự nhiên) hoặc không biết về những cạm bẫy thống kê hoặc tìm thấy những cạm bẫy không quan trọng này (trường hợp thường gặp nhất). Mặc dù các ví dụ về việc sử dụng các công cụ thống kê không đúng cách có thể được tìm thấy trong nhiều sách giáo khoa giới thiệu, web hoặc StackExchange, tôi gặp khó khăn trong việc tìm kiếm các ví dụ trong thế giới thực có kết quả bất lợi (ví dụ: chi phí bằng $, bị ảnh hưởng và mất sự nghiệp) . Cuối cùng, tôi đang tìm kiếm các ví dụ trong thế giới thực làm nổi bật việc sử dụng sai các phương pháp thống kê:

  1. các phương pháp thống kê được sử dụng thường được đề cập trong các khóa học thống kê giới thiệu (ví dụ: thống kê suy luận, hồi quy, v.v.
  2. kết quả cuối cùng đã có hậu quả tốn kém (mất đô la, cuộc sống bị ảnh hưởng, sự nghiệp tan vỡ, v.v.
  3. các dữ liệu có sẵn để sử dụng như ví dụ làm việc trong một khóa học (mục đích là để có sinh viên làm việc thông qua các ví dụ thế giới thực mà đã có hậu quả thế giới thực.)

Một ví dụ phi thống kê mà tôi muốn đưa ra cho các sinh viên khi thảo luận về tầm quan trọng của việc xác định đúng các đơn vị trong một dự án nghiên cứu là số liệu sai lầm của các nhà cung cấp đã dẫn đến việc mất một vệ tinh trị giá 125 triệu đô la! Điều này thường gọi một yếu tố: -o từ các sinh viên và dường như có một ấn tượng lâu dài (ít nhất là trong suốt cuộc đời học tập ngắn ngủi của họ).


2
Một ví dụ phi thống kê khác từ Edward Tufte, Powerpoint hiện Rocket Science . Mặc dù nó liên quan chặt chẽ hơn một chút đến sự tiến bộ hợp lý từ tư duy thống kê nói chung so với rủi ro số liệu mà bạn đề cập. Bạn cũng quen thuộc với cuốn sách này, Sự sùng bái ý nghĩa thống kê ?
Andy W

@AndyW, tôi không quen thuộc với "Sự sùng bái ý nghĩa thống kê". Bạn có biết nếu các yếu tố 2 / và 3 / trong câu hỏi của tôi được đề cập trong cuốn sách đó không?
MannyG

Tôi không biết về 3, nhưng nếu bạn đọc đánh giá sách tôi đã liên kết với nó sẽ trả lời câu hỏi 2 của bạn (hoặc đọc tiêu đề còn lại của cuốn sách!) Quả thực toàn bộ cuốn sách dự định là về câu hỏi số 2 của bạn trong tài liệu tham khảo để diễn giải các bài kiểm tra quan trọng.
Andy W

@AndyW đó là cuốn sách mà tôi sẽ đề cập đến.
Peter Flom - Tái lập Monica

@AndyW, mặc dù bài đánh giá mà bạn liên kết tham chiếu một trong những ví dụ thực tế của cuốn sách về việc sử dụng số liệu thống kê không đúng, tôi không rõ nếu chi phí hậu quả được giải quyết. Nếu chi phí hậu quả được giải quyết trong cuốn sách thì chúng dựa trên các phân tích độc lập hay ý kiến ​​từ chối của tác giả?
MannyG

Câu trả lời:


8

Tôi không chắc về tính khả dụng của dữ liệu, nhưng một ví dụ tuyệt vời (nếu đó là từ đúng) về thống kê kém là Nghiên cứu của Y tá Harvard về hiệu quả của liệu pháp thay thế hormone (HRT) ở phụ nữ mãn kinh.

Ý tưởng chung là gì? Nghiên cứu của các y tá cho rằng HRT có lợi cho phụ nữ sau mãn kinh. Hóa ra kết quả này phát sinh do nhóm đối chứng rất khác với nhóm điều trị và những khác biệt này không được tính đến trong phân tích. Trong các thử nghiệm ngẫu nhiên tiếp theo, HRT có liên quan đến ung thư, đau tim, đột quỵ và cục máu đông. Với sự điều chỉnh phù hợp, nghiên cứu của các Y tá cũng cho thấy những mô hình này.

Tôi không thể tìm thấy ước tính cho những cái chết ở Hoa Kỳ liên quan đến HRT, nhưng cường độ là hàng chục ngàn. Một bài viết liên kết 1000 cái chết ở Anh với HRT.

Đây Tạp chí New York Times bài viết cung cấp nền thống kê tốt về các vấn đề về nhiễu có mặt trong nghiên cứu.

Có một cuộc thảo luận học thuật về vấn đề này của Tạp chí Dịch tễ học Hoa Kỳ. Các bài báo so sánh kết quả nghiên cứu của các Y tá quan sát với nghiên cứu của Sáng kiến ​​Sức khỏe Phụ nữ, dựa trên các thử nghiệm ngẫu nhiên.

Ngoài ra còn có cuộc thảo luận (của nhiều cá nhân giống nhau) trong một vấn đề về Sinh trắc học Xem bình luận của Freedman và Petitti nói riêng [ phiên bản chuẩn bị ].


1
Tôi tranh luận chống lại việc sử dụng ví dụ này thực sự. Đã có nhiều công việc hơn kể từ năm 2005, đặc biệt là Miguel Hernan, xem Các nghiên cứu quan sát được phân tích giống như các thí nghiệm ngẫu nhiên: Một ứng dụng cho liệu pháp hormon sau mãn kinh và bệnh tim mạch vành , Dịch tễ học (2008). Kết luận: "Tóm lại, những phát hiện của chúng tôi cho thấy sự khác biệt giữa các ước tính của WHI và NHS ITT có thể được giải thích chủ yếu bằng sự khác biệt trong phân phối thời gian kể từ khi mãn kinh và thời gian theo dõi. NHS dường như đóng vai trò nhỏ. "
Fomite

Bất kể người ta cảm thấy thế nào về các nghiên cứu đã nói, sự khác biệt giữa chúng là phức tạp và phức tạp hơn những gì có thể hữu ích trong thiết lập đề xuất của OP.
Fomite

@EpiGrad, Đây chắc chắn không phải là lĩnh vực của tôi và tôi chắc chắn rằng bạn biết nhiều về ví dụ cụ thể này hơn tôi. Nhưng, tôi nghĩ rằng bài báo mà bạn trích dẫn đưa ra quan điểm mà những bài báo khác làm. Trong bài báo OSALRE, họ loại bỏ phụ nữ khỏi nghiên cứu NHS, những người không đáp ứng các tiêu chí của nghiên cứu WHI. Tỷ lệ phụ nữ bị loại bỏ phải khác nhau giữa các nhóm kiểm soát và điều trị NHS (nếu không thì kết quả sẽ không thay đổi). Do đó, họ đang hoàn tác vấn đề lựa chọn được tìm thấy trong nghiên cứu NHS. [[Tiếp tục]]
Charlie

1
Bài báo mà tôi thích gợi ý, ít nhất là với tôi, một cái gì đó dọc theo dòng chữ "Hãy chắc chắn rằng bạn đang hỏi cùng một câu hỏi" chứ không phải là một vấn đề gây bối rối hoàn toàn. Đừng hiểu sai ý tôi, vấn đề NHS / WHI cực kỳ thú vị như một câu hỏi về thực hành y tế công cộng và thống kê. Nó chỉ phức tạp hơn sự bất đồng ban đầu dường như gợi ý, và tôi nghĩ rằng điều đó làm cho nó không phù hợp với Điểm 1 trong yêu cầu của OP. Điểm 3 cũng đúng.
Fomite

2
@EpiGrad, Đủ công bằng. Nhưng tôi thực sự nghi ngờ rằng bạn sẽ tìm thấy một nghiên cứu có lỗi thống kê rõ ràng mà không cần phải đào bới để hiểu rằng có hậu quả lan rộng, đáng kể. Tuy nhiên, có thể những người trả lời khác sẽ giết chết sự lạc quan của tôi trong các nhà nghiên cứu (heh).
Charlie

8

Một ví dụ lịch sử tuyệt vời được cung cấp bởi ấn phẩm năm 1933 của Horace Secrist's Triumph of Mediocrity in Business . Vào thời điểm đó, Secrist là một nhà thống kê có uy tín, tác giả của một cuốn sách giáo khoa (khoảng 1919, tôi nhớ lại), được kết nối tốt trong Hiệp hội Thống kê Hoa Kỳ, và là người đứng đầu một nhóm nghiên cứu thống kê tại Đại học Tây Bắc. Ông và nhân viên của mình đã dành cả thập kỷ trước để tổng hợp chuỗi thời gian của dữ liệu kinh doanh, được sao chép và phân tích kỹ lưỡng trong cuốn sách. Nó có nghĩa là một đầu bếp d'oeuvre bởi một nhà thống kê đầy tham vọng.

Đánh giá của Harold Hotelling về cuốn sách, xuất hiện trong JASA vào cuối năm đó, chỉ ra rằng Secrist chỉ đơn thuần ghi lại hàng trăm ví dụ về hồi quy trung bình (một chủ đề cơ bản trong bất kỳ khóa học thống kê giới thiệu nào hôm nay, điểm # 1 của câu hỏi). Secrist phản đối trong một trả lời được công bố. Phản ứng của Hotelling về điều đó là một cổ điển:

Để "chứng minh" kết quả toán học như vậy bằng một nghiên cứu số học tốn kém và kéo dài ... tương tự như việc chứng minh bảng nhân bằng cách sắp xếp voi theo hàng và cột, sau đó thực hiện tương tự cho nhiều loại động vật khác. Buổi biểu diễn, mặc dù có thể giải trí và có một giá trị sư phạm nhất định, không phải là một đóng góp quan trọng cho động vật học hoặc toán học.

[JASA v. 29 # 186, tháng 6 năm 1934, tr. 199.]

Secrist dường như đã mờ đi nhanh chóng từ cảnh thống kê ngay sau đó ("sự nghiệp bị hủy hoại", điểm số 2 trong câu hỏi). Cuốn sách của ông vẫn còn. (Một vài năm trước tôi đã có được một bản sao sạch đẹp, rõ ràng là ít đọc, thông qua Loan liên thư viện.) Từ đó bạn có thể trích xuất bất kỳ số lượng bộ dữ liệu mẫu nào (điểm # 3 của câu hỏi).

Steven Stigler kể lại câu chuyện này trong một cuốn sách và một bài báo, Lịch sử thống kê năm 1933 .


4

Dường như với tôi rằng Wired đảm nhận sự sụp đổ của thị trường chứng khoán năm 2008 có thể là một ví dụ thông tin. Không thể nhận xét liệu kết luận đó có đúng hay không, nhưng ý tưởng sử dụng các mối tương quan trên dữ liệu không phải là mẫu đại diện có vẻ như là một cái gì đó có thể phù hợp với hoàn cảnh bạn đề xuất. Nó cũng hiện tại, và vì vậy có thể khiến họ quan tâm.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.