Khuyến nghị cho các bài viết phi kỹ thuật nhưng sâu sắc trong thống kê


24

Cảm hứng cho câu hỏi này đến từ bài viết nổi tiếng của Leo-Breiman, mô hình thống kê: Hai nền văn hóa (truy cập mở có sẵn). Tác giả so sánh những gì ông thấy là hai cách tiếp cận khác nhau để phân tích dữ liệu, chạm vào những ý tưởng chính trong thống kê cổ điển và học máy. Tuy nhiên, bài viết rất dễ hiểu đối với nhiều đối tượng - có thể tranh luận với bất kỳ ai làm việc với dữ liệu, bất kể họ có theo đuổi số liệu thống kê ở cấp độ tiến sĩ hay chỉ mới tham gia khóa học giới thiệu. Hơn nữa, bài viết là kích thích . Đó là, nó dễ dàng tạo ra cuộc thảo luận (bằng chứng là một loạt các bình luận sôi nổi được xuất bản trong cùng một vấn đề).

Tôi tò mò khám phá thêm các bài viết với những phẩm chất này. Đó là, bài viết rằng:

  • Chạm vào các khái niệm cơ bản trong thống kê / phân tích dữ liệu
  • Có thể được hiểu bởi nhiều đối tượng về sự khác biệt trong tập trung nghiên cứu và đào tạo thống kê chính thức
  • Kích thích thảo luận, cho dù thông qua cái nhìn sâu sắc hoặc tranh cãi

2
Các câu trả lời cho đến nay đã rất thú vị! Tiêp tục cho vao. Tất nhiên, tôi sẽ không chấp nhận bất kỳ câu trả lời nào theo meta.stats.stackexchange.com/questions/409/ mẹo
Richard Border

2
Không có Royal Road để thống kê.
Aksakal

Câu trả lời:


15

Shmueli, Galit. "Để giải thích hay dự đoán?." Khoa học thống kê (2010): 289-310.

Tôi tin rằng nó phù hợp với ba điểm đạn của bạn.

Nó nói về mô hình giải thích so với dự đoán (các thuật ngữ nên tự giải thích) và lưu ý rằng sự khác biệt giữa chúng thường không được công nhận.

Nó nêu lên rằng tùy thuộc vào mục tiêu của mô hình hóa (giải thích so với dự đoán), các chiến lược xây dựng mô hình khác nhau có thể được sử dụng và các mô hình khác nhau có thể được chọn là mô hình "tốt nhất".

Nó là một bài viết khá toàn diện và đọc thú vị. Một cuộc thảo luận về nó được tóm tắt trong bài viết trên blog của Rob J. Hyndman . Một cuộc thảo luận liên quan về Cross xác thực là trong chủ đề này (với rất nhiều upvote). Một câu hỏi khác (chưa được trả lời) về cùng một chủ đề là đây .


12

Lehmann, Erich L. "Các lý thuyết của Fisher, Neyman-Pearson về các giả thuyết thử nghiệm: Một hay hai lý thuyết?" Tạp chí của Hiệp hội Thống kê Hoa Kỳ 88.424 (1993): 1242-1249.

Nó không được nhiều người biết đến nhưng khi những người khổng lồ trong nghề vẫn ở trong chúng ta, họ đã không hòa thuận với nhau. Cuộc tranh luận về nền tảng của thử nghiệm giả thuyết cụ thể, dù là quy nạp hay suy diễn, đã thấy một số lời lăng mạ khá nghiêm trọng bay xung quanh giữa một mặt và mặt khác là Neyman-Pearson. Và vấn đề không bao giờ được đặt ra trong suốt cuộc đời của họ.

Rất lâu sau khi tất cả đã trôi qua, Lehmann cố gắng thu hẹp khoảng cách và theo tôi là một công việc tốt khi ông cho thấy các phương pháp là bổ sung chứ không loại trừ lẫn nhau. Đây là những gì sinh viên học ngày nay bằng cách này. Bạn cần biết một vài điều cơ bản về kiểm tra giả thuyết nhưng nếu không bạn có thể làm theo bài báo mà không gặp vấn đề gì.


1
Cảm ơn đã trích dẫn. Tôi đã từng hỏi một câu hỏi về xung đột bị cáo buộc giữa các phương pháp tiếp cận F và NP: stats.stackexchange.com/questions/112769 , và mặc dù có rất nhiều sự chú ý và phản đối mà tôi nhận được nhưng tôi vẫn không bị thuyết phục bởi bất kỳ câu trả lời nào hiện có (và không chấp nhận bất kỳ). Tôi dự định quay lại chủ đề đó và đọc một số tiền thưởng hoặc một cái gì đó, nhưng không bao giờ tìm thấy thời gian; nếu bạn quen thuộc với bài viết của Lehmann, tôi sẽ khuyến khích bạn đóng góp câu trả lời ở đó.
amip nói phục hồi Monica

@amoeba Tôi đã đọc bài viết của Lehmann nhiều lần, nó rất dễ đọc nhưng tôi không nghĩ rằng tôi đã nghiên cứu vấn đề kỹ lưỡng như bạn. Vì vậy, bất cứ khi nào bạn có thời gian, sẽ là một ý tưởng tốt cho bạn để đi qua nó và xem quan điểm của anh ấy. Bạn sẽ tìm thấy các cuộc thảo luận về vấn đề BehDR-Fisher đặc biệt tiết lộ.
JohnK

Cám ơn vì đã chia sẻ. Có lẽ tất cả những gì tôi đã nghe là khá phiến diện, nhưng tất cả những gì tôi nghe về Sir Ron Fisher là ông là một người đàn ông khá khó chịu để đối phó, để nói rằng ít nhất. Ông cũng có một số ý kiến ​​nghi vấn về mối liên hệ giữa sử dụng thuốc lá và ung thư phổi .
Phil

Một thay thế "nhẹ hơn" cho bài viết là Christensen, Ronald. "Thử nghiệm Fisher, Neyman, Pearson và Bayes." Thống kê Hoa Kỳ 59,2 (2005): 121-126. Tôi thấy nó thú vị.
Richard Hardy

9

Wilk, MB và Gnanadesikan, R. 1968. Phương pháp vẽ đồ thị xác suất để phân tích dữ liệu. Sinh trắc học 55: 1-17. Liên kết Jstor nếu bạn có quyền truy cập

Bài báo này, vào thời điểm tôi viết, đã gần 50 tuổi nhưng vẫn cảm thấy tươi mới và sáng tạo. Sử dụng nhiều ví dụ thú vị và phong phú, các tác giả thống nhất và mở rộng nhiều ý tưởng để vẽ và so sánh các bản phân phối bằng cách sử dụng khung của QQ (quantile-quantile) và PP (xác suất xác suất). Phân phối ở đây có nghĩa rộng rãi là bất kỳ bộ dữ liệu hoặc số (dư, tương phản, v.v.) phát sinh trong các phân tích của họ.

Các phiên bản đặc biệt của các lô này quay trở lại vài thập kỷ, rõ ràng nhất là các ô có xác suất bình thường hoặc các điểm số bình thường. trong các thuật ngữ này là các ô lượng tử lượng tử, cụ thể là các ô lượng tử quan sát so với các lượng tử dự kiến ​​hoặc lý thuyết từ một mẫu có cùng kích thước từ phân phối (Gaussian) thông thường. Nhưng các tác giả cho thấy, một cách khiêm tốn nhưng tự tin, rằng những ý tưởng tương tự có thể được mở rộng dễ dàng - và thực tế với điện toán hiện đại - để kiểm tra các loại lượng tử khác và tự động vẽ kết quả.

Các tác giả, sau đó cả hai tại Phòng thí nghiệm Điện thoại Bell, rất thích các cơ sở tính toán tiên tiến, và thậm chí nhiều trường đại học và tổ chức nghiên cứu phải mất một thập kỷ để bắt kịp. Ngay cả bây giờ, những ý tưởng trong bài báo này xứng đáng được áp dụng rộng rãi hơn những gì họ có được. Đó là một văn bản giới thiệu hoặc khóa học hiếm hoi bao gồm bất kỳ ý tưởng nào khác ngoài cốt truyện QQ thông thường. Biểu đồ và sơ đồ hộp (mỗi loại thường rất hữu ích, nhưng tuy nhiên mỗi thứ vụng về và hạn chế theo một số cách) tiếp tục là chủ lực chính khi các lô phân phối được giới thiệu.

Ở cấp độ cá nhân, mặc dù những ý tưởng chính của bài viết này đã quen thuộc với hầu hết sự nghiệp của tôi, tôi vẫn thích đọc lại nó cứ sau vài năm. Một lý do chính đáng là niềm vui ở cách các tác giả đưa ra những ý tưởng đơn giản nhưng mạnh mẽ để đạt hiệu quả tốt với các ví dụ nghiêm túc. Một lý do chính đáng khác là cách mà bài báo được viết chính xác, không có một chút dấu vết của vụ đánh bom, gợi ý về phần mở rộng của các ý chính. Hơn một lần, tôi đã khám phá lại những khúc quanh về những ý tưởng chính được trình bày rõ ràng trong những gợi ý bên lề và những bình luận thêm.

Đây không chỉ là một bài báo cho những người đặc biệt quan tâm đến đồ họa thống kê, mặc dù theo tôi thì nên bao gồm tất cả mọi người quan tâm đến bất kỳ loại thống kê nào. Nó thúc đẩy cách suy nghĩ về các bản phân phối thực sự hữu ích trong việc phát triển các kỹ năng và hiểu biết thống kê của bất kỳ ai.


2
Đây là một sự lựa chọn tuyệt vời. Tôi đã đọc điều này nhiều lần - ngay khi tôi thấy tên tác giả trong câu trả lời của bạn, tôi biết đây là bài báo nào, và ngay lập tức tôi muốn đọc lại nó. Tôi nghĩ rằng tôi có một bản sao của nó ở đây ở đâu đó ...
Glen_b -Reinstate Monica 2/2/2016

6

Ioannidis, John PA "Tại sao hầu hết các kết quả nghiên cứu được công bố là sai." Y học PLoS (2005)

Ioannidis, John PA "Làm thế nào để biến nhiều nghiên cứu được công bố thành sự thật." Y học PLoS (2014)

Phải đọc cho mọi nhà nghiên cứu / nhà thống kê / nhà phân tích muốn tránh những nguy hiểm khi sử dụng và giải thích số liệu thống kê không chính xác trong nghiên cứu. Bài báo năm 2005 đã được truy cập nhiều nhất trong lịch sử Thư viện Khoa học Công cộng, và nó đã kích thích rất nhiều tranh cãi và thảo luận.


6

Tukey, JW (1960) Kết luận và quyết định Kỹ thuật 2 (4): 423-433

Bài viết này dựa trên cuộc nói chuyện sau bữa tối của Tukey và có một bình luận rằng 'cuộc thảo luận đáng kể đã xảy ra' để nó phù hợp với ít nhất là ba điểm trong số các điểm của bạn.

Lần đầu tiên tôi đọc bài báo này khi tôi đang hoàn thành bằng tiến sĩ kỹ thuật và đánh giá cao sự khám phá của nó về tính thực tiễn của phân tích dữ liệu.


Liên kết không hoạt động. Điều này hoạt động
kjetil b halvorsen

5

Efron và Morris, 1977, Nghịch lý của Stein về thống kê .

Efron và Morris đã viết một loạt các tài liệu kỹ thuật về công cụ ước tính James-Stein trong những năm 1970, đóng khung "nghịch lý" của Stein trong bối cảnh Empirical Bayes. Bài báo năm 1977 là một bài phổ biến được xuất bản trên tạp chí Khoa học Mỹ .

Đó là một đọc tuyệt vời .


3

Chà, mặc dù sự quan tâm lớn hơn đối với Roy Model là giữa các nhà kinh tế (nhưng tôi có thể sai), bài báo gốc "Một số suy nghĩ về phân phối thu nhập" từ năm 1951, là một cuộc thảo luận sâu sắc và không khoa học về vấn đề tự lựa chọn. Bài viết này là nguồn cảm hứng cho các mô hình lựa chọn được phát triển bởi giải thưởng cao quý James Heckman. Mặc dù cũ, tôi nghĩ rằng nó phù hợp với ba điểm đạn của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.