Bài viết về lạm dụng phương pháp thống kê tại NYTimes


20

Tôi đang đề cập đến bài viết này: http://www.nytimes.com/2011/01/11/science/11esp.html

Hãy xem xét các thí nghiệm sau. Giả sử có lý do để tin rằng một đồng xu hơi nặng về phía đầu. Trong một thử nghiệm, đồng xu xuất hiện đứng đầu 527 lần trong số 1.000.

Đây có phải là bằng chứng quan trọng cho thấy đồng xu có trọng số?

Phân tích cổ điển nói có. Với một đồng tiền công bằng, cơ hội nhận được 527 đầu trở lên trong 1.000 lần lật là ít hơn 1 trên 20, hoặc 5 phần trăm, mức cắt thông thường. Nói một cách khác: thí nghiệm tìm thấy bằng chứng về một đồng xu có trọng số với độ tin cậy 95%.

Tuy nhiên, nhiều nhà thống kê không mua nó. Một trong 20 là xác suất nhận được bất kỳ số lượng đầu trên 526 trong 1.000 lần ném. Đó là, tổng của xác suất lật 527, xác suất lật 528, 529, v.v.

Nhưng thí nghiệm không tìm thấy tất cả các số trong phạm vi đó; nó chỉ tìm thấy một - 527. Chính xác hơn, theo các chuyên gia này, để tính xác suất lấy được một số đó - 527 - nếu đồng xu có trọng số và so sánh với xác suất lấy được cùng một số nếu đồng xu là hội chợ.

Các nhà thống kê có thể chỉ ra rằng tỷ lệ này không thể cao hơn khoảng 4 đến 1, theo Paul Speckman, một nhà thống kê, với Jeff Rouder, một nhà tâm lý học, đã đưa ra ví dụ.

Câu hỏi đầu tiên: Điều này là mới đối với tôi. Có ai tham khảo nơi tôi có thể tìm thấy phép tính chính xác và / hoặc BẠN có thể giúp tôi bằng cách tự đưa cho tôi phép tính chính xác và / hoặc bạn có thể chỉ cho tôi một số tài liệu để tôi có thể tìm thấy các ví dụ tương tự không?

Bayes đã nghĩ ra một cách để cập nhật xác suất cho một giả thuyết khi có bằng chứng mới.

Vì vậy, trong việc đánh giá sức mạnh của một phát hiện nhất định, phân tích Bayesian (phát âm là BAYZ-ee-un) kết hợp các xác suất đã biết, nếu có, từ bên ngoài nghiên cứu.

Nó có thể được gọi là hiệu ứng Yeah Yeah, phải. Nếu một nghiên cứu phát hiện ra rằng quất làm giảm 90% nguy cơ mắc bệnh tim, thì một phương pháp điều trị chữa khỏi chứng nghiện rượu trong một tuần, rằng cha mẹ nhạy cảm có khả năng sinh con gái gấp đôi so với con trai, phản ứng của Bayes phù hợp với người hoài nghi bản địa: Vâng, đúng. Các kết quả nghiên cứu được cân nhắc với những gì có thể quan sát được trên thế giới.

Trong ít nhất một lĩnh vực của y học - các xét nghiệm sàng lọc chẩn đoán - các nhà nghiên cứu đã sử dụng các xác suất đã biết để đánh giá các phát hiện mới. Chẳng hạn, một bài kiểm tra phát hiện nói dối mới có thể chính xác 90 phần trăm, đánh dấu chính xác 9 trên 10 lời nói dối. Nhưng nếu nó được trao cho một dân số 100 người đã được biết đến bao gồm 10 người nói dối, bài kiểm tra sẽ kém ấn tượng hơn rất nhiều.

Nó xác định chính xác 9 trong số 10 kẻ nói dối và bỏ lỡ một; nhưng nó xác định không chính xác 9 trong số 90 người kia là nói dối. Chia số được gọi là dương tính thật (9) cho tổng số người mà bài kiểm tra được gắn cờ (18) cho tỷ lệ chính xác là 50 phần trăm. Các kết quả dương tính giả của người Viking và âm tính giả của người Viking phụ thuộc vào tỷ lệ đã biết trong dân số.

Câu hỏi thứ hai: Làm thế nào để bạn đánh giá chính xác nếu một phát hiện mới là "thực" hay không với phương pháp này? Và: Đây không phải là tùy ý như 5% -barrier vì sử dụng một số xác suất đặt trước?


3
Đối với các đồng tiền công bằng và không công bằng, đây là một bài đọc hữu ích: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
mpiktas

Câu trả lời:


31

Tôi sẽ trả lời chi tiết câu hỏi đầu tiên.

Với một đồng tiền công bằng, cơ hội nhận được 527 đầu trở lên trong 1.000 lần lật là ít hơn 1 trên 20, hoặc 5 phần trăm, mức cắt thông thường.

n=1000p=1/2

P(B(1000,1/2)>=527)

Điều này có thể được tính toán với bất kỳ gói phần mềm thống kê. R cho chúng tôi

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

Vì vậy, xác suất với đồng xu công bằng, chúng tôi sẽ nhận được hơn 526 đầu là xấp xỉ 0,047, gần với mức cắt 5% được đề cập trong bài viết.

Tuyên bố sau đây

Nói một cách khác: thí nghiệm tìm thấy bằng chứng về một đồng xu có trọng số với độ tin cậy 95%.

là tranh cãi. Tôi sẽ miễn cưỡng nói điều đó, vì độ tin cậy 95% có thể được diễn giải theo nhiều cách.

Tiếp theo chúng ta chuyển sang

Nhưng thí nghiệm không tìm thấy tất cả các số trong phạm vi đó; nó chỉ tìm thấy một - 527. Chính xác hơn, theo các chuyên gia này, để tính xác suất lấy được một số đó - 527 - nếu đồng xu có trọng số và so sánh với xác suất lấy được cùng một số nếu đồng xu là hội chợ.

B(1000,1/2)=527B(1000,p)=527

P(B(1000,p)=527)P(B(1000,1/2)=527)=p527(1p)473(1/2)1000.

p

Các nhà thống kê có thể chỉ ra rằng tỷ lệ này không thể cao hơn khoảng 4 đến 1, theo Paul Speckman, một nhà thống kê, với Jeff Rouder, một nhà tâm lý học, đã đưa ra ví dụ.

p

p=5271000.

Chúng ta có thể kiểm tra xem nó thực sự là một mức tối đa bằng cách sử dụng phép thử đạo hàm thứ hai chẳng hạn. Thay thế nó vào công thức chúng ta nhận được

(527/1000)527(473/1000)473(1/2)10004.3

Vì vậy, tỷ lệ là 4,3 đến 1, đồng ý với bài viết.


"Bây giờ tối đa hóa số lượng này liên quan đến p": tôi nghĩ bạn có nghĩa là giảm thiểu.
Simon Byrne

@mpiktas (+1) Câu trả lời hay (cập nhật).
chl

1212p(12±ϵ)ϵ

@Simon, tại sao điều chỉnh để giảm thiểu? Không tìm thấy giá trị của P tối đa hóa tỷ lệ?

@statnovice: Phiên bản gốc của câu trả lời đã chuyển sang tử số và mẫu số.
Simon Byrne
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.