Khoảng tin cậy và xác suất - lỗi ở đâu trong tuyên bố này?


11

Nếu ai đó đưa ra tuyên bố như dưới đây:

"Nhìn chung, những người không hút thuốc tiếp xúc với khói môi trường có nguy cơ mắc bệnh tim mạch vành tương đối là 1,25 (khoảng tin cậy 95%, 1,17 đến 1,32) so với những người không hút thuốc không tiếp xúc với khói thuốc."

Rủi ro tương đối cho toàn bộ dân số là gì? Có bao nhiêu điều liên quan đến bệnh tim mạch vành? Trong số lượng lớn những thứ có thể được kiểm tra, rất ít thực sự có liên quan đến bệnh tim mạch vành, do đó, khả năng bất kỳ điều cụ thể nào được chọn ngẫu nhiên đều được kết nối là rất nhỏ. Do đó, chúng ta có thể nói rằng rủi ro tương đối cho dân số là 1. Nhưng khoảng thời gian được trích dẫn không chứa giá trị 1. Vì vậy, thực sự có một mối liên hệ giữa hai điều, xác suất xảy ra rất nhỏ, hoặc đây là một trong những 5% các khoảng không chứa tham số. Vì cái sau có nhiều khả năng hơn cái trước, đó là những gì chúng ta nên giả định. Do đó, kết luận thích hợp là tập dữ liệu gần như chắc chắn không điển hình trong dân số,

Tất nhiên, nếu có một số cơ sở để giả định rằng hơn 5% mọi thứ có liên quan đến bệnh tim mạch vành thì có thể có một số bằng chứng trong thống kê để hỗ trợ cho rằng khói thuốc là một trong số đó. Tâm lý chung cho thấy điều này khó xảy ra.

Lỗi trong lý luận của họ là gì (vì tất cả các tổ chức y tế đều đồng ý rằng có tài liệu quan trọng liên quan đến tác hại của việc hút thuốc thụ động)? Có phải vì tiền đề của họ rằng "Trong số lượng lớn những thứ có thể được kiểm tra, rất ít thực sự có liên quan đến bệnh tim mạch vành"? Câu này có thể đúng với bất kỳ yếu tố được chọn ngẫu nhiên nào (ví dụ: có bao nhiêu con chó mà một người sở hữu có nguy cơ mắc bệnh mạch vành) nhưng xác suất tiên nghiệm cao hơn nhiều so với hút thuốc lá và bệnh tim mạch vành so với 'bất kỳ yếu tố ngẫu nhiên nào' .

Đây có phải là lý luận chính xác? Hoặc là có cái gì khác?


Các văn bản trích dẫn có vẻ như ... tốt, giống như một trích dẫn. Nó đến từ đâu :)
MånsT

haha vâng, đó là một trích dẫn, từ wikipedia ... ai đó đã thêm nó vào bài viết cho "khoảng tin cậy". Tôi đang cố gắng loại bỏ nó vì điều đó rõ ràng không chính xác, nhưng anh chàng từ chối vì vậy tôi cần một lý do hợp lý về mặt toán học thay vì chỉ "điều này rõ ràng sai" .. mặc dù tôi có một số ý tưởng, tôi muốn biết liệu ai đó có thể giải thích chính xác những lỗi đang được thực hiện ở đây. Bởi vì nếu điều này là chính xác thì nhiều nghiên cứu có thể bị bác bỏ trên cơ sở tương tự
BYS2

3
Nếu nó kéo một chút, tôi sẽ di chuyển và cố gắng giúp đỡ. Lập luận của anh ta rõ ràng là ngụy biện và chỉ mạnh vào việc anh ta có một chương trình nghị sự.
Erik

3
Là một nhà vật lý sử dụng nhiều số liệu thống kê nhưng không phải là một nhà thống kê, tôi thấy đoạn đó thực sự không có ích, không bao giờ bận tâm đến thực tế nó nghe có vẻ sai. Tôi đã luôn nghĩ rằng, có thể không chính xác, rằng 95% cl có nghĩa là nếu giả thuyết null là đúng thì 1 lần trong 20 nếu tôi lặp lại thí nghiệm của mình, tôi sẽ nhận được kết quả đáng kể ở mức 95% (theo lý do chính đáng của tôi không sử dụng ít hơn 99,9 nhưng đó là một cuộc thảo luận khác). Bài đăng đó dường như là một điểm nhiều hơn về các yếu tố tương quan và thực sự không giúp được gì cho những người không phải là chuyên gia (hoặc bất cứ ai) cả.
Bowler

@Erik. Người dùng có một lịch sử khá tinh ranh về múa rối (đã có một vài tài khoản và sử dụng các chỉnh sửa IP) và đã bị chặn trước khi ... không chắc thỏa thuận của anh ta là gì. Nhưng có vẻ như là một kẻ gây rối
BYS2

Câu trả lời:


10

Có nhiều điều sai ở đây. Như @ Néstor giải thích, anh ta mặc nhiên thừa nhận các xác suất trước trên (không có liên kết) và H 1 (liên kết).H0H1

Anh ta đặt một trọng lượng rất cao (rất gần với 1) trên và một trọng lượng rất nhỏ trên H 1 . Đây là điều đáng ngờ đầu tiên anh ta làm, vì có mối liên hệ cơ học giữa khói thuốc và bệnh tim (xem xét những người hút thuốc chủ động), câu hỏi thực sự là nếu tiếp xúc là đủ. Điều này thậm chí không xem xét các nghiên cứu trước đó được thực hiện. Vì vậy, nó thực sự không phải là một trong số "vô số thứ" được thử nghiệm như mang vớ đỏ chẳng hạn. Điều này có nghĩa là anh ta đã bắt đầu với một thành kiến ​​rất cao và không thực sự chính đáng trước đó.H0H1

Sau đó, anh ta cập nhật trước bằng cách nói rằng xác suất nhận được khoảng tin cậy 95% không chứa giá trị thực có xác suất là 5%. Trong khi điều này là đúng, đây không phải là cơ hội để có được khoảng thời gian cụ thể đó theo giả định của giả thuyết null . Lưu ý rằng anh ta sẽ đối xử với khoảng tin cậy [1.17, 1.32] giống hệt với khoảng tin cậy [100, 200] rõ ràng là có vấn đề.

Điều này thực sự quan trọng đối với phương pháp Bayes: trong khi bạn có tổng xác suất 5% không nhận được một khoảng chứa 1 theo giả định rằng 1 bằng 0, mật độ xác suất của khoảng thời gian cụ thể đó là khác nhau (và nhỏ hơn).

H0H1

Sai lầm thứ tư là nói rằng hành động thích hợp sẽ là loại bỏ dữ liệu. Lưu ý rằng kết quả của anh ta thậm chí không phụ thuộc vào dữ liệu, đối số của anh ta ngụ ý chính xác cùng một hành động sẽ được thực hiện cho bất kỳ dữ liệu nào. Nếu bạn tìm thấy một liên kết thú vị nhưng nghi ngờ nó có thể chỉ là một con sán, điều khoa học thích hợp phải làm là cố gắng tái tạo kết quả của bạn!


Cảm ơn bạn đã mở rộng câu trả lời của Nestor! Tuy nhiên, một câu hỏi nhanh, bạn nói rằng "... đây không phải là cơ hội để có được khoảng thời gian cụ thể đó theo giả định của giả thuyết khống." Nếu chúng ta muốn tìm cơ hội có được một khoảng cụ thể theo giả định của giả thuyết null, chúng ta sẽ cần sử dụng suy luận bayesian và một khoảng đáng tin cậy có đúng không? Khoảng tin cậy thường xuyên chỉ cho bạn biết "cơ hội khoảng đó sẽ bao gồm giá trị thực". Cảm ơn một lần nữa
BYS2

Khoảng tin cậy thường xuyên là 95% được xây dựng sao cho ít nhất 95% số lần khoảng thời gian được đặt có chứa giá trị thực. Càng xa càng tốt. Điều này được nói rằng bạn cũng có thể tính xác suất (hoặc giá trị của mật độ) để có được khoảng tin cậy cụ thể nếu giả thuyết null là đúng. Vị trí chính xác chứa nhiều "thông tin" hơn là liệu nó có bao gồm giả thuyết không. Vứt bỏ thông tin đó là xấu khi sử dụng suy luận Bayes vì ​​nó liên quan đến xác suất null là đúng.
Erik

Một ví dụ về đồ chơi sẽ là thế này: suy luận Bayes, bạn muốn suy luận về hình thức phân phối. Ưu tiên cho phép hai possibilites: H1: Phân phối là tiêu chuẩn bình thường. H2: Phân phối bình thường, mean = sd = 1. Một mẫu các giá trị của các bản phân phối cho phép bạn cập nhật trước. Khi bạn chỉ được cung cấp các dấu hiệu về giá trị của mình, bạn cũng có thể cập nhật trước, nhưng bản cập nhật sẽ ít thông tin hơn vì bạn đã vứt bỏ thông tin liên quan.
Erik

6

Đây là một vấn đề triết học khá thú vị liên quan đến kiểm tra giả thuyết (và do đó trong môi trường thường xuyên cũng có khoảng tin cậy, như tôi giải thích ở đây ).

Tất nhiên, có rất nhiều giả thuyết có thể được nghiên cứu - hút thuốc thụ động gây ra bệnh tim mạch vành, uống rượu gây ra chd, sở hữu chó gây ra chd, là Ma Kết gây ra ...

Nếu chúng ta chọn một trong tất cả các giả thuyết này một cách ngẫu nhiên, xác suất chúng ta chọn một giả thuyết xảy ra là đúng là gần như bằng không. Đây dường như là đối số trong văn bản được trích dẫn - rằng rất khó có khả năng chúng tôi đã kiểm tra một giả thuyết thực sự.

Nhưng giả thuyết không được chọn ngẫu nhiên. Nó được thúc đẩy bởi kiến ​​thức dịch tễ học và y tế trước đây về bệnh tim mạch vành. Có những cơ chế lý thuyết giải thích việc hút thuốc lá có thể gây ra bệnh tim mạch vành như thế nào, vì vậy dường như không có gì là xa vời khi nghĩ rằng những thứ đó cũng có tác dụng đối với việc hút thuốc thụ động.

Những lời chỉ trích trong trích dẫn có thể có giá trị đối với các nghiên cứu khám phá trong đó một bộ dữ liệu được khai thác cho các giả thuyết. Đó là lý do mà chúng tôi không chấp nhận những "khám phá" đó là sự thật - thay vào đó chúng tôi yêu cầu rằng kết quả có thể được nhân rộng trong các nghiên cứu mới. Dù bằng cách nào, bài báo được trích dẫn trong trích dẫn là một nghiên cứu tổng hợp và do đó không bị ảnh hưởng bởi vấn đề này.

Chúng ta đã thấy bằng thực nghiệm trong nhiều thế kỷ qua rằng các giả thuyết thử nghiệm được thúc đẩy bởi lý thuyết bằng cách so sánh các kết quả dự đoán với các kết quả quan sát được. Thực tế là chúng tôi tin vào thủ tục này là lý do mà chúng tôi đã đạt được rất nhiều tiến bộ trong y học, kỹ thuật và khoa học. Đó là lý do mà tôi có thể viết nó trên máy tính của tôi và bạn có thể đọc nó trên máy tính của bạn. Lập luận rằng thủ tục này là sai là lập luận rằng phương pháp khoa học là thiếu sót cơ bản - và chúng tôi có rất nhiều bằng chứng nói khác đi.

Tôi nghi ngờ rằng có bất cứ điều gì mà một người không sẵn sàng chấp nhận loại bằng chứng này thực sự sẽ chấp nhận ...


Tôi thực sự đã không nhận được đoạn văn của bạn trước khi cuối cùng; bạn đang đề cập đến "thử nghiệm ý nghĩa" (ví dụ: tính xác suất dữ liệu ít nhất là cực đoan hơn) hoặc thực sự là "thử nghiệm giả thuyết" (cài đặt bayesian)? Ai nói rằng bất kỳ ai trong số họ không làm việc nếu bạn hỏi đúng câu hỏi?
Néstor

@ Néstor: Có lẽ tôi nên viết khác đi. Tôi đã không thực sự đưa ra một tuyên bố về kiểm tra giả thuyết thống kê , mà là quan sát về thực tế là so sánh các dự đoán mô hình với dữ liệu trong thế giới thực (tức là "kiểm tra" nếu giả thuyết là đúng) có vẻ là một cách làm rất hiệu quả khoa học. Trọng tâm của sự chỉ trích này đối với CI là, tôi tin rằng, không sẵn lòng chấp nhận phương pháp này. Loại đối số được đưa ra trong trích dẫn sẽ áp dụng cho bất kỳ phương pháp thống kê nào - với xác suất không có trước cho tất cả các giả thuyết không có giá trị, chúng tôi không bao giờ tin vào bất cứ điều gì.
MånsT

6

Tôi thực sự không hiểu tại sao tác giả nói rằng xác suất rủi ro tương đối của bệnh tim mạch vành là 1 có thể rất nhỏ dựa trên phân tích của anh ta chỉ dựa trên Khoảng tin cậy; Điều này hoàn toàn sai. Đối với tôi, có vẻ như anh ấy đang sử dụng một thiết lập thường xuyên, nhưng anh ấy đang suy luận rất nghiêm túc (điều này khá phổ biến).

H0:p(De|H0)Dep(H0|D)D

p(H0|D)p(D|H0)p(H0),
p(H0)H0

Sẽ không H0: không có mối liên hệ giữa hút thuốc thụ động và CHD? Vì giả thuyết null thường là giả thuyết không có tác dụng. Ngoài ra, cảm ơn câu trả lời này!
BYS2

Vâng, bạn đúng! Tôi đã không nhận thấy nó cho đến khi bạn chỉ ra :-). Tôi sẽ chỉnh sửa câu trả lời của tôi.
Néstor

3

Mặc dù có một cái gì đó cho dòng lý luận Bayes này (được giải mã rất kỹ lưỡng bởi Erik!), Và thực sự dòng suy nghĩ này sẽ giải thích tại sao nhiều phát hiện y học không thể được sao chép, lập luận cụ thể này áp dụng suy nghĩ như búa tạ.

Tác giả giả định hai điều mà không cung cấp bằng chứng: việc tiếp xúc với khói thuốc được chọn ngẫu nhiên và hầu như không có gì trên thế giới gây ra bệnh tim. Theo các tiêu chuẩn lý luận lỏng lẻo này, tác giả có thể bác bỏ bất kỳ kết luận nào rằng một cái gì đó gây ra bệnh tim. Tất cả những gì bạn cần làm là khẳng định:

  1. Giả thuyết đó được chọn ngẫu nhiên, và
  2. Bệnh tim đó rất gần với nguyên nhân không.

Cả hai khẳng định này đều gây tranh cãi (và, dựa trên kiến ​​thức chung của tôi, rất có thể sai). Nhưng, với những giả định này, ngay cả khi quan sát thấy 100% số người tiếp xúc với khói thuốc đã chết vì đau tim trong vòng một năm, bạn có thể khẳng định rằng kết nối chỉ là mối tương quan ngẫu nhiên với nguyên nhân "chân thực", ẩn giấu .


Được rồi, cảm ơn vì những suy nghĩ của bạn! Đúng, tác giả chắc chắn cho rằng giả thuyết này là 'được chọn ngẫu nhiên', điều này không đúng.
BYS2

-1

Tôi không thấy bất cứ điều gì rõ ràng sai với đoạn trích dẫn, nhưng tôi chưa thấy dữ liệu và không thể kiểm tra là số. Tuy nhiên, hai đoạn theo sau nó rất không rõ ràng.

Giả sử ông đã nói, "Nhìn chung, những người không hút thuốc bị béo phì có nguy cơ mắc bệnh tim mạch vành là 1,25 (khoảng tin cậy 95%, 1,17 đến 1,32) so với những người không hút thuốc có trọng lượng cơ thể bình thường." Bất cứ ai sẽ có lý do để nghi ngờ anh ta?


Vâng, đoạn đầu tiên trong trích dẫn chỉ là tác giả trích dẫn kết luận của một nghiên cứu dịch tễ học nên không có gì sai với nó .. Một vài đoạn tiếp theo là anh ta cố gắng làm mất uy tín của nghiên cứu, nơi anh ta đưa ra một số tuyên bố đáng ngờ.
BYS2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.