Người thường xuyên đưa vào câu chuyện vôn kế là gì?


15

Người thường xuyên tiếp nhận câu chuyện vôn kế và các biến thể của nó là gì? Ý tưởng đằng sau đó là một phân tích thống kê thu hút các sự kiện giả định sẽ phải được sửa đổi nếu sau đó được biết rằng những sự kiện giả định đó không thể diễn ra như giả định.

Các phiên bản của câu chuyện trên Wikipedia được cung cấp dưới đây.

Một kỹ sư vẽ một mẫu ngẫu nhiên của các ống điện tử và đo điện áp của chúng. Các phép đo nằm trong khoảng từ 75 đến 99 volt. Một nhà thống kê tính toán trung bình mẫu và khoảng tin cậy cho giá trị trung bình thực. Sau đó, nhà thống kê phát hiện ra rằng vôn kế chỉ đọc được đến 100, vì vậy dân số dường như bị 'kiểm duyệt'. Điều này đòi hỏi một phân tích mới, nếu nhà thống kê là chính thống. Tuy nhiên, kỹ sư nói rằng anh ta có một đồng hồ đo khác đọc đến 1000 volt, mà anh ta sẽ sử dụng nếu có điện áp nào trên 100. Đây là một cứu cánh cho nhà thống kê, bởi vì điều đó có nghĩa là dân số đã bị kiểm duyệt một cách hiệu quả. Nhưng, ngày hôm sau, kỹ sư thông báo cho nhà thống kê rằng đồng hồ thứ hai này không hoạt động tại thời điểm đo. Các nhà thống kê xác định rằng kỹ sư sẽ không giữ các phép đo cho đến khi đồng hồ được cố định, và thông báo cho anh ta rằng các phép đo mới là bắt buộc. Người kỹ sư kinh ngạc. "Tiếp theo bạn sẽ hỏi về máy hiện sóng của tôi".

Câu chuyện rõ ràng là ngớ ngẩn nhưng đối với tôi không rõ ràng những quyền tự do nào được thực hiện với phương pháp mà nó chọc cười. Tôi chắc chắn trong trường hợp này, một nhà thống kê áp dụng bận rộn sẽ không lo lắng về điều này nhưng còn một người thường xuyên học tập khó tính thì sao?

Sử dụng một phương pháp thường xuyên giáo điều, chúng ta có cần lặp lại thí nghiệm không? Chúng tôi có thể rút ra bất kỳ kết luận từ dữ liệu đã có sẵn?

Để giải quyết vấn đề chung hơn của câu chuyện, nếu chúng ta muốn sử dụng dữ liệu chúng ta đã có, có thể sửa đổi các kết quả giả định cần thiết để phù hợp với khuôn khổ thường xuyên không?


4
Cách tiếp cận thường xuyên cũng cho phép điều hòa vì vậy tôi không chắc lý do tìm thấy trong trích dẫn là đầy đủ.
Tây An

@ Xi'an Ngay cả khi chúng tôi kết hợp kiểm duyệt mẫu hoặc xác suất vôn kế thứ hai bị hỏng trong tính toán của chúng tôi, có một vấn đề là chúng tôi thay đổi thiết kế thử nghiệm sau khi nó diễn ra . Tôi không biết nếu điều đó có thể được hòa giải với các phương pháp thường xuyên.
Praxeolitic

6
Có thể kiểm tra mục này trên Nguyên tắc điều kiện . Mặc dù không phải là người thường xuyên, tôi không phải là một fan hâm mộ lớn của câu chuyện này bởi vì nó dường như ngụ ý tích hợp trên tất cả các sự kiện giả định có thể có mà không xác định phạm vi của những điều đó. Điều này là khá biếm họa.
Tây An

5
Đây thực sự là giá trị của các cuộc thảo luận và câu trả lời chu đáo. Nhưng xin lưu ý rằng "nếu nhà thống kê là chính thống" và không đủ năng lực hoặc không tham lam cho công việc bổ sung , cô sẽ nói rằng vì không có quan sát ban đầu nào bị kiểm duyệt, nên lựa chọn thủ tục ban đầu của cô (có thể được chấp nhận) vẫn không được chấp nhận và do đó không có cơ sở để chấp nhận thay đổi nó. Cơ sở lý thuyết làm nền tảng cho thống kê "Người thường xuyên" - lý thuyết quyết định - không sử dụng cho "nguyên tắc khả năng" này.
whuber

1
Tôi biết những gì tôi sẽ làm, miễn là có đủ dữ liệu. Tôi sẽ làm một biểu đồ. Tôi sẽ nhìn vào biểu đồ. Nếu có một ràng buộc rõ ràng ở 99 tạo ra một biểu đồ cắt ngắn một phía tại thời điểm đó, tôi sẽ nghi ngờ rằng nó đã bị cắt cụt. Tôi cũng sẽ xem xét dữ liệu được biết là không bị cắt cụt và kiểm tra hình dạng đường cong của chúng, và xem liệu tôi có thể có được một mô hình xác suất để phù hợp với điều đó hay không, ví dụ, phân phối gamma hay không. Sau đó tôi sẽ quay trở lại dữ liệu bị cắt bớt (theo giả định) và xem phần còn lại của nó cũng được phân phối gamma (hay bất cứ thứ gì). Sau đó, tôi cần phải giải thích, "Tại sao gamma?" Nếu vậy, tôi đã làm xong.
Carl

Câu trả lời:


4

Trong suy luận thường xuyên , chúng tôi muốn xác định mức độ thường xuyên xảy ra nếu một quá trình ngẫu nhiên nhất định được lặp đi lặp lại. Đó là điểm khởi đầu cho lý thuyết về giá trị p, khoảng tin cậy và tương tự. Tuy nhiên, trong nhiều dự án ứng dụng, quy trình "nhất định" không thực sự được đưa ra và nhà thống kê phải thực hiện ít nhất một số công việc chỉ định và mô hình hóa nó. Đây có thể là một vấn đề mơ hồ đáng ngạc nhiên, như trong trường hợp này.

Mô hình hóa quy trình tạo dữ liệu

Dựa trên thông tin được cung cấp, ứng cử viên tốt nhất của chúng tôi dường như là như sau:

  1. Nếu đồng hồ 100V đọc 100V, kỹ sư đo lại với đồng hồ 1000V nếu nó hoạt động. Nếu không, anh ta chỉ cần đánh dấu 100V và di chuyển trên.

Nhưng điều này có hơi bất công với kỹ sư của chúng ta không? Giả sử anh ta là một kỹ sư và không chỉ đơn thuần là một kỹ thuật viên, anh ta có lẽ hiểu lý do tại sao anh ta cần phải đo lại khi đồng hồ đầu tiên đọc 100V; đó là vì đồng hồ đã bão hòa ở giới hạn trên của phạm vi của nó, do đó không còn đáng tin cậy nữa. Vì vậy, có lẽ những gì các kỹ sư thực sự sẽ làm là

  1. Nếu đồng hồ 100V đọc 100, kỹ sư đo lại bằng đồng hồ 1000V nếu nó hoạt động. Mặt khác, anh ta chỉ cần đánh dấu 100V, thêm dấu cộng để biểu thị phép đo bão hòa và tiếp tục.

Cả hai quy trình này đều phù hợp với dữ liệu chúng tôi có, nhưng chúng là các quy trình khác nhau và chúng mang lại khoảng tin cậy khác nhau. Quy trình 2 là quy trình chúng tôi muốn làm thống kê. Nếu các điện áp thường cao hơn 100V, Quy trình 1 có chế độ thất bại thảm khốc có thể xảy ra trong đó các phép đo đôi khi bị đánh giá thấp nghiêm trọng, vì dữ liệu bị kiểm duyệt mà chúng ta không biết. Khoảng tin cậy sẽ mở rộng tương ứng. Chúng tôi có thể giảm thiểu điều này bằng cách yêu cầu kỹ sư cho chúng tôi biết khi đồng hồ 1000V của anh ấy không hoạt động, nhưng đây thực sự chỉ là một cách khác để đảm bảo dữ liệu của chúng tôi tuân thủ Quy trình 2.

Nếu con ngựa đã rời chuồng và chúng tôi không thể xác định khi nào các phép đo được kiểm duyệt và không bị kiểm duyệt, chúng tôi có thể cố gắng suy luận dữ liệu về thời gian khi đồng hồ 1000V không hoạt động. Bằng cách đưa quy tắc suy luận vào quy trình, chúng tôi tạo ra một Quy trình 1.5 mới khác biệt so với cả 1 và 2. Quy tắc suy luận của chúng tôi đôi khi sẽ hoạt động và đôi khi không, do đó, khoảng tin cậy từ Quy trình 1.5 sẽ có kích thước trung gian so với Quy trình 1 và 2.

Về lý thuyết, không có gì sai hoặc nghi ngờ về một thống kê duy nhất có ba khoảng tin cậy khác nhau liên quan đến ba quá trình ngẫu nhiên đại diện hợp lý khác nhau. Trong thực tế, ít người tiêu dùng thống kê muốn ba khoảng tin cậy khác nhau. Họ muốn một, một cái dựa trên những gì sẽ thực sự xảy ra, đã làm thí nghiệm được lặp lại nhiều lần. Vì vậy, thông thường, nhà thống kê ứng dụng xem xét kiến ​​thức miền mà cô có được trong dự án, đưa ra phỏng đoán có giáo dục và trình bày khoảng tin cậy liên quan đến quá trình cô đã đoán. Hoặc cô ấy làm việc với khách hàng để chính thức hóa quy trình, vì vậy không cần phải đoán tiếp.

Làm thế nào để phản hồi thông tin mới

Bất chấp sự khăng khăng của nhà thống kê trong câu chuyện, suy luận thường xuyên không yêu cầu chúng ta lặp lại các phép đo khi chúng ta có được thông tin mới cho thấy quá trình tạo ngẫu nhiên không hoàn toàn như những gì chúng ta nghĩ ban đầu. Tuy nhiên, nếu quy trình sẽ được lặp lại, chúng tôi cần đảm bảo rằng tất cả các lần lặp lại đều phù hợp với quy trình mô hình được giả định bởi khoảng tin cậy. Chúng ta có thể làm điều này bằng cách thay đổi quy trình hoặc bằng cách thay đổi mô hình của chúng ta về nó.

Nếu chúng tôi thay đổi quy trình, chúng tôi có thể cần loại bỏ dữ liệu quá khứ được thu thập không phù hợp với quy trình đó. Nhưng đó không phải là vấn đề ở đây, bởi vì tất cả các biến thể quy trình chúng tôi đang xem xét chỉ khác nhau khi một số dữ liệu trên 100V và điều đó không bao giờ xảy ra trong trường hợp này.

Bất cứ điều gì chúng ta làm, mô hình và thực tế phải được đưa vào liên kết. Chỉ sau đó, tỷ lệ lỗi thường xuyên được đảm bảo về mặt lý thuyết sẽ là những gì khách hàng thực sự nhận được khi thực hiện lặp lại quá trình.

Sự thay thế Bayes

Mặt khác, nếu tất cả những gì chúng ta thực sự quan tâm là phạm vi có thể có của ý nghĩa thực sự của mẫu này , chúng ta nên bỏ hoàn toàn chủ nghĩa thường xuyên và tìm kiếm những người bán câu trả lời cho câu hỏi đó - Bayes. Nếu chúng ta đi theo con đường này, tất cả sự mặc cả về các tác dụng phụ trở nên không liên quan; tất cả những gì quan trọng là trước và khả năng. Để đổi lấy sự đơn giản hóa này, chúng tôi mất bất kỳ hy vọng đảm bảo tỷ lệ lỗi dưới hiệu suất lặp lại của "thử nghiệm".

Tại sao lại ồn ào?

Câu chuyện này được xây dựng để làm cho nó trông giống như nhà thống kê thường xuyên quấy khóc vì những điều ngớ ngẩn mà không có lý do. Thành thật mà nói, ai quan tâm đến những phản tác dụng ngớ ngẩn này? Câu trả lời, tất nhiên, là mọi người nên quan tâm. Các lĩnh vực khoa học cực kỳ quan trọng hiện đang bị khủng hoảng sao chép nghiêm trọng , điều này cho thấy tần suất của những khám phá sai lầm cao hơn nhiều so với dự kiến ​​trong các tài liệu khoa học. Một trong những động lực của cuộc khủng hoảng này, mặc dù không phải là duy nhất bằng mọi cách , là sự gia tăng của hack , đó là khi các nhà nghiên cứu chơi với nhiều biến thể của một mô hình, kiểm soát các biến khác nhau, cho đến khi chúng có ý nghĩa.

P-hack đã bị phỉ báng rộng rãi trên các phương tiện truyền thông khoa học phổ biến và thế giới blog, nhưng ít người thực sự hiểu điều gì sai về hack-p và tại sao. Trái với ý kiến ​​thống kê phổ biến, không có gì sai khi xem dữ liệu của bạn trước, trong và sau quá trình lập mô hình. Điều sai là không báo cáo các phân tích thăm dò và làm thế nào chúng ảnh hưởng đến quá trình nghiên cứu. Chỉ bằng cách xem xét toàn bộ quá trình, chúng ta thậm chí có thể xác định mô hình ngẫu nhiên nào là đại diện cho quá trình đó và phân tích thường xuyên nào phù hợp với mô hình đó, nếu có.

Cho rằng một phân tích thường xuyên nhất định là phù hợp là một yêu cầu rất nghiêm trọng. Đưa ra tuyên bố đó ngụ ý rằng bạn đang ràng buộc bản thân với kỷ luật của quy trình ngẫu nhiên mà bạn đã chọn, đòi hỏi toàn bộ hệ thống phản tác dụng về những gì bạn sẽ làm trong các tình huống khác nhau. Bạn phải thực sự tuân thủ hệ thống đó để đảm bảo thường xuyên áp dụng cho bạn. Rất ít nhà nghiên cứu, đặc biệt là những người trong các lĩnh vực nhấn mạnh thăm dò kết thúc mở, tuân thủ hệ thống và họ không báo cáo sai lệch của họ một cách nghiêm túc; đó là lý do tại sao bây giờ chúng ta có một cuộc khủng hoảng sao chép trên tay. (Một số nhà nghiên cứu đáng kính đã lập luận rằng kỳ vọng này là không thực tế, một vị trí tôi đồng cảm, nhưng điều đó đang vượt ra ngoài phạm vi của bài đăng này.)

Có vẻ như không công bằng khi chúng tôi chỉ trích các bài báo được xuất bản dựa trên yêu cầu về những gì họ sẽ làm nếu dữ liệu khác đi. Nhưng đây là bản chất (hơi nghịch lý) của lý luận thường xuyên: nếu bạn chấp nhận khái niệm giá trị p, bạn phải tôn trọng tính hợp pháp của mô hình hóa những gì sẽ được thực hiện theo dữ liệu thay thế. (Gelman & Loken, 2013)

Trong các nghiên cứu tương đối đơn giản và / hoặc tiêu chuẩn hóa, chẳng hạn như các thử nghiệm lâm sàng, chúng tôi có thể điều chỉnh cho những thứ như so sánh nhiều hoặc so sánh liên tục và duy trì tỷ lệ lỗi lý thuyết; trong các nghiên cứu phức tạp và thăm dò hơn, một mô hình thường xuyên có thể không thể áp dụng được vì nhà nghiên cứu có thể không nhận thức đầy đủ về tất cả các quyết định được đưa ra , chứ đừng nói đến việc ghi lại và trình bày chúng một cách rõ ràng. Trong những trường hợp như vậy, nhà nghiên cứu nên (1) trung thực và thẳng thắn về những gì đã được thực hiện; (2) trình bày các giá trị p với sự cảnh báo mạnh mẽ hoặc hoàn toàn không; (3) xem xét trình bày các dòng bằng chứng khác, chẳng hạn như tính hợp lý trước của giả thuyết hoặc nghiên cứu sao chép tiếp theo.


Đây có vẻ là một câu trả lời hay nhưng tôi sẽ cần phải tiêu hóa nó vào ngày mai.
Praxeolitic

bằng cách mô tả vấn đề như đã nêu, có vẻ như một kỹ sư đang tuyên bố rằng anh ta luôn luôn thực hiện lựa chọn số 2 của bạn
Aksakal

Có lẽ, nhưng anh không nói rõ ràng như vậy. Lỗi lớn có thể được thực hiện khi mọi người đoán những gì người khác đang nghĩ thay vì thảo luận rõ ràng.
Paul

Trong các khóa học thống kê ứng dụng, quá ít sự nhấn mạnh được dành cho tính hình thức của ý nghĩa của việc ước tính các tham số. Giả sử chúng ta dự định tung đồng xu và ghi lại tần suất của những người đứng đầu. Đi vào, chúng tôi ngầm giả định phân phối thực tế là Bernoulli với p = q = 0,5. Sau 1000 lần lật, chúng tôi tự hỏi mình "khả năng đây là một đồng tiền công bằng" bằng cách so sánh thực tế với lý thuyết / giả định. Nhưng trong nhiều khoa học, mọi người cho rằng mọi thứ thường được phân phối, sau đó sử dụng các bài kiểm tra t. Nhưng những điều đó là vô nghĩa nếu lợi nhuận không được phân phối bình thường.
eSurfsnake

1

Có vẻ như một ngụy biện logic. Cho dù đồng hồ 1000 volt có hoạt động hay không, kỹ sư nói "nếu có số đọc nào trên 100, tôi sẽ sử dụng đồng hồ kia". Nhưng làm thế nào anh ta biết rằng điện áp> 100 mà không sử dụng đồng hồ 1000 volt?

Tôi không nghĩ câu đố này đủ công thức để đưa ra một câu hỏi triết học hữu ích. Thực tế, tôi đồng ý với câu trả lời rằng điều đúng đắn là tạo ra một biểu đồ và xem nếu nó trông bị cắt ngắn.

Nhưng, trong mọi trường hợp, không có gì trong câu hỏi liên quan đến các vấn đề quan trọng, như: (1) phân phối bài đọc đã biết (hoặc nghi ngờ) là gì, và tại sao? Có một số lý do để tin rằng chúng được phân phối bình thường? (2) Nếu câu hỏi đó không được trả lời, thì khoảng thời gian tin cậy đã được ước tính như thế nào?

Để đưa nó đến mức cực đoan, một số 'điện áp' đang được đo. Giả sử nguồn cung cấp điện không thể cung cấp hơn 100 volt. Điều đó có đúng không, có lẽ không thể có bất kỳ phép đo nào trên 100 volt, vì vậy đồng hồ đo không liên quan.

Có rất nhiều điều nữa - về mặt linh mục, các ràng buộc, v.v. - đi vào ước tính và tương tự hơn bao gồm các câu hỏi. Điều này không giống như nghịch lý 'Monty Hall', rõ ràng và sạch sẽ.


1
Điểm chính của câu chuyện là phê phán những diễn giải về xác suất dựa vào các sự kiện giả định bằng cách mở rộng những diễn giải này đến một thái cực vô lý. Các vấn đề bạn đề cập là bên cạnh điểm. Giả sử kỹ sư đã biết thay đổi vôn kế nếu cần (ví dụ: đọc số "100") và nhà thống kê có lý do khác để sử dụng phương pháp mà anh ta đang sử dụng (ví dụ như anh ta đã biết rằng phân phối bình thường là tốt mô hình cho các bài đọc này).
Praxeolitic
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.