Nghịch lý thống kê thú vị nhất


Câu trả lời:


100

Đó không phải là một nghịch lý mỗi lần , nhưng đó là một nhận xét khó hiểu, ít nhất là lúc đầu.

Trong Thế chiến II, Abraham Wald là một nhà thống kê cho chính phủ Hoa Kỳ. Anh nhìn vào những chiếc máy bay ném bom trở về từ các nhiệm vụ và phân tích mô hình của "vết thương" của viên đạn trên các máy bay. Ông đề nghị Hải quân tăng cường các khu vực nơi các máy bay không có thiệt hại.

Tại sao? Chúng tôi có hiệu ứng lựa chọn trong công việc. Mẫu này cho thấy rằng thiệt hại gây ra trong các khu vực quan sát có thể được chống lại. Một trong hai chiếc máy bay không bao giờ bị bắn trúng ở những khu vực hoang sơ, một đề xuất không thể xảy ra hoặc tấn công vào những bộ phận đó đều gây chết người. Chúng tôi quan tâm đến những chiếc máy bay đã đi xuống, không chỉ những chiếc đã quay trở lại. Những người bị ngã có khả năng bị tấn công ở một nơi không bị ảnh hưởng đến những người sống sót.

Đối với các bản sao của bản ghi nhớ ban đầu của mình, xem ở đây . Đối với một ứng dụng hiện đại hơn, xem bài đăng trên blog Khoa học Mỹ này .

Mở rộng theo một chủ đề, theo bài đăng trên blog này , trong Thế chiến I, việc giới thiệu một chiếc mũ bảo hiểm bằng thiếc dẫn đến nhiều vết thương ở đầu hơn một chiếc mũ vải tiêu chuẩn. Là mũ bảo hiểm mới tồi tệ hơn cho binh lính? Không; mặc dù thương tích cao hơn, tử vong thấp hơn.


3
Tôi nhớ rằng đã đọc điều này ở một vài nơi trước đây, nhưng tôi không có tài liệu tham khảo trong tay. Có một cái mà bạn có thể thêm?
Đức hồng y

1
@cardinal, tôi tìm thấy một số bản ghi nhớ cho bạn. Có vẻ như nghiên cứu này thực sự dành cho Hoa Kỳ
Charlie

Ở đâu đó, có một sự phân tán của một chiếc máy bay giả định cho ví dụ này, nhưng tôi không thể tìm thấy nó.
Fomite

+1. Đây là một ví dụ về Xu hướng sống sót , có lẽ là bất lợi nhất trong các thành kiến. Tôi mở rộng về nó trong một câu trả lời.
Vách đá AB

47

Một ví dụ khác là sai lầm sinh thái .

Ví dụ
Giả sử rằng chúng tôi tìm kiếm mối quan hệ giữa bỏ phiếu và thu nhập bằng cách hồi quy chia sẻ phiếu bầu cho Thượng nghị sĩ Obama khi đó về thu nhập trung bình của một tiểu bang (tính bằng nghìn). Chúng tôi có một đánh chặn khoảng 20 và hệ số dốc là 0,61.

Nhiều người sẽ giải thích kết quả này khi nói rằng những người có thu nhập cao hơn có nhiều khả năng bỏ phiếu cho đảng Dân chủ; Thật vậy, sách báo phổ biến đã đưa ra lập luận này.

Nhưng chờ đã, tôi nghĩ rằng người giàu có nhiều khả năng là đảng Cộng hòa? Họ đang.

Điều mà hồi quy này thực sự nói với chúng ta là các quốc gia giàu có nhiều khả năng bỏ phiếu cho đảng Dân chủ và các quốc gia nghèo có nhiều khả năng bỏ phiếu cho đảng Cộng hòa. Trong một quốc gia nhất định , người giàu có nhiều khả năng bỏ phiếu cho đảng Cộng hòa và người nghèo có nhiều khả năng bỏ phiếu cho đảng Dân chủ. Xem công việc của Andrew Gelman và các đồng tác giả .

Nếu không có giả định nào khác, chúng tôi không thể sử dụng dữ liệu cấp độ nhóm (tổng hợp) để suy luận về hành vi cấp độ cá nhân. Đây là sai lầm sinh thái. Dữ liệu cấp độ nhóm chỉ có thể cho chúng tôi biết về hành vi cấp độ nhóm.

Để thực hiện bước nhảy vọt đến các suy luận ở cấp độ cá nhân, chúng ta cần giả định hằng số . Ở đây, sự lựa chọn bỏ phiếu của các cá nhân hầu hết không thay đổi một cách có hệ thống với thu nhập trung bình của một tiểu bang; một người kiếm được $ X ở trạng thái giàu có cũng có khả năng bỏ phiếu cho đảng Dân chủ như người kiếm được $ X ở trạng thái nghèo. Nhưng người dân ở Connecticut, ở tất cả các mức thu nhập, có nhiều khả năng bỏ phiếu cho một đảng Dân chủ hơn những người ở Mississippi có cùng mức thu nhập đó . Do đó, giả định tính nhất quán bị vi phạm và chúng tôi dẫn đến kết luận sai (bị đánh lừa bởi sai lệch tổng hợp ).

Chủ đề này là một sở thích thường xuyên của David Freedman quá cố ; xem bài báo này chẳng hạn Trong bài báo đó, Freedman cung cấp một phương tiện để ràng buộc xác suất cấp độ cá nhân bằng cách sử dụng dữ liệu nhóm.

So sánh với nghịch lý của Simpson
Ở những nơi khác trong CW này, @Michelle đề xuất nghịch lý của Simpson là một ví dụ điển hình, thực tế là như vậy. Nghịch lý của Simpson và sai lầm sinh thái có liên quan chặt chẽ, nhưng khác biệt. Hai ví dụ khác nhau về bản chất của dữ liệu được đưa ra và phân tích được sử dụng.

Công thức chuẩn của nghịch lý Simpson là một bảng hai chiều. Trong ví dụ của chúng tôi ở đây, giả sử rằng chúng tôi có dữ liệu cá nhân và chúng tôi phân loại mỗi cá nhân là thu nhập cao hay thấp. Chúng tôi sẽ nhận được một bảng dự phòng 2x2 theo thu nhập của tổng số. Chúng ta sẽ thấy rằng một tỷ lệ cao hơn của những người có thu nhập cao đã bỏ phiếu cho Đảng Dân chủ so với tỷ lệ của những người có thu nhập thấp. Chúng tôi đã tạo một bảng dự phòng cho mỗi trạng thái, tuy nhiên, chúng tôi sẽ thấy mô hình ngược lại.

Trong sai lầm sinh thái, chúng ta không thu hẹp thu nhập thành một biến nhị phân (hoặc có lẽ là đa biến). Để có được cấp nhà nước, chúng tôi lấy thu nhập trung bình (hoặc trung bình) và chia sẻ phiếu bầu của nhà nước và thực hiện hồi quy và thấy rằng các quốc gia có thu nhập cao hơn có nhiều khả năng bỏ phiếu cho đảng Dân chủ. Nếu chúng tôi giữ dữ liệu cấp độ cá nhân và chạy hồi quy riêng theo trạng thái, chúng tôi sẽ tìm thấy hiệu ứng ngược lại.

Tóm lại, sự khác biệt là:

  • Phương thức phân tích : Chúng ta có thể nói, theo các kỹ năng chuẩn bị SAT của chúng ta, rằng nghịch lý của Simpson là các bảng dự phòng vì sai lầm sinh thái là các hệ số tương quan và hồi quy.
  • Mức độ tổng hợp / tính chất của dữ liệu : Trong khi ví dụ nghịch lý của Simpson so sánh hai con số (tỷ lệ phiếu bầu của đảng Dân chủ giữa các cá nhân có thu nhập cao so với các cá nhân có thu nhập thấp), sai lầm sinh thái sử dụng 50 điểm dữ liệu ( nghĩa là mỗi bang) để tính hệ số tương quan . Để có được câu chuyện đầy đủ từ ví dụ nghịch lý của Simpson, chúng ta chỉ cần hai số từ mỗi năm mươi trạng thái (100 số), trong khi trong trường hợp sai lầm sinh thái, chúng ta cần dữ liệu cấp độ cá nhân (hoặc nếu không được cung cấp tương quan cấp nhà nước / độ dốc hồi quy).

Quan sát chung
@NeilG nhận xét rằng điều này dường như đang nói rằng bạn không thể có bất kỳ lựa chọn nào về các vấn đề sai lệch biến thiên / không quan sát được trong hồi quy của bạn. Đúng rồi! Ít nhất là trong bối cảnh hồi quy, tôi nghĩ rằng gần như bất kỳ "nghịch lý" nào chỉ là một trường hợp đặc biệt của các biến thiên bị bỏ qua.

Lựa chọn thiên vị (xem phản hồi khác của tôi trên CW này) có thể được kiểm soát bằng cách bao gồm các biến điều khiển lựa chọn. Tất nhiên, các biến này thường không được quan sát, dẫn đến vấn đề / nghịch lý. Hồi quy giả (phản ứng khác của tôi) có thể được khắc phục bằng cách thêm xu hướng thời gian. Về cơ bản, những trường hợp này nói rằng bạn có đủ dữ liệu, nhưng cần nhiều dự đoán hơn.

Trong trường hợp sai lầm sinh thái, đó là sự thật, bạn cần nhiều người dự đoán hơn (ở đây, độ dốc và trạng thái cụ thể của nhà nước). Nhưng bạn cần quan sát nhiều hơn, cá nhân-, thay vì quan sát ở cấp độ nhóm, cũng như để ước tính các mối quan hệ này.

(Ngẫu nhiên, nếu bạn có lựa chọn cực đoan trong đó biến lựa chọn hoàn toàn phân chia điều trị và kiểm soát, như trong ví dụ WWII mà tôi đưa ra, bạn cũng có thể cần thêm dữ liệu để ước tính hồi quy; ở đó, các mặt phẳng bị giảm.)


Làm thế nào có thể chính thức hóa giả định tính nhất quán ? Nghe có vẻ như giả sử rằng không có yếu tố gây nhiễu (nguyên nhân) bị thiếu trong mô hình của một người.
Neil G

2
Ngoài ra, ví dụ được cung cấp cũng là một ví dụ về nghịch lý của Simpson vì điều kiện đối với nhà nước đảo ngược mối tương quan giữa thu nhập và đảng. Khi nào sai lầm sinh thái khác với nghịch lý của Simpson?
Neil G

Tôi cũng sẽ chỉ ra rằng việc đưa ra những suy luận về các mối quan hệ hoặc mối quan hệ cấp độ nhóm dựa trên các mối quan hệ cấp độ cá nhân hoặc mối quan hệ nhân quả cũng chỉ là một điều xấu: sai lầm nguyên tử, được nói rõ ở đây: [Diez-Roux, 1998] Diez-Roux, AV (1998). Đưa bối cảnh trở lại vào dịch tễ học: các biến và sai lầm trong phân tích đa cấp độ. Tạp chí Sức khỏe Cộng đồng Hoa Kỳ , 88 (2): 216 Từ 222.
Alexis

43

Đóng góp của tôi là nghịch lý của Simpson vì:

  • Những lý do cho nghịch lý không trực quan với nhiều người, vì vậy
  • thật khó để giải thích tại sao những phát hiện này lại giống như cách họ đặt người dân bằng tiếng Anh.

    tl; dr phiên bản nghịch lý: ý nghĩa thống kê của một kết quả dường như khác nhau tùy thuộc vào cách dữ liệu được phân vùng. Nguyên nhân xuất hiện thường là do một biến gây nhiễu.

Một phác thảo tốt về nghịch lý là ở đây .


4
+1, tôi nghĩ về việc đặt bản thân mình. Đối với những người quan tâm, nghịch lý của Simpson cũng được thảo luận trên CV tại đây: stats.stackexchange.com/questions/21896
gung

3
Có một số ví dụ về nghịch lý của Simpson được đề cập tại câu hỏi toán học này .
Mike Spivey

32

Không có nghịch lý trong thống kê, chỉ có những câu đố đang chờ được giải.

x2x0.5x1.25x1.25


E[B|A=a]E[B|A=a]=a=2ap+a2(1p)p=Pr(A<B|A=a)pp=13E[A|B=b]=b=2bq+b2(1q)q=Pr(B<A|B=b)q=13

6
Tôi đã thuyết trình về nghịch lý này trong đó trò chơi thực sự được chơi với khán giả, với số tiền thực sự (thường là một tấm séc cho tổ chức chủ nhà). Nó thu hút sự chú ý của họ ...
whuber

Hãy nghĩ rằng tôi đã giải quyết điều này ... Nghịch lý được giải quyết khi chúng tôi nhận ra hai nghịch lý phong bì đề xuất không chính xác 1) có ba đại lượng có thể: 0,5x, x và 2x, khi chỉ có hai đại lượng trong phong bì (giả sử x và 2x) và 2) mà chúng tôi biết trước là phong bì bên trái chứa x (trong trường hợp đó, phong bì bên phải sẽ chứa 2x với độ chắc chắn 100%!). Cho các giá trị có thể của x và 2x được gán ngẫu nhiên cho hai phong bì, câu trả lời đúng là giá trị mong đợi là 1,5 lần cho dù tôi chọn phong bì trái hay phong bì phải.
RobertF

3
@RobertF Tình hình phức tạp hơn. Giả sử rằng người ta biết rằng tiền được phân phối trong hai phong bì như sau. Ném một đồng xu công bằng cho đến khi nó hạ cánh và đếm số lần n của đồng xu được tung. Đặt 2 ^ n đô la trong một phong bì và 2 ^ (n + 1) trong phong bì khác. Bây giờ bạn có thể thực hiện các tính toán kỳ vọng rất chính xác và vẫn giữ được nghịch lý.
Ittay Weiss

31

Các Sleeping Beauty vấn đề .

Đây là một phát minh gần đây; nó đã được thảo luận rất nhiều trong một tập nhỏ các tạp chí triết học trong thập kỷ qua. Có những người ủng hộ trung thành cho hai câu trả lời rất khác nhau ("Halfers" và "Thirder"). Nó đặt ra câu hỏi về bản chất của niềm tin, xác suất và điều hòa, và đã khiến mọi người đưa ra một cách giải thích "nhiều thế giới" cơ học lượng tử (trong số những điều kỳ quái khác).

Đây là tuyên bố từ Wikipedia:

Người tình ngủ làm đẹp trải qua các thí nghiệm sau đây và được cho biết tất cả các chi tiết sau đây. Chủ nhật cô được đưa vào giấc ngủ. Một đồng xu công bằng sau đó được tung ra để xác định quy trình thử nghiệm nào được thực hiện. Nếu đồng xu xuất hiện, Người đẹp được đánh thức và phỏng vấn vào thứ Hai, và sau đó thử nghiệm kết thúc. Nếu đồng xu lên đuôi, cô ấy được đánh thức và phỏng vấn vào thứ Hai và thứ Ba. Nhưng khi cô được đưa vào giấc ngủ trở lại vào thứ Hai, cô được tiêm một liều thuốc gây mất trí nhớ để đảm bảo cô không thể nhớ được sự thức tỉnh trước đó của mình. Trong trường hợp này, thí nghiệm kết thúc sau khi cô được phỏng vấn vào thứ ba.

Bất cứ khi nào Người đẹp ngủ được đánh thức và phỏng vấn, cô đều được hỏi, "Sự tín nhiệm của bạn bây giờ là gì đối với đề xuất rằng đồng xu rơi xuống đầu?"

Vị trí của Thirder là SB sẽ trả lời "1/3" (đây là cách tính Định lý đơn giản của Bayes) và vị trí Halfer là cô ấy nên nói "1/2" (vì rõ ràng đó là xác suất chính xác cho một đồng tiền công bằng! ). IMHO, toàn bộ cuộc tranh luận dựa trên sự hiểu biết hạn chế về xác suất, nhưng đó không phải là toàn bộ vấn đề khám phá những nghịch lý rõ ràng sao?

Hoàng tử Florimond tìm người đẹp ngủ trong rừng

(Minh họa từ Dự án Gutenberg .)


Mặc dù đây không phải là nơi để cố gắng giải quyết các nghịch lý - chỉ nêu ra - tôi không muốn để mọi người bị treo và tôi chắc chắn rằng hầu hết độc giả của trang này không muốn lội qua những lời giải thích triết học. Chúng ta có thể mách nước từ ET Jaynes , người thay thế câu hỏi, làm thế nào chúng ta có thể xây dựng một mô hình toán học theo ý nghĩa thông thường của con người, đó là một thứ gì đó chúng ta cần để suy nghĩ về vấn đề Người đẹp ngủ trong rừng. Điều này sẽ thực hiện lý luận hợp lý hữu ích, tuân theo các nguyên tắc được xác định rõ ràng thể hiện ý thức chung được lý tưởng hóa? Vì vậy, nếu bạn muốn, thay thế SB bằng robot suy nghĩ của Jaynes. Bạn có thể nhân bảnrobot này (thay vì quản lý một loại thuốc mất trí nhớ huyền ảo) cho phần thứ ba của thí nghiệm, từ đó tạo ra một mô hình rõ ràng về thiết lập SB có thể được phân tích rõ ràng. Mô hình hóa này trong một cách tiêu chuẩn sử dụng lý thuyết quyết định thống kê sau đó cho thấy có thực sự hai câu hỏi được hỏi ở đây ( cơ hội một đồng xu bằng vùng đất đầu? Là gìcơ hội đồng xu đã hạ cánh đầu, có điều kiện trên thực tế là bạn đã là gì người nhân bản đã được đánh thức? ). Câu trả lời là 1/2 (trong trường hợp đầu tiên) hoặc 1/3 (trong lần thứ hai, sử dụng Định lý Bayes). Không có nguyên tắc cơ học lượng tử nào được tham gia vào giải pháp này :-).


Người giới thiệu

Arntzenius, Frank (2002). Những phản ánh về Người đẹp ngủ trong rừng . Phân tích 62.1 trang 53-62. Elga, Adam (2000). Niềm tin tự định vị và vấn đề Người đẹp ngủ trong rừng. Phân tích 60 trang 143-7.

Franceschi, Paul (2005). Người đẹp ngủ trong rừng và vấn đề giảm thế giới . Bản in.

Groisman, Berry (2007). Sự kết thúc của cơn ác mộng của Người đẹp ngủ trong rừng .

Lewis, D (2001). Người đẹp ngủ trong rừng: trả lời Elga . Phân tích 61.3 trang 171-6.

Papineau, DavidVictor Dura-Vila (2008). Một người thừa kế và một người Everettian: một câu trả lời cho 'Người đẹp ngủ lượng tử' của Lewis .

Pust, Joel (2008). Horgan về Người đẹp ngủ trong rừng . Synthese 160 trang 97-101.

Vineberg, Susan ( nhấp nhô, có lẽ 2003). Câu chuyện cảnh báo của người đẹp .

Tất cả có thể được tìm thấy (hoặc ít nhất là đã được tìm thấy vài năm trước) trên Web.


1
Bạn có nghĩ rằng nó hiệu quả như nhau để xây dựng giải pháp theo "đơn vị cơ sở" không? Ý tôi là, bạn phải xem xét đơn vị cơ sở là người, hay cuộc phỏng vấn. 1/2 người sẽ có một cái đầu, nhưng 1/3 cuộc phỏng vấn sẽ. Sau đó, để chọn đơn vị cơ sở của chúng tôi, chúng tôi có thể xem lại câu hỏi và cụm từ là "cơ hội mà cuộc phỏng vấn này được kết hợp với kết quả 'đầu' là gì?"
Jonathan

1
SB không biết đã có bao nhiêu cuộc phỏng vấn và câu hỏi là về đánh giá xác suất của cô ấy , chứ không phải đánh giá của người thử nghiệm. Từ quan điểm của cô, số lượng các cuộc phỏng vấn không thể được xác định.
whuber

2
Tôi nghĩ bạn nên đọc các lập luận trong tài liệu trước, Aaron. (Tôi thú nhận rằng tôi là một kẻ lừa đảo, nhưng tôi nghĩ rằng những kẻ nửa vời sẽ không thấy lý do của bạn thuyết phục. Ít nhất, bạn cần cho họ thấy lý do tại sao cuộc tranh luận của họ bị sai sót.)
whuber

1
Quan điểm công bằng, @whuber, giờ tôi đã có một cái nhìn sâu hơn về tài liệu. Tôi đang đọc Người đẹp ngủ trong rừng của Ellis : trả lời Elga . Đó là câu này làm tôi lo lắng, ở đầu phần 4. Lập luận của tôi '. "Chỉ bằng chứng mới có liên quan, tập trung hoặc không tập trung, tạo ra một sự thay đổi trong uy tín". Tôi sẽ nghĩ xa hơn và có thể viết blog về nó một lần nữa. Tôi đã có một cuộc thảo luận dài với bảy nghiên cứu sinh khác về việc này!
Aaron McDaid

1
Người đẹp ngủ có được phép nhìn vào lịch khi thức dậy không? Nếu thứ hai, cô nên trả lời P (X = head) = 0,5. Nếu thứ ba, thì P (X = head) = 0.
RobertF

25

Các St.Petersburg nghịch lý , mà làm cho bạn suy nghĩ khác biệt về khái niệm và ý nghĩa của giá trị kỳ vọng . Trực giác (chủ yếu dành cho những người nền tảng về thống kê) và các tính toán đang cho kết quả khác nhau.


5
X1,X2,nX¯nN(0,1)Var(nX¯n)17

@cardinal Bất kỳ cơ hội nào bạn có thể đăng một số chi tiết về điều này như một câu trả lời riêng biệt?
Cá bạc

Xif(n)fVar(nX¯n)

Xif(i)XiVar(nX¯n)=1ni=1nf(i)f(i)Var(nX¯n)

22

Các Jeffreys-Lindley nghịch lý , trong đó cho thấy rằng dưới một số trường hợp mặc định các phương pháp frequentist và Bayesian thử nghiệm giả thuyết có thể đưa ra câu trả lời hoàn toàn trái ngược nhau. Nó thực sự buộc người dùng phải suy nghĩ chính xác những hình thức kiểm tra này có ý nghĩa gì, và xem xét liệu đó có phải là những gì thực sự muốn. Đối với một ví dụ gần đây xem cuộc thảo luận này .


20

Có ngụy biện hai cô gái nổi tiếng:

Trong một gia đình có hai con, cơ hội nào, nếu một trong hai đứa con là con gái , cả hai đứa con đều là con gái?

Hầu hết mọi người trực giác nói 1/2, nhưng câu trả lời là 1/3. Vấn đề, về cơ bản, là việc thống nhất chọn "một cô gái, từ tất cả các cô gái có một anh chị em" một cách ngẫu nhiên không giống như chọn thống nhất "một gia đình, từ tất cả các gia đình có hai con và ít nhất một cô gái".


Cái này đủ đơn giản để kết hợp với trực giác, một khi bạn hiểu nó, nhưng có những phiên bản phức tạp hơn khó hiểu hơn:

Trong một gia đình có hai con, cơ hội là gì, nếu một trong những đứa trẻ là con trai sinh vào thứ ba , cả hai đứa trẻ đều là con trai? (Trả lời: 13/27)

Trong một gia đình có hai con, cơ hội nào, nếu một trong những đứa trẻ là một cô gái tên Florida , cả hai đứa trẻ đều là con gái? (Trả lời: rất gần với 1/2, giả sử "Florida" là một cái tên cực kỳ hiếm)


Thông tin thêm về tất cả các câu đố có thể được tìm thấy trong câu trả lời này .
(Ngoài ra: Thông tin thêm về cậu bé sinh vào thứ ba , thông tin thêm về cô gái tên Florida )


3
Câu trả lời là 1/3không 2/3chắc chắn? Chỉ có một trong sốGB, BG, GG
Martin Smith

3
Bài báo "cậu bé sinh vào thứ ba" là tốt. Điểm chính của nó, được thực hiện rất rõ ràng ("vấn đề chưa được xác định rõ"), là câu trả lời phụ thuộc vào mô hình xác suất mà người ta áp dụng. Nói rằng "câu trả lời" là 13/27 là sai lệch (tốt nhất).
whuber

@Martin: hehe whoops :)
BlueRaja - Daniel Pflughoeft

2
Lý do những vấn đề này rất khó hiểu là câu hỏi được đặt ra để rất khó xác định không gian giả thuyết là gì. Điều này đến lượt nó làm cho nó trở nên khó hiểu về những trường hợp "có khả năng như nhau" thực sự là gì (và do đó những gì nên được tính).
xác suất

1
p(B1G2)=p(G1B2)p(G1G2)2p(B1G2)+p(G1G2)

12

Xin lỗi, nhưng tôi không thể tự giúp mình (tôi cũng vậy, tôi thích những nghịch lý thống kê!).

Một lần nữa, có lẽ không phải là một nghịch lý trên mỗi se và một ví dụ khác về sai lệch biến thiên.

Quan hệ nhân quả / hồi quy giả
Bất kỳ biến nào có xu hướng thời gian sẽ tương quan với một biến khác cũng có xu hướng thời gian. Ví dụ, cân nặng của tôi từ sơ sinh đến 27 tuổi sẽ tương quan cao với cân nặng của bạn từ sơ sinh đến 27 tuổi. Rõ ràng, cân nặng của tôi không phải do cân nặng của bạn gây ra . Nếu đúng như vậy, tôi yêu cầu bạn đến phòng tập thể dục thường xuyên hơn, làm ơn.

xtyt

xt=α0+α1t+ϵt andyt=β0+β1t+ηt.

yt=γ0+γ1xt+νt
xtγ1

Khi bạn đang thực hiện phân tích chuỗi thời gian, bạn cần chắc chắn rằng các biến của bạn đứng yên hoặc bạn sẽ nhận được các kết quả nhân quả giả này.

(Tôi hoàn toàn thừa nhận rằng tôi đã ăn cắp câu trả lời của chính mình ở đây .)


11

Một trong những mục yêu thích của tôi là vấn đề Monty Hall. Tôi nhớ đã học về nó trong một lớp thống kê tiểu học, nói với bố tôi, vì cả hai chúng tôi đều không tin tôi đã mô phỏng các số ngẫu nhiên và chúng tôi đã thử vấn đề. Thật ngạc nhiên, đó là sự thật.

Về cơ bản vấn đề nói rằng nếu bạn có ba cửa trong một chương trình trò chơi, thì đằng sau đó là một giải thưởng và hai cửa còn lại không có gì, nếu bạn chọn một cánh cửa và sau đó được thông báo về hai cánh cửa còn lại, một trong hai không phải là một cửa giải thưởng và được phép chuyển đổi lựa chọn của bạn nếu bạn đã chọn, bạn nên chuyển cửa hiện tại sang cửa còn lại.

Đây cũng là liên kết đến một mô phỏng R: LINK


7

Nghịch lý của Parrondo:

Từ wikipdedia : "Nghịch lý của Parrondo, một nghịch lý trong lý thuyết trò chơi, đã được mô tả là: Một sự kết hợp của các chiến lược thua cuộc trở thành một chiến lược chiến thắng. Nó được đặt theo tên của người tạo ra nó, Juan Parrondo, người đã phát hiện ra nghịch lý vào năm 1996. Một mô tả dễ giải thích hơn là :

Có tồn tại các cặp trò chơi, mỗi trò chơi có xác suất thua cao hơn chiến thắng, nhờ đó có thể xây dựng chiến lược chiến thắng bằng cách chơi xen kẽ các trò chơi.

Parrondo đã nghĩ ra nghịch lý liên quan đến phân tích của ông về chiếc ratchet Brown, một thí nghiệm suy nghĩ về một cỗ máy có thể trích xuất năng lượng từ các chuyển động nhiệt ngẫu nhiên phổ biến của nhà vật lý Richard Feynman. Tuy nhiên, nghịch lý biến mất khi được phân tích nghiêm ngặt. "

PB(W)=3/4+ϵPA(W)=1/10+ϵ

Ngoài ra còn có một nghịch lý liên quan gần đây gọi là " hỗn hợp allison ", cho thấy chúng ta có thể lấy hai chuỗi IID và không tương quan, và ngẫu nhiên xáo trộn chúng sao cho các hỗn hợp nhất định có thể tạo ra một chuỗi kết quả với sự tự tương quan khác không.


6

Thật thú vị khi Vấn đề Hai đứa trẻ và Vấn đề Hội trường Monty thường được đề cập cùng nhau trong bối cảnh nghịch lý. Cả hai đều minh họa một nghịch lý rõ ràng được minh họa lần đầu tiên vào năm 1889, được gọi là Nghịch lý Box của Bertrand, có thể được khái quát hóa để thể hiện một trong hai. Tôi thấy đó là một "nghịch lý" thú vị nhất bởi vì những người rất có học thức, rất thông minh này trả lời hai vấn đề đó theo những cách ngược lại đối với nghịch lý này. Nó cũng so sánh với một nguyên tắc được sử dụng trong các trò chơi bài như cây cầu, được gọi là Nguyên tắc lựa chọn hạn chế, trong đó độ phân giải được kiểm tra theo thời gian.

Giả sử bạn có một mục được chọn ngẫu nhiên mà tôi sẽ gọi là "hộp". Mỗi hộp có thể có ít nhất một trong hai thuộc tính đối xứng, nhưng một số có cả hai. Tôi sẽ gọi các thuộc tính là "vàng" và "bạc." Xác suất mà một hộp chỉ là vàng là P; và vì các tính chất là đối xứng, P cũng là xác suất để một hộp chỉ có màu bạc. Điều đó làm cho xác suất một hộp chỉ có một thuộc tính 2P và xác suất nó có cả 1-2P.

Nếu bạn được bảo rằng một hộp là vàng, nhưng không phải là bạc, bạn có thể muốn nói rằng cơ hội chỉ là vàng là P / (P + (1-2P)) = P / (1-P). Nhưng sau đó, bạn sẽ phải nêu xác suất tương tự cho hộp một màu nếu bạn được bảo là màu bạc. Và nếu xác suất này là P / (1-P) bất cứ khi nào bạn được thông báo chỉ một màu, thì đó phải là P / (1-P) ngay cả khi bạn không nói màu. Tuy nhiên, chúng tôi biết đó là 2P từ đoạn cuối cùng.

Nghịch lý rõ ràng này được giải quyết bằng cách lưu ý rằng nếu một hộp chỉ có một màu, không có sự mơ hồ về màu sắc bạn sẽ được nói. Nhưng nếu nó có hai, có một sự lựa chọn ngụ ý. Bạn phải biết lựa chọn đó được đưa ra như thế nào để trả lời câu hỏi, và đó là gốc rễ của nghịch lý rõ ràng. Nếu bạn không nói, bạn chỉ có thể giả sử một màu được chọn ngẫu nhiên, làm cho câu trả lời P / (P + (1-2P) / 2) = 2P. Nếu bạn khẳng định P / (1-P) là câu trả lời, bạn hoàn toàn cho rằng không có khả năng màu nào khác có thể được đề cập trừ khi đó là màu duy nhất.

Trong Bài toán Monty Hall, sự tương tự cho màu sắc không trực quan lắm, nhưng P = 1/3. Câu trả lời dựa trên hai cánh cửa chưa mở ban đầu có khả năng giải thưởng như nhau, giả sử Monty Hall được yêu cầu mở cánh cửa mà anh ta đã làm, ngay cả khi anh ta có một lựa chọn. Câu trả lời đó là P / (1-P) = 1/2. Câu trả lời cho phép anh ta chọn ngẫu nhiên là 2P = 2/3 cho xác suất chuyển đổi sẽ thắng.

Trong Bài toán hai đứa trẻ, màu sắc trong sự tương tự của tôi so sánh khá độc đáo với giới tính. Với bốn trường hợp, P = 1/4. Để trả lời câu hỏi, chúng ta cần biết làm thế nào xác định rằng có một cô gái trong gia đình. Nếu có thể tìm hiểu về một cậu bé trong gia đình bằng phương pháp đó, thì câu trả lời là 2P = 1/2, không phải P / (1-P) = 1/3. Sẽ phức tạp hơn một chút nếu bạn xem xét tên Florida, hoặc "sinh vào thứ ba", nhưng kết quả là như nhau. Câu trả lời là chính xác 1/2 nếu có lựa chọn và hầu hết các phát biểu của vấn đề đều hàm ý lựa chọn đó. Và lý do "thay đổi" từ 1/3 đến 13/27, hoặc từ 1/3 thành "gần 1/2", có vẻ nghịch lý và không trực quan, là bởi vì giả định không có lựa chọn nào là không trực quan.

Trong Nguyên tắc lựa chọn hạn chế, giả sử bạn đang thiếu một số bộ thẻ tương đương - như Jack, Nữ hoàng và Vua của cùng một bộ đồ. Cơ hội bắt đầu ngay cả khi bất kỳ thẻ cụ thể nào thuộc về một đối thủ cụ thể. Nhưng sau khi một đối thủ chơi một, cơ hội của anh ta để có bất kỳ một trong những người khác bị giảm bởi vì anh ta có thể đã chơi bài đó nếu anh ta có nó.


PG=PSP22P(1P)212PPG=PS=.8PGS=1.6PGS=.6P=.5

Xin lỗi, có lẽ tôi đã không giải thích nó cố gắng ngắn gọn nhất có thể. Chữ P của tôi không phải là xác suất một hộp có màu vàng, đó là xác suất chỉ có vàng. Xác suất nó có màu vàng là 1-P. Và trong khi hai thuộc tính có tính cộng sinh, chúng không phải độc lập, do đó bạn không thể nhân các xác suất. Ngoài ra, không có hộp là "không." Bertrand đã sử dụng ba hộp với hai đồng tiền mỗi loại: vàng + vàng, vàng + bạc và bạc + bạc. Một hộp với bất kỳ số lượng tiền vàng nào là "vàng" trong khái quát của tôi.
JeffJo

+1, điều đó có ích. Bây giờ tôi thấy cụm từ "ít nhất một trong hai" và từ "chỉ", mà tôi phải đọc lướt qua.
gung

6

[0,1]x,y[0,1]P(x=y)=0xy>xy<xy>x0.5


2
[0,1]yx

2

Tôi tìm thấy một minh họa đồ họa đơn giản về sai lầm sinh thái (ở đây là nghịch lý bỏ phiếu Nhà nước / Nhà nước nghèo) giúp tôi hiểu ở mức độ trực quan tại sao chúng ta thấy sự đảo ngược của các mẫu biểu quyết khi chúng ta tổng hợp các quần thể Nhà nước:

nhập mô tả hình ảnh ở đây


3
Đây là một ví dụ hay, nhưng tôi nghĩ đây là Nghịch lý của Simpson: en.wikipedia.org/wiki/Simpson%27s_paradox
Nick

1
@Nick: ví dụ cụ thể này thực sự khác biệt với Nghịch lý của Simpson, nhưng thật khó để biết ngụy biện / nghịch lý nào áp dụng trong một tình huống cụ thể vì chúng trông giống nhau về mặt thống kê. Sự khác biệt là SP là "hiệu ứng sai" chỉ xuất hiện khi phân tích các nhóm con. Xu hướng này được hiển thị mặc dù là "hiệu ứng thực sự" chỉ xuất hiện khi phân tích các nhóm con. Trong trường hợp này, nó gợi ý rằng mặc dù thu nhập dưới dạng số thô không ảnh hưởng đến các mẫu biểu quyết trong tổng hợp, thu nhập có liên quan đến hàng xóm của bạn (tiểu bang của bạn) không ảnh hưởng đến các mẫu biểu quyết.
Jonathan

Đó là sai lầm sinh thái, được thảo luận dưới đây.
Charlie

3
@Charlie 'bên dưới' và 'ở trên' là các chức năng của bất kỳ cách nào mà người đọc trang đang sắp xếp (hoạt động / cũ nhất / phiếu bầu) và trong mọi trường hợp, thứ tự theo một số tiêu chí sắp xếp có thể thay đổi theo thời gian (bao gồm cả mặc định) . Như vậy, có lẽ tốt hơn là đề cập đến người đã đăng cuộc thảo luận mà bạn đề cập hoặc thậm chí liên kết đến nó.
Glen_b

2

Giả sử bạn có được một dữ liệu về các ca sinh trong hoàng gia của một vương quốc nào đó. Trong cây gia đình mỗi lần sinh được ghi nhận. Điều đặc biệt ở gia đình này là cha mẹ chỉ cố gắng sinh con ngay khi đứa con trai đầu tiên chào đời và sau đó không có thêm con.

Vì vậy, dữ liệu của bạn có khả năng trông giống như thế này:

G G B
B
G G B
G B
G G G G G G G G G B
etc.

Tỷ lệ bé trai và bé gái trong mẫu này sẽ phản ánh xác suất chung sinh con trai (nói 0,5)? Câu trả lời và giải thích có thể được tìm thấy trong chủ đề này .


2
Câu trả lời này đọc giống như một câu đố, không giống như một nghịch lý. Tôi có thể tưởng tượng tại sao bạn muốn đăng nó như vậy, nhưng tôi nghĩ câu trả lời này đủ điều kiện là nghịch lý và để phù hợp với chủ đề này, bạn cần phải rõ ràng hơn.
amip

2
Câu hỏi này (với các chàng trai và cô gái hoán đổi cho nhau) đã được hỏi tại stats.stackexchange.com/questions/93830 , nhận được một số lượng lớn câu trả lời - không hoàn toàn đồng ý! (Tôi đã học được điều gì đó bằng cách nghiêm túc giải quyết vấn đề và suy nghĩ về nó theo những cách ngày càng thực tế, khám phá những giả định cần thiết để làm điều đó.)
whuber

@whuber cảm ơn vì đường link! Tôi đã thêm nó vào mô tả.
Tim

2

Đây là Nghịch lý của Simpson một lần nữa nhưng 'ngược' cũng như chuyển tiếp, xuất phát từ cuốn sách mới của Judea Pearl trong suy luận nguyên nhân trong thống kê: Một mồi [^ 1]

Nghịch lý của Simpon cổ điển hoạt động như sau: xem xét việc cố gắng lựa chọn giữa hai bác sĩ. Bạn tự động chọn một trong những kết quả tốt nhất. Nhưng giả sử người có kết quả tốt nhất sẽ chọn trường hợp dễ nhất. Hồ sơ kém hơn của người khác là hậu quả của công việc khó khăn hơn.

Bây giờ bạn chọn ai? Tốt hơn để xem xét các kết quả phân tầng theo độ khó và sau đó quyết định.

Có một mặt khác của đồng tiền (một nghịch lý khác) nói rằng kết quả phân tầng cũng có thể dẫn bạn đến sự lựa chọn sai lầm.

Lần này xem xét lựa chọn sử dụng thuốc hay không. Thuốc có tác dụng phụ độc hại, nhưng cơ chế hoạt động của nó là thông qua việc hạ huyết áp. Nhìn chung, thuốc cải thiện kết quả trong dân số, nhưng khi phân tầng huyết áp sau điều trị , kết quả xấu hơn ở cả nhóm huyết áp thấp và cao. Làm thế nào điều này có thể đúng? Bởi vì chúng tôi đã vô tình phân tầng về kết quả, và trong mỗi kết quả, tất cả những gì còn lại để quan sát là tác dụng phụ độc hại.

Để làm rõ, hãy tưởng tượng loại thuốc này được thiết kế để khắc phục những trái tim tan vỡ, và nó thực hiện điều này bằng cách hạ huyết áp, và thay vì phân tầng huyết áp, chúng ta phân tầng trên những trái tim cố định. Khi thuốc hoạt động, tim đã được cố định (và huyết áp sẽ thấp hơn), nhưng một số bệnh nhân cũng sẽ nhận được tác dụng phụ độc hại. Vì thuốc có tác dụng, nhóm 'tim cố định' sẽ có nhiều bệnh nhân đã dùng thuốc hơn so với những bệnh nhân dùng thuốc trong nhóm tim 'bị hỏng'. Nhiều bệnh nhân dùng thuốc đồng nghĩa với việc nhiều bệnh nhân bị tác dụng phụ hơn, và rõ ràng (nhưng giả mạo) kết quả tốt hơn cho những bệnh nhân không dùng thuốc.

Những bệnh nhân khỏe hơn mà không cần dùng thuốc chỉ là may mắn. Những bệnh nhân dùng thuốc và đã khỏe hơn là một hỗn hợp của những người cần thuốc để đỡ hơn và những người may mắn dù sao đi nữa. Chỉ kiểm tra những bệnh nhân có 'trái tim cố định' có nghĩa là loại trừ những bệnh nhân đã được cố định nếu họ dùng thuốc. Loại trừ những bệnh nhân như vậy có nghĩa là loại trừ tác hại của việc không dùng thuốc, điều này có nghĩa là chúng ta chỉ thấy tác hại của việc dùng thuốc.

Nghịch lý của Simpson phát sinh khi có một nguyên nhân dẫn đến kết quả khác hơn là việc điều trị như thực tế là bác sĩ của bạn chỉ thực hiện những trường hợp khó khăn. Kiểm soát nguyên nhân chung (trường hợp khó so với trường hợp dễ) cho phép chúng ta thấy hiệu quả thực sự. Trong ví dụ sau, chúng tôi đã vô tình phân tầng về một kết quả không phải vì một nguyên nhân có nghĩa là câu trả lời thực sự nằm trong tổng hợp không phải là dữ liệu phân tầng.

[^ 1]: Pearl J. Suy luận nhân quả trong thống kê. John Wiley & Sons; 2016


2

Một trong những "yêu thích" của tôi, có nghĩa là điều khiến tôi phát điên về cách giải thích của nhiều nghiên cứu (và thường là bởi chính các tác giả, không chỉ là phương tiện truyền thông) là của Bias Survivocate .

Một cách để tưởng tượng nó là giả sử có một số hiệu ứng rất bất lợi cho các đối tượng, đến mức nó có cơ hội giết chết chúng rất tốt. Nếu các đối tượng tiếp xúc với hiệu ứng này trước khi nghiên cứu , thì đến khi nghiên cứu bắt đầu, các đối tượng tiếp xúc vẫn còn sống có xác suất rất cao có khả năng phục hồi bất thường. Lựa chọn theo nghĩa đen tự nhiên trong công việc. Khi điều này xảy ra, nghiên cứu sẽ quan sát thấy các đối tượng bị phơi nhiễm là khỏe mạnh khác thường (vì tất cả những người không khỏe mạnh đã chết hoặc chắc chắn ngừng tiếp xúc với hiệu ứng này). Điều này thường bị hiểu sai là ngụ ý rằng phơi nhiễm thực sự tốt cho các đối tượng. Đây là kết quả của việc bỏ qua cắt ngắn (tức là bỏ qua các đối tượng đã chết và không tham gia vào nghiên cứu).

Tương tự, các đối tượng ngừng tiếp xúc với hiệu ứng trong quá trình nghiên cứu thường không có lợi cho sức khỏe: điều này là do họ đã nhận ra rằng việc tiếp tục tiếp xúc có thể sẽ giết chết họ. Nhưng nghiên cứu chỉ quan sát thấy rằng những người bỏ thuốc lá rất không lành mạnh!

Câu trả lời của @ Charlie về máy bay ném bom WWII có thể được coi là một ví dụ về điều này, nhưng cũng có rất nhiều ví dụ hiện đại. Một ví dụ gần đây là các nghiên cứu báo cáo rằng uống hơn 8 tách cà phê mỗi ngày(!!) có liên quan đến sức khỏe tim cao hơn nhiều ở những đối tượng trên 55 tuổi. Rất nhiều người có bằng tiến sĩ giải thích điều này là "uống cà phê tốt cho tim của bạn!", Bao gồm cả các tác giả của nghiên cứu. Tôi đọc được điều này vì bạn phải có một trái tim khỏe mạnh đến khó tin khi vẫn uống 8 tách cà phê mỗi ngày sau 55 tuổi và không bị đau tim. Ngay cả khi nó không giết chết bạn, khoảnh khắc có gì đó đáng lo ngại về sức khỏe của bạn, mọi người yêu quý bạn (cộng với bác sĩ của bạn) sẽ ngay lập tức khuyến khích bạn ngừng uống cà phê. Các nghiên cứu sâu hơn cho thấy rằng uống quá nhiều cà phê không có tác dụng có lợi ở các nhóm trẻ, mà tôi tin là bằng chứng rõ ràng hơn cho thấy chúng ta đang thấy hiệu ứng sống sót, thay vì tác động tích cực. Tuy nhiên, có rất nhiều tiến sĩ đang chạy xung quanh nói "


Tôi không chắc chắn về sự giải thích của bạn. Ở Na Uy, uống 8 tách cà phê mỗi ngày là không bình thường, giá trị trung bình (bao gồm cả trẻ em và các loại không uống khác) là khoảng hai tách mỗi ngày. Ở Phần Lan, giá trị trung bình là khoảng 2,5 ly mỗi ngày. Tôi đã từng uống mor ethan mười cốc một ngày, nhưng không còn như vậy nữa.
kjetil b halvorsen

1

Tôi ngạc nhiên không ai nhắc đến Nghịch lý của Newcombe , mặc dù nó được thảo luận nhiều hơn trong lý thuyết quyết định. Đó chắc chắn là một trong những sở thích của tôi.


-2

Đặt x, y và z là các vectơ không tương quan. Tuy nhiên, x / z và y / z sẽ tương quan.


2
Tại sao điều này là một nghịch lý? nó có vẻ trực quan.
lcrmorin

2
Tôi đã rất ngạc nhiên nếu điều này thường không xảy ra.
Glen_b

1
x/zx/zzX,Y,Z
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.