Có phải các nhà nghiên cứu trước đó đã không phát hiện ra bàn tay nóng chỉ đơn giản là do sai lầm thống kê?


11

Nhiều người hâm mộ / cầu thủ bóng rổ tin rằng đã thực hiện nhiều cú đánh liên tiếp, cú đánh tiếp theo có nhiều khả năng đi vào. Điều này đôi khi được gọi là bàn tay nóng.

Bắt đầu (tôi nghĩ) với Gilovich, Mallone và Tversky (1985) , nó đã "cho thấy" đây thực sự là một lời ngụy biện. Ngay cả khi một vài bức ảnh liên tiếp đã đi vào, lần chụp tiếp theo sẽ không có nhiều khả năng đi vào hơn so với tỷ lệ chụp trung bình của bạn sẽ ra lệnh.

Miller và Sanjurjo (2015) cho rằng bàn tay nóng thực sự tồn tại và các nhà nghiên cứu trước đây chỉ đơn giản là con mồi cho một sai lầm thống kê khá cơ bản. Đối số của họ là như thế này:

Lật một đồng xu bốn lần. Tính xác suất mà H theo H. Để đưa ra một vài ví dụ: HHTT sẽ có xác suất 1/2, HTHT sẽ có xác suất 0/2, TTHH sẽ có xác suất 0/1 1/1 và cả TTTT và TTTH sẽ là NA

Điểm mấu chốt của Miller và Sanjurjo là giá trị dự kiến ​​của xác suất này không phải là 0,5, mà là .4 0,4. Và lỗi do các nhà nghiên cứu trước đó đưa ra là giả định không chính xác rằng giá trị dự kiến ​​của xác suất này là 0,5. Vì vậy, ví dụ, nếu các nhà nghiên cứu trước đó đã tiến hành thí nghiệm lật đồng xu ở trên và thấy xác suất trung bình là 0,497, họ đã kết luận không chính xác rằng không có bằng chứng nào về bàn tay nóng (không khác biệt đáng kể so với 0,5), trong khi thực tế có rất nhiều bằng chứng mạnh mẽ của một bàn tay nóng (khác biệt đáng kể so với 0,4).

Câu hỏi của tôi là: Miller và Sanjurjo có đúng không khi các nhà nghiên cứu trước đó không phát hiện ra bàn tay nóng chỉ vì sai lầm này? Tôi chỉ đọc lướt qua một hoặc hai bài báo về vấn đề này vì vậy tôi muốn nhận được một số xác nhận từ một người nào đó có thể biết tài liệu này tốt hơn. Đây dường như là một lỗi ngớ ngẩn đáng ngạc nhiên đã tồn tại trong ba thập kỷ trở lên.


3
Đây là một câu hỏi nguy hiểm cho trang web này theo nghĩa là khá khó để đánh giá, đặc biệt là đối với người ngoài. Và đó là cách chúng tôi "xác định" câu trả lời tốt nhất, bằng cách bỏ phiếu đa số. Hãy chắc chắn đọc tất cả các câu trả lời và chỉ bỏ phiếu cho những câu có vẻ đúng sau khi đọc tất cả các câu trả lời và bỏ phiếu cho những câu khiến bạn không hài lòng / nghi ngờ.
FooBar

1
Điều này là do câu trả lời đúng có thể phản trực giác. Nếu một trang web như thế này tồn tại 60 năm trước, tôi không nghĩ rằng câu trả lời chính xác cho vấn đề Monty Hall - có tính chất tương tự - sẽ được đưa lên hàng đầu thông qua bỏ phiếu đa số.
FooBar

@FooBar, để thêm vào quan điểm của bạn, có hai câu hỏi phức tạp đang diễn ra cùng một lúc tại đây: (1) "Hiệu ứng toán học mà Miller và Sanjuro thảo luận là gì" --- đây không phải là câu hỏi mà Kenny LJ đã hỏi, nhưng là một câu hỏi câu hỏi hay vì cần nhiều đọc để hiểu và tương đối khách quan. Sau đó (2) là "Điều này có làm mất hiệu lực nghiên cứu trước", có vẻ chủ quan và dựa trên ý kiến ​​....
usul

@usul: Trong một số trường hợp trong kinh tế học, câu hỏi thứ hai ("Điều này có làm mất hiệu lực nghiên cứu trước không?") thực sự gây tranh cãi và dựa trên ý kiến ​​hơn - ví dụ như tranh cãi về bài báo Reinhart và Rogoff (2010). Nhưng tôi nghĩ trong trường hợp này chúng ta có một vấn đề toán học được xác định rõ ràng. Và như tôi đã cố gắng thể hiện trong câu trả lời của mình dưới đây (mà tôi vừa viết lại một lần nữa cho rõ ràng và ngắn gọn), Miller và Sanjurjo (2015) thực sự đã thành công trong việc vô hiệu hóa kết luận của Gilovich, Mallone và Tversky (1985).
Kenny LJ

@KennyLJ, họ đã chỉ ra rằng một trong những bằng chứng trong bài báo năm 1985 là không hợp lệ. Đây là một câu hỏi rất khác với việc cho thấy kết luận không hợp lệ, ví dụ cho thấy hiệu ứng nóng bỏng chắc chắn tồn tại.
usul

Câu trả lời:


6

(Câu trả lời này đã được viết lại hoàn toàn để rõ ràng hơn và dễ đọc hơn vào tháng 7 năm 2017.)

Lật một đồng xu 100 lần liên tiếp.

p^(H|3T)p^(H|3H)

x:=p^(H|3H)p^(H|3T)

Nếu các lần lật đồng xu là iid, thì "rõ ràng", qua nhiều chuỗi 100 lần lật đồng xu,

x>0x<0

E(X)=0

Chúng tôi tạo ra một triệu chuỗi 100 lần lật và nhận được hai kết quả sau:

x>0x<0

x¯0x¯x

Và vì vậy, chúng tôi kết luận rằng các đồng xu lật thực sự là iid và không có bằng chứng nào về một bàn tay nóng. Đây là những gì GVT (1985) đã làm (nhưng với những cú đánh bóng rổ thay cho những cú lật đồng xu). Và đây là cách họ kết luận rằng bàn tay nóng không tồn tại.


Punchline: Thật sốc, (1) và (2) không chính xác. Nếu lật đồng xu là iid, thì thay vào đó nên là

x>0x<0x=0x

E(X)0.08

Trực giác (hoặc phản trực giác) có liên quan tương tự như trong một số câu đố xác suất nổi tiếng khác: vấn đề Monty Hall, vấn đề hai chàng trai và nguyên tắc lựa chọn hạn chế (trong cầu trò chơi bài). Câu trả lời này đã đủ dài và vì vậy tôi sẽ bỏ qua phần giải thích về trực giác này.

Và do đó, kết quả (I) và (II) mà GVT (1985) thu được thực sự là bằng chứng mạnh mẽ ủng hộ bàn tay nóng. Đây là những gì Miller và Sanjurjo (2015) đã thể hiện.


Phân tích sâu hơn về Bảng 4 của GVT.

Nhiều người (ví dụ @scerwin dưới đây) - không bận tâm đến việc đọc GVT (1985) - bày tỏ sự không tin rằng bất kỳ "nhà thống kê được đào tạo nào cũng sẽ" lấy trung bình trung bình trong bối cảnh này.

Nhưng đó chính xác là những gì GVT (1985) đã làm trong Bảng 4. Xem Bảng 4, cột 2-4 và 5-6, hàng dưới cùng của họ. Họ thấy rằng trung bình trên 26 người chơi,

p^(H|1M)0.47p^(H|1H)0.48

p^(H|2M)0.47p^(H|2H)0.49

p^(H|3M)0.45p^(H|3H)0.49

k=1,2,3p^(H|kH)>p^(H|kM)

Nhưng nếu thay vì lấy trung bình trung bình (một động thái được coi là ngu ngốc không thể tin được bởi một số người), chúng tôi đã làm lại phân tích của họ và tổng hợp qua 26 người chơi (với 100 lần chụp, với một số ngoại lệ), chúng tôi sẽ nhận được bảng trung bình có trọng số sau.

Any                     1175/2515 = 0.4672

3 misses in a row       161/400 = 0.4025
3 hits in a row         179/313 = 0.5719

2 misses in a row       315/719 = 0.4381
2 hits in a row         316/581 = 0.5439        

1 miss in a row         592/1317 = 0.4495
1 hit in a row          581/1150 = 0.5052

Bảng cho biết, ví dụ, tổng cộng 2.515 bức ảnh được chụp bởi 26 người chơi, trong đó có 1.175 hoặc 46,72% được thực hiện.

Và trong số 400 trường hợp người chơi bỏ lỡ 3 lần liên tiếp, 161 hoặc 40,25% ngay lập tức bị tấn công. Và trong số 313 trường hợp người chơi đạt 3 điểm liên tiếp, 179 hoặc 57,19% ngay lập tức bị tấn công.

Các trung bình có trọng số trên dường như là bằng chứng mạnh mẽ ủng hộ bàn tay nóng.

Hãy nhớ rằng thử nghiệm bắn súng đã được thiết lập để mỗi người chơi bắn từ nơi được xác định rằng anh ấy / cô ấy có thể thực hiện khoảng 50% các bức ảnh của mình.

(Lưu ý: "Thật kỳ lạ", trong Bảng 1 cho một phân tích rất giống với trò bắn súng trong trò chơi của Sixers, GVT thay vào đó đưa ra mức trung bình có trọng số. Vậy tại sao họ không làm như vậy cho Bảng 4? Tôi đoán là họ chắc chắn đã tính trung bình có trọng số cho Bảng 4 - những con số tôi trình bày ở trên, không giống như những gì họ thấy và chọn cách triệt tiêu chúng. Loại hành vi này không may là ngang bằng với khóa học ở học viện.)


HHHTTTHHHHHHp^(H|3T)=1/1=1

p^(H|3H)=91/920.989


Bảng 4 của PS GVT (1985) có một số lỗi. Tôi phát hiện ít nhất hai lỗi làm tròn. Và đối với người chơi 10, các giá trị gốc trong cột 4 và 6 không cộng ít hơn một giá trị trong cột 5 (trái với ghi chú ở phía dưới). Tôi đã liên lạc với Gilovich (Tversky đã chết và tôi không chắc chắn về điều đó), nhưng thật không may, anh ta không còn có các chuỗi hit và miss ban đầu. Bảng 4 là tất cả những gì chúng ta có.


Nhìn vào bảng 4 của GMT 1985, họ đã kiểm tra 26 học sinh riêng lẻ và chỉ tìm thấy một ví dụ về "bàn tay nóng" có ý nghĩa thống kê (họ đã kiểm tra từng trường hợp với p <0,05). Đây là hiệu ứng thạch đậu xanh . Bên cạnh đó, nếu mỗi sinh viên được định vị chính xác để họ có thể thực hiện khoảng 50% các bức ảnh của mình thì có ít hơn 7 sinh viên nên có tỷ lệ trúng ngoài phạm vi 40-60 trong số 100 (trừ khi có một hiệu ứng bàn tay nóng lớn)
Henry

4

(Tuyên bố miễn trừ trách nhiệm: Tôi không biết tài liệu này.) Dường như với tôi rằng Miller và Sanjurjo có một sự chỉ trích hợp lệ đối với một biện pháp thống kê cụ thể. Tôi không biết liệu điều này có nên được coi là vô hiệu hóa tất cả các công việc trước đây về hiệu ứng nóng tay hay không, vì họ chỉ tập trung vào biện pháp cụ thể này.

Biện pháp là

M:=P(make shot | made previous shot)P(make shot | miss previous shot)
P(X)X

MEM>0EM=0

EM<0M

M


3

Cả hai bài viết đều không đủ rõ ràng về các ứng dụng Thống kê của họ, vì vậy trong câu trả lời này, tôi sẽ cố gắng làm rõ.

Gilovich, Mallone và Tversky (1985) trong Tóm tắt của họ định nghĩa "Hiệu ứng bàn tay nóng" như sau:

"Những người chơi bóng rổ và người hâm mộ đều có xu hướng tin rằng cơ hội của một cầu thủ sút bóng sẽ cao hơn sau một cú đánh hơn là bỏ lỡ cú sút trước đó. "

kHkkMk

(1)P(HHk)>P(HMk),k1

trong trường hợp nhỏ gọn, người ta hiểu rằng cú đánh trong câu hỏi là cú đánh ngay sau những cú đánh hoặc bỏ lỡ liên tiếp. Đây là các xác suất có điều kiện lý thuyết (tức là hằng số), không phải là tần số thực nghiệm tương đối có điều kiện.

P^(HHk),P^(HMk)

Ho:P(HHk)P(HMk)=0

P(H)

TP^(HHk)P^(HMk)

T

T

Do đó, nếu có vấn đề với Gilovich et al. giấy, nó không phải là định nghĩa của Hot-Hand, nó không phải là công thức của giả thuyết null, nó không phải là lựa chọn của thống kê được sử dụng: đó là tính hợp lệ của các giá trị quan trọng được sử dụng để thực hiện các thử nghiệm ( và do đó, giả định phân phối ngầm), nếu thực sự là phân phối mẫu nhỏ, hữu hạn (theo giả thuyết null) rõ ràng là không tập trung ở mức 0 và cũng không đối xứng.

Trong các trường hợp như vậy, những gì người ta thường làm là thu được bằng cách mô phỏng các giá trị quan trọng đặc biệt để thực hiện kiểm tra (ví dụ, hãy nhớ các giá trị quan trọng đặc biệt cho kiểm tra Dickey-Fuller cho một đơn vị gốc). Tôi đã không thấy cách tiếp cận như vậy trong bài báo Miller-Sanjurjo, họ thực hiện "điều chỉnh sai lệch trung bình" và thấy rằng sau khi điều chỉnh này, kết luận từ bài kiểm tra bị đảo ngược. Tôi không chắc đây là con đường để đi.

200n=100p=0.5
T3=P^(HH3)P^(HM3)0.08070.07262.5%của các giá trị là âm. Biểu đồ thực nghiệm là

nhập mô tả hình ảnh ở đây


1

Theo quan điểm của tôi, Miller và Sanjurjo chỉ đơn giản là tính toán tần số tương đối trong Bảng 1 không chính xác. Bảng của họ được hiển thị bên dưới với hai cột mới được thêm vào, trong đó đếm số lượng HH và HT xảy ra trong mỗi chuỗi gồm 4 lần lật đồng xu. Để có được xác suất có điều kiện mong muốn p (H | H), người ta phải tính tổng các số N (HH) và N (HT) và sau đó chia như hình dưới đây. Làm điều này cho p (H | H) = 0,5, như mong đợi. Vì một số lý do, trước tiên Miller và Sanjurjo đã tính tần số tương đối cho từng chuỗi và sau đó tính trung bình trên các chuỗi. Thật tồi tệ.

Sequence     Subsequences       N(HH) N(HT)    p(H|H)
TTTT  ->  TT.. , .TT. , ..TT      0     0        -  
TTTH  ->  TT.. , .TT. , ..TH      0     0        -  
TTHT  ->  TT.. , .TH. , ..HT      0     1       0.0 
THTT  ->  TH.. , .HT. , ..TT      0     1       0.0 
HTTT  ->  HT.. , .TT. , ..TT      0     1       0.0 
TTHH  ->  TT.. , .TH. , ..HH      1     0       1.0 
THTH  ->  TH.. , .HT. , ..TH      0     1       0.0 
THHT  ->  TH.. , .HH. , ..HT      1     1       0.5 
HTTH  ->  HT.. , .TT. , ..TH      0     1       0.0 
HTHT  ->  HT.. , .TH. , ..HT      0     2       0.0 
HHTT  ->  HH.. , .HT. , ..TT      1     1       0.5 
THHH  ->  TH.. , .HH. , ..HH      2     0       1.0 
HTHH  ->  HT.. , .TH. , ..HH      1     1       0.5 
HHTH  ->  HH.. , .HT. , ..TH      1     1       0.5 
HHHT  ->  HH.. , .HH. , ..HT      2     1       0.66
HHHH  ->  HH.. , .HH. , ..HH      3     0       1.0 
                                 --    --       ----
                                 12    12       0.40
                            p(H|H)=N(HH)/N(H*)
                                  =12/(12+12)
                                  =0.5

Lập luận của họ là thay vì tính toán các trường hợp TT và TH riêng lẻ (như bạn đã làm), xác suất p (H | H) nên được tính trung bình (vì tất cả các chuỗi đều có khả năng như nhau).
Giskard 21/07/2015

1
Có thể một bảng đơn giản hơn sẽ làm cho lỗi của họ rõ ràng hơn. Chúng ta chỉ cho phép hai chuỗi 4 lần lật cụ thể: TTHT và HHHH. Chúng đưa ra các chuỗi 2 lần lật sau: TT, TH, HT, HH, HH, HH. Từ danh sách này, rõ ràng là khi đồng xu lật đầu tiên hiển thị H, rất có khả năng nó sẽ được theo sau bởi một H khác (điều này xảy ra 3 trên 4 lần). Thực sự là một "đồng tiền nóng"! Nhưng phương pháp của Miller và Sanjurjo sẽ dự đoán không có nhiệt, bởi vì trung bình tần số của TTHT và HHHH (0,0 và 1,0) là 0,5. Mặt khác, phương pháp thông thường cho câu trả lời đúng: p (H | H) = 3 / (3 + 1) = 0,75.
scerwin 21/07/2015

Tôi nghĩ rằng quan điểm của họ là "lỗi" này mà bạn chỉ ra chính xác là những gì các nhà nghiên cứu trước đó đã làm.
Kenny LJ

1
Có lẽ. Nhưng tuyên bố đó về các nhà nghiên cứu trước đây có đúng không? Không một nhà thống kê được đào tạo nào có thể tính toán xác suất theo cách Miller và Sanjurjo đã làm trong Bảng 1. Nó tương tự như tính toán trung bình của một cầu thủ bóng chày bằng cách tính toán trung bình của anh ta cho mỗi trận đấu và sau đó tính trung bình trên các trò chơi. Nó hoàn toàn sai.
scerwin

"Nhưng tuyên bố đó về các nhà nghiên cứu trước có đúng không? Không có nhà thống kê được đào tạo nào có thể tính được xác suất theo cách mà Miller và Sanjurjo đã làm trong Bảng 1." Có lẽ bạn thực sự nên dành thời gian để đọc các bài báo. Đặc biệt là GVT (1985).
Kenny LJ

0

Trong bất kỳ trình tự quan sát nào, điều kiện cuối cùng là "mất tích" theo nghĩa là không có giá trị sau đó. Các tác giả đối phó với điều này bằng cách đơn giản bỏ qua các trường hợp điều này xảy ra, nói rằng chúng không được xác định. Nếu loạt bài ngắn, sự lựa chọn này sẽ có tác động rõ ràng đến các tính toán. Hình 1 là một minh họa đẹp của ý tưởng này.


-1

Tôi sẽ thay đổi một nhận xét tôi đã đưa ra ở trên thành một câu trả lời và khẳng định câu trả lời cho câu hỏi ban đầu là các giấy tờ gốc là chính xác. Các tác giả của bài báo năm 2015 đã đưa ra các trình tự cần được đưa vào phân tích một cách hợp lý, như tôi mô tả trong bình luận, và do đó đưa ra một sự thiên vị hỗ trợ cho tuyên bố của họ. Thế giới hoạt động như bình thường.

Phụ lục trả lời nhận xét: Chúng tôi xem bảng 1 trong bài báo. Chúng tôi thấy chúng tôi đang đưa ra 4 giá trị từ cột cuối cùng, vì vậy để có được sự khác biệt dự kiến, chúng tôi chỉ trung bình trên 12 trong số 16 chuỗi. Nếu chúng ta xem các xác suất này là tần số, và chúng ta nói, đối với dòng TTTT đầu tiên, tần số mà một cái đầu đi theo đầu là gì, thì nó luôn luôn xảy ra và chúng ta nên đặt 1 vào p (H, H ) cột, không phải là một dấu gạch ngang. Chúng tôi làm điều đó cho ba chuỗi khác mà chúng tôi đã đưa ra và chúng tôi kết luận giá trị kỳ vọng của chênh lệch là 0, không phải -.33. Chúng ta không thể loại bỏ dữ liệu như vậy, khi có sự giải thích logic rõ ràng về dữ liệu.

Lưu ý rằng để làm cho trôi dạt biến mất, chúng ta phải tính toán xác suất chính xác, điều này không được thực hiện trong bài báo. Các xác suất trong bảng được tuyên bố là "xác suất mà một cái đầu theo đuôi, trong chuỗi bốn lần tung này." Và chúng tôi thấy rằng đối với hàng TTTH, chúng tôi phải tin rằng xác suất đó là 1/3. Nó không thể. Có bốn lần ném trong hàng và một trong bốn lần ném trong hàng đó là sự kiện "một cái đầu theo đuôi". Xác suất là 1/4. Vì vậy, hãy tính toán xác suất chính xác và sử dụng tất cả các hàng và bạn nhận được câu trả lời đã được chấp nhận trong 30 năm.


Câu hỏi đặt ra là liệu Miller và Sanjurjo (2015) có đúng không khi chỉ ra rằng các nhà nghiên cứu trước đó đã phạm sai lầm (và vì vậy không thể phát hiện ra bàn tay nóng). Nếu vậy, hãy giải thích. Nếu không, xin vui lòng giải thích. Câu hỏi không phải là liệu chúng ta có thể hay không thể "bỏ đi dữ liệu như vậy" hay liệu "thế giới có hoạt động như bình thường không".
Kenny LJ

Miller và Sanjuro là không chính xác, bởi vì họ đưa ra dữ liệu hợp lý trong phân tích, và do đó đưa ra một sự thiên vị không có trên thế giới.
dùng164740
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.