Làm thế nào để giải thích kiểm tra giả thuyết cho thanh thiếu niên trong vòng chưa đầy 10 phút?


18

Trong hơn một năm nay tôi đã có một lớp học "một hương vị cho thống kê" trong một giờ. Mỗi lần tôi nhận được một nhóm trẻ em khác nhau đến, và tôi cho chúng đến lớp.

Chủ đề của lớp học là chúng tôi thực hiện một thí nghiệm trong đó 10 đứa trẻ (thích uống coca-cola) được tặng hai cốc (không đánh dấu), một cốc có coca-cola và một với pepsi. Những đứa trẻ được yêu cầu phát hiện, dựa trên hương vị và mùi, cốc nào có thức uống coca-cola.

Sau đó tôi cần giải thích cho họ cách quyết định xem bọn trẻ có đoán được không, hoặc nếu chúng (hoặc ít nhất, đủ chúng) thực sự có khả năng nếm thử sự khác biệt. Là 10 trên 10 thành công đủ tốt? 7/10 thì sao?

Ngay cả sau khi đưa ra lớp này hàng chục lần (trong các biến thể khác nhau), tôi vẫn không cảm thấy mình biết cách đưa khái niệm này theo cách mà hầu hết các lớp sẽ hiểu.

Nếu bạn có bất kỳ ý tưởng nào về cách khái niệm kiểm định giả thuyết, giả thuyết không, giả thuyết thay thế, vùng từ chối, v.v. có thể được giải thích theo cách đơn giản (!) Và trực quan - tôi rất muốn biết cách.


1
Đôi khi, nghĩ về "tại sao" giúp hiểu rõ hơn về "làm thế nào", vì vậy bạn có thể kiểm tra số liệu thống kê.stackexchange.com/questions/6966/ít
Tim

5
(+1) Tôi đoán nó phụ thuộc vào định nghĩa 10 phút của bạn là gì!
Đức hồng y

1
Một vài tuần trước, tôi đã bắn để trả lời câu hỏi này - hoặc ít nhất một câu đáng chú ý giống như vậy - tại stats.stackexchange.com/a/130772 . Không phải đó là một bản sao của cái này sao?
whuber

1
@cardinal - Ý tôi là 10 phút. Đối với loại chủ đề này và đối với những người không có nền tảng - đây là thời gian RẤT ngắn. --------------- Kính gửi người yêu - Tôi yêu câu trả lời của bạn, nhưng sẽ rất tuyệt cho sinh viên biết xác suất và mối quan hệ giữa mật độ và diện tích là gì. Đây là những khái niệm được dạy cho học sinh, nhưng không phải cho học sinh trung học. Tôi không muốn họ hiểu đầy đủ về thử nghiệm giả thuyết, nhưng phải giữ đủ để họ có cảm giác về việc đưa ra quyết định về ý nghĩa của từng khu vực từ chối.
Tal Galili

4
Cảm ơn bạn đã làm rõ, Tal. Bạn dường như vẫn đang chỉ ra rằng chủ đề khác là một bản sao câu hỏi của bạn, nhưng bạn chưa thấy câu trả lời đầy đủ ở đó. Một cách tốt để phân biệt câu hỏi của bạn với câu hỏi đó là cung cấp các yêu cầu cụ thể về mức độ giải thích và những gì chúng tôi có thể giả sử khán giả biết, giống như bạn đã bắt đầu làm trong nhận xét của mình.
whuber

Câu trả lời:


10

Tôi nghĩ bạn nên bắt đầu với việc hỏi họ những gì họ nghĩ thực sự có ý nghĩa khi nói về một người mà người đó có thể nói ra sự khác biệt giữa coca-cola và pepsi. Một người như vậy có thể làm gì mà người khác không thể làm được?

Hầu hết trong số họ sẽ không có bất kỳ định nghĩa như vậy, và sẽ không thể tạo ra một nếu được yêu cầu. Tuy nhiên, một ý nghĩa của cụm từ đó là những gì số liệu thống kê mang lại cho chúng tôi và đó là những gì bạn có thể mang lại với lớp "hương vị thống kê" của mình.

Một trong những điểm thống kê là đưa ra câu trả lời chính xác cho câu hỏi: "ý nghĩa của việc nói về ai đó rằng người đó có thể nói lên sự khác biệt giữa coca-cola và pepsi"

Câu trả lời là: anh ấy hoặc cô ấy tốt hơn một máy đoán để phân loại cốc trong một bài kiểm tra mù. Máy đoán không thể cho biết sự khác biệt, nó chỉ đơn giản là đoán mọi lúc. Máy đoán là một phát minh hữu ích cho chúng tôi vì chúng tôi biết rằng nó không có khả năng. Kết quả của máy đoán là hữu ích vì chúng cho thấy những gì chúng ta nên mong đợi từ một người thiếu khả năng mà chúng tôi kiểm tra.

Để kiểm tra xem một người có thể phân biệt sự khác biệt giữa coca-cola và pepsi hay không, người ta phải so sánh phân loại cốc của người đó trong một bài kiểm tra mù với phân loại mà máy đoán sẽ làm. Chỉ khi anh ấy / anh ấy giỏi hơn máy đoán, anh ấy mới có thể nhận ra sự khác biệt.

Làm thế nào, sau đó, bạn có xác định liệu một kết quả tốt hơn một kết quả khác không? Nếu chúng gần giống nhau thì sao?

Nếu hai người phân loại một số lượng nhỏ cốc, thật không công bằng khi nói rằng cái này tốt hơn cái kia nếu kết quả gần như nhau. Có lẽ người chiến thắng chỉ là may mắn hôm nay, và kết quả sẽ bị đảo ngược nếu cuộc thi được lặp lại vào ngày mai?

Nếu chúng ta có một kết quả đáng tin cậy, nó không thể dựa trên một số lượng nhỏ các phân loại, bởi vì sau đó cơ hội có thể quyết định kết quả. Hãy nhớ rằng, bạn không cần phải hoàn hảo để có khả năng, bạn chỉ cần giỏi hơn máy đoán. Trên thực tế, nếu số lượng phân loại quá ít, thậm chí không một người luôn xác định chính xác coca-cola sẽ có thể cho thấy họ tốt hơn máy đoán. Ví dụ: nếu chỉ có một cốc để phân loại, thậm chí máy đoán sẽ có 50% cơ hội để phân loại hoàn toàn chính xác. Điều đó không tốt, bởi vì điều đó có nghĩa là trong 50% các thử nghiệm, chúng tôi sẽ kết luận sai rằng một định danh coca-cola tốt không tốt hơn máy đoán. Rất không công bằng.

Càng có nhiều cốc để phân loại, càng có nhiều cơ hội để máy đoán không có khả năng được tiết lộ và càng có nhiều cơ hội để nhận dạng coca-cola tốt được thể hiện.

10 cốc có thể là một nơi tốt để bắt đầu. Có bao nhiêu câu trả lời đúng phải là một con người sau đó phải chứng tỏ rằng mình tốt hơn máy móc?

Hỏi họ những gì họ sẽ đoán.

Sau đó cho họ sử dụng máy và tìm hiểu xem nó tốt như thế nào, tức là để tất cả các học sinh tạo ra một chuỗi mười lần đoán, ví dụ. sử dụng xúc xắc hoặc máy phát ngẫu nhiên trên điện thoại thông minh. Để được sư phạm, bạn nên chuẩn bị một loạt mười câu trả lời đúng, trong đó các dự đoán sẽ được đánh giá dựa trên.

Ghi lại tất cả các kết quả trên bảng. In kết quả đã sắp xếp lên bảng. Giải thích rằng con người sẽ phải tốt hơn 95% trong số những kết quả đó trước khi một nhà thống kê thừa nhận khả năng của mình để nói sự khác biệt giữa coca-cola và pepsi. Vẽ đường phân tách kết quả tồi tệ nhất 95% với kết quả 5% hàng đầu.

Sau đó, để một vài học sinh thử phân loại 10 cốc. Bây giờ các học sinh nên biết có bao nhiêu quyền cần phải chứng minh rằng họ có thể cho biết sự khác biệt.

Tất cả điều này không thực sự có thể làm được trong 10 phút.


2
Cảm ơn Hans. Tôi thích câu trả lời của bạn vì nhiều lý do. 1) Bởi vì bạn mang một ý tưởng mới vào bàn "để bọn trẻ cạnh tranh với một chiếc máy đoán". Tôi thừa nhận ý nghĩ đã xuất hiện trong đầu tôi, nhưng câu trả lời của bạn củng cố ý kiến ​​của tôi rằng điều này có thể hoạt động tốt hơn so với việc chúng cạnh tranh với phân phối lý thuyết của giả thuyết null p = 0,55. 2) Bởi vì bạn hiểu rằng không phải tất cả những gì bạn đề xuất đều có thể thực hiện được trong 10 phút :)
Tal Galili

2
Cảm ơn Tal. a) Tôi nghĩ rằng máy đoán là trực quan hơn nhiều so với phân phối lý thuyết. b) Tôi hy vọng bạn có thể dành hơn 10 phút để kiểm tra giả thuyết.
Hans Ekbrand

Tại sao 95%, ha ha?
Mark L. Stone

2

Làm việc với soda nghe có vẻ thú vị, và thử nghiệm xem liệu thanh thiếu niên có thực sự có thể cho biết sự khác biệt giữa soda có ý nghĩa hay không khi bạn có kiến ​​thức hợp lý về kiểm tra giả thuyết. Vấn đề có thể là câu hỏi này: "bạn thực sự có thể nói sự khác biệt giữa soda không?" là phức tạp bởi rất nhiều thứ khác trong suy nghĩ của thanh thiếu niên, như "ai tốt và ai xấu khi thử nghiệm soda?", "thực sự có sự khác biệt nào giữa soda không?"

Tôi chưa bao giờ dạy các số liệu thống kê cho thanh thiếu niên, nhưng tôi luôn mơ tưởng về việc sử dụng một đồng xu được nạp hoặc xu thiên vị. Chết thú vị hơn, nhưng thống kê nhiều thách thức hơn. Với ví dụ về đồng xu, một đồng tiền là hoặc không công bằng. Không có gì tốt trong việc lật đồng xu. Không có quyết định cho dù đó là đầu hay đuôi.

Nếu chúng ta lật một đồng xu cho người thắng 100 đô la, và nó xuất hiện (bạn thắng!), Tôi có thể nói, "Này. Làm sao tôi biết đồng tiền đó có công bằng không? Tôi cá là bạn đã gian lận cuộc thi!". Bạn nói "Ồ vâng? Chứng minh điều đó." Giải pháp khá rõ ràng là lật đồng xu nhiều lần để xem liệu nó có xuất hiện nhiều đầu hơn đuôi hay không. Chúng tôi lật nó, và nó đi lên đầu. "Ahha! Tôi nói. Seee! Nó thiên về đầu!" Và như thế.

Tiền xu thiên vị tốt không tồn tại, nhưng súc sắc thiên vị thì có - bạn có thể mua một đồng tiền trên Amazon. Bạn có thể cung cấp cho sinh viên một giải thưởng nếu họ có thể giành được một số cuộn. Nhưng bạn biết bạn sẽ thắng. Họ sẽ tức giận. Bạn nói, OK, tôi sẽ trao cho bạn giải thưởng nếu bạn có thể chứng minh cái chết này là sai lệch, với độ tin cậy 95%.

Sau đó chuyển sang soda. Giải thưởng thậm chí có thể là một bữa tiệc soda! "Này, tôi tự hỏi liệu các bạn có thể nói sự khác biệt giữa than cốc và pepsi ..."


6
" Không có gì tốt trong việc lật đồng xu. " - khi xem Persi Diaconis lật đầu theo ý muốn, tôi nghĩ có thể có.
Glen_b -Reinstate Monica 16/215

ha. bây giờ tôi sẽ đi để cố gắng làm tốt điều đó!
tim.farkas 16/2/2015

1
Diaconis là một nhà thống kê và ảo thuật gia. Có những video anh ấy trình diễn nó (lật đầu khi anh ấy muốn) trên youtube.
Glen_b -Reinstate Monica

Chào tim. Bạn mang lại những điểm tốt, nhưng họ không giải quyết trực tiếp câu hỏi của tôi. Cho rằng học sinh của bạn có x trong số 10 bài kiểm tra chính xác (một bài kiểm tra đang chọn đúng nhãn hiệu, dựa trên khẩu vị) - làm thế nào bạn có thể giải thích lý do tại sao bạn quyết định họ tốt / xấu khi đưa ra quyết định đó?
Tal Galili

Một lần nữa bạn có thể sử dụng lật đồng xu. Nếu họ làm một hương vị duy nhất và làm cho đúng, điều đó không thuyết phục lắm, vì nếu bạn lật một đồng xu, nó sẽ "đúng" 50% thời gian! nếu bạn hiểu đúng hai lần, xác suất có được điều đó tình cờ cũng giống như lật hai cái đầu = .5 * .5 = .25. 3 lần liên tiếp là 0,125, 4 là 0,0625, 5 là 0,13. Bạn phải chọn mức độ tự tin mà bạn muốn. 50% có đủ chắc chắn không? 25% thì sao? R. Fisher nói chắc chắn 95% là đủ tốt và đó là điều mà nhiều nhà khoa học sử dụng. Đây là kỹ thuật được gọi là kiểm tra dấu hiệu. Xem bên dưới.
tim.farkas 17/2/2015

2

Hãy xem xét một người nào đó thực hành mục tiêu với một khẩu súng ngắn, bắn một loạt đạn theo hướng nòng súng.

Giả thuyết Null: Tôi là một game bắn súng giỏi, và nòng súng của tôi hoàn toàn đúng mục tiêu. Không trái, không phải, nhưng thẳng vào nó. Lỗi của tôi là 0.

Giả thuyết thay thế: Tôi là một game bắn súng tồi, và nòng súng của tôi nằm ngoài mục tiêu. Chỉ trái hoặc phải của mục tiêu. Lỗi của tôi là e> 0 hoặc e <0.

Vì bất kỳ phép đo nào cũng có một lỗi trung bình nhất định (nghĩa là lỗi tiêu chuẩn), một phép đo có nghĩa là "không đúng mục tiêu" là có thể, ngay cả khi tôi đang bắn thẳng. Tôi sẽ không cần phải "bắn" mục tiêu của mình (tất cả, ngay cả khi mỗi phát bắn là một lần nổ / lan rộng) một số lần nhất định, trước khi bạn có thể gọi tôi là một game bắn súng tồi và chọn Giả thuyết thay thế.


1
Chào mừng đến với CV. Bạn có thể liên hệ giải thích của bạn với null và thay thế? Có lẽ một số thảo luận bổ sung có thể giúp thúc đẩy những điều này. Ngoài ra còn có một số null và giải pháp thay thế mà lời giải thích này sẽ không phù hợp, bạn có thể cần đề cập đến loại giả thuyết nào sẽ là một lời giải thích phù hợp cho (ví dụ: null-hai, hai đuôi)
Glen_b -Reinstate Monica

1

Giả sử những đứa trẻ không thể nói sự khác biệt và quyết định tình cờ. Sau đó, mỗi đứa trẻ có 50% cơ hội đoán đúng. Vì vậy, bạn mong đợi (giá trị dự kiến) rằng trong trường hợp này, 5 trẻ làm đúng và 5 trẻ sai. Tất nhiên, vì tình cờ, cũng có khả năng 6 đứa trẻ mắc lỗi và 4 đứa trẻ hiểu đúng, v.v. Ở phía đối diện, ngay cả khi những đứa trẻ có thể cho biết sự khác biệt, có thể, rằng tình cờ một trong số chúng có lỗi.

Theo trực giác, rõ ràng, rằng nếu những đứa trẻ đoán tình cờ, thì điều đó là không thể tất cả những đứa trẻ đều đưa ra câu trả lời đúng. Trong trường hợp này, người ta thà tin rằng những đứa trẻ thực sự có thể cảm nhận được sự khác biệt giữa cả hai loại đồ uống. Nói cách khác, chúng tôi không mong đợi các sự kiện không thể xảy ra sẽ được quan sát. Vì vậy, nếu chúng tôi quan sát thấy một sự kiện không thể xảy ra theo scanario 50-50, chúng tôi tin rằng kịch bản này là sai và những đứa trẻ có thể phân biệt giữa Coke và Pepsi.

Nhưng "khá không thể" và "khá tin" nghĩa là gì? Hãy để học sinh của bạn chọnα: "Nếu chúng ta quan sát một sự kiện từ cuối cùng mâu thuẫn với giả thuyết 50-50, thì xác suất nào có thể xảy ra đến mức bạn không tin giả thuyết này nữa?" Hy vọng họ không trả lờiα0,00098 Viết chúng αtại hội đồng quản trị. Tôi giả sửα= =0,05. Vì vậy, bạn và học sinh của bạn đồng ý: Nếu chúng tôi quan sát một sự kiện thuộc 5% số sự kiện cực đoan mâu thuẫn với kịch bản 50-50, chúng tôi sẽ không tin vào kịch bản này nữa (từ chối giả thuyết).

Bây giờ hãy tính phân phối nhị thức với chúng. P(tất cả trẻ em đoán đúng)= =0,00098, P(chỉ có một đứa trẻ nhầm lẫn Coke với Pepsi)= =0,01074P(chỉ có hai đứa trẻ nhầm lẫn)= =0,05468. Rõ ràng, bạn sẽ chỉ kết luận rằng có một sự khác biệt giữa cả hai loại đồ uống, nếu nhiều nhất một đứa trẻ nhầm lẫn chúng.

Đây là thời điểm mà bạn tiến hành thí nghiệm. Làm điều đó kỹ lưỡng với tất cả 10 học sinh, ngay cả khi bạn chỉ tính toán rằng bạn có thể dừng lại sau lỗi thứ hai. Sau đó ghi lại kết quả và giữ chúng. Bạn sẽ cần kết quả nếu bạn muốn giải thích các phân tích tổng hợp cho họ.

(Nhân tiện, ví dụ lịch sử là về việc nếm thử nếu sữa hoặc trà đã được rót trước vào cốc. Người phụ nữ nếm trà.)



0

Các thí nghiệm nếm thử than cốc trẻ em là một ví dụ tốt để giới thiệu thử nghiệm giả thuyết, vì tương đương với thí nghiệm nếm trà của phụ nữ cho thấy. Tuy nhiên, việc đánh giá các thí nghiệm đó không trực quan lắm vì giả thuyết null liên quan đến phân phối nhị thức với p = 0,5 và nó không đơn giản.

Trong phần giới thiệu thông thường của tôi về kiểm tra giả thuyết, tôi cố gắng khắc phục nhược điểm này bằng cách chỉ sử dụng trường hợp thành công trong phân phối nhị thức, xác suất có thể được tính là p ^ n ngay cả bởi những người không biết về xác suất nhị thức.

Trong ví dụ yêu thích của tôi, tôi thích hạt dẻ rang và tôi mua một ít trong số chúng từ một người bán hàng rong. Tôi nhận được chúng với giá chiết khấu vì chúng đến từ một túi lớn trong đó 10% hạt dẻ có lỗ giun - ở đây tôi cố gắng làm rõ rằng túi đã được trộn đều để hạt dẻ của tôi là một mẫu hạt dẻ ngẫu nhiên trong túi và tuyên bố của nhà cung cấp có nghĩa là mỗi hạt dẻ có xác suất độc lập là 10% có lỗ giun.

Khi tôi bắt đầu thưởng thức hạt dẻ rang của mình, tôi lấy từng cái một và kiểm tra xem chúng có bị sâu không trước khi ăn chúng.

Khi tôi kiểm tra hạt dẻ đầu tiên, tôi thấy một lỗ sâu và tôi tự hỏi liệu nhà cung cấp có nói dối tôi không - tôi giải thích ở đây rằng tự hỏi đó là đặt giả thuyết null của tôi p = 10% và giả thuyết thay thế của tôi p> 10%, và tôi đặt chúng trong bảng đen. Tôi có lý do để nghi ngờ rằng p = 10% khi tôi có một hạt dẻ xấu trong số đó không? Chà, 10% số người thực hiện cùng một thí nghiệm sẽ nhận được kết quả tương tự, vì vậy tôi có thể nghĩ rằng mình vừa gặp xui xẻo.

Sau đó, tôi lấy hạt dẻ thứ hai và nó cũng có một lỗ giun. Hai trong số hai có xác suất chỉ 1% nếu nhà cung cấp không nói dối tôi. Tôi có thể đã có một sự xui xẻo, nhưng tôi rất nghi ngờ về nhà cung cấp.

Hạt dẻ thứ ba cũng có một lỗ sâu. Lấy ba hạt dẻ có giun ra khỏi ba sẽ không thể giả định rằng nhà cung cấp công bằng và p = 10%, nhưng điều đó rất khó xảy ra (xác suất = 0,1%). Vì vậy, bây giờ tôi có một lý do mạnh mẽ để nghi ngờ về công việc của nhà cung cấp và tôi đưa ra khiếu nại và yêu cầu được hoàn trả.

Tất nhiên, loại thử nghiệm liên tiếp này có một số vấn đề lý thuyết, nhưng nó không quan trọng lắm để thể hiện ý tưởng của một thử nghiệm giả thuyết. Trên thực tế, ý tưởng quan trọng nhất không được đề cập trong ví dụ đó là trong các bài kiểm tra giả thuyết, chúng tôi tính toán xác suất của kết quả mà chúng tôi nhận được hoặc bất cứ điều gì tồi tệ hơn - trong ví dụ của tôi, điều này đã tránh được bằng cách chỉ nhận được kết quả tồi tệ nhất có thể.

Tôi đã sử dụng ví dụ này nhiều lần với sinh viên năm nhất tại trường đại học - vẫn còn là thanh thiếu niên về mặt kỹ thuật - nhưng tôi nghĩ nó cũng có thể hoạt động tốt với thanh thiếu niên trẻ tuổi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.