Giải thích cư sĩ yêu thích của bạn cho một khái niệm thống kê khó khăn là gì?


36

Tôi thực sự thích nghe giải thích đơn giản cho các vấn đề phức tạp. Sự tương tự hoặc giai thoại yêu thích của bạn giải thích một khái niệm thống kê khó khăn là gì?

Yêu thích của tôi là lời giải thích của Murray về sự hợp nhất bằng cách sử dụng một người say rượu và con chó của cô ấy. Murray giải thích làm thế nào hai quá trình ngẫu nhiên (một người say rượu lang thang và con chó của cô, Oliver) có thể có gốc rễ đơn vị nhưng vẫn có liên quan (hợp nhất) vì sự khác biệt đầu tiên của chúng là đứng yên.

Người say rượu bước ra từ quán bar, sắp lang thang vô định trong thời trang đi bộ ngẫu nhiên. Nhưng theo định kỳ, cô ấy gọi "Oliver, em đang ở đâu?", Và Oliver ngắt lời anh lang thang vô mục đích để sủa. Anh nghe thấy cô; Cô nghe thấy anh. Anh ta nghĩ, "Ồ, tôi không thể để cô ấy đi quá xa; cô ấy sẽ khóa tôi lại." Cô nghĩ, "Ồ, tôi không thể để anh ta đi quá xa; anh ta sẽ đánh thức tôi vào giữa đêm với tiếng sủa của anh ta." Mỗi người đánh giá khoảng cách của người kia là bao xa và di chuyển để đóng một phần khoảng cách đó.

Câu trả lời:


18

Giá trị p là thước đo mức độ lúng túng của dữ liệu đối với giả thuyết null

Nicholas Maxwell, Vấn đề dữ liệu: Thống kê khái niệm cho một thế giới ngẫu nhiên Emeryville CA: Key College Publishing, 2004.


15
  1. Nếu bạn khắc phân phối (biểu đồ) của bạn ra khỏi gỗ và cố gắng cân bằng nó trên ngón tay của bạn, điểm cân bằng sẽ là trung bình, bất kể hình dạng của phân phối.

  2. Nếu bạn đặt một cây gậy ở giữa biểu đồ phân tán của bạn và gắn cây gậy vào từng điểm dữ liệu bằng một lò xo, điểm nghỉ của cây gậy sẽ là đường hồi quy của bạn. [1]

[1] về mặt kỹ thuật này sẽ là hồi quy thành phần chính. bạn sẽ phải buộc các lò xo chỉ di chuyển "theo chiều dọc" thành các hình vuông nhỏ nhất, nhưng ví dụ này chỉ mang tính minh họa.


2
Lực lò xo tỷ lệ thuận với biến dạng, vì vậy đây không phải là hồi quy bình phương nhỏ nhất!
shabbychef

1
Cố gắng nhé! Phụ thuộc vào mùa xuân. Ví dụ: nếu hằng số lò xo là 1 / sigma, hoạt động rất tốt;)
Neil McGuigan

2
không, không, vấn đề là ở trạng thái cân bằng tĩnh, tổng lực sẽ bằng không; giả sử các hằng số lò xo bằng nhau, bạn sẽ giảm thiểu tổng độ lệch tuyệt đối, tức là hồi quy , không phải là bình phương nhỏ nhất. Điều này bỏ qua thực tế là các lò xo sẽ ​​phải tự do nổi trên thanh, vì vậy chúng sẽ dịch chuyển để biến dạng không hoàn toàn theo hướng , dẫn đến một cái gì đó giống như Thành phần chính, nhưng có lỗi tuyệt đối. L1y
shabbychef

@shabbychef: Lực lò xo tỷ lệ với biến dạng có nghĩa là năng lượng lò xo tỷ lệ với bình phương biến dạng. Năng lượng mùa xuân thực sự là những gì giảm thiểu ở trạng thái cân bằng. Tổng các lực bằng 0 không phải là các lực hoặc được giảm thiểu. giảm thiểu tổng giá trị tuyệt đối. L1L1
wnoise

12

Tôi đã sử dụng đi bộ của người say rượu trước đây để đi bộ ngẫu nhiên, và người say rượu và con chó của cô ấy để hợp nhất; chúng rất hữu ích (một phần vì chúng thú vị).

Một trong những ví dụ phổ biến yêu thích của tôi là Nghịch lý Sinh nhật ( mục nhập wikipedia ), minh họa một số khái niệm quan trọng về xác suất. Bạn có thể mô phỏng điều này với một căn phòng đầy người.

Tình cờ, tôi đặc biệt khuyến nghị "Số liệu thống kê giảng dạy: Một túi thủ thuật" của Andrew Gelman cho một số ví dụ về các cách sáng tạo để dạy các khái niệm thống kê (xem mục lục ). Cũng xem bài báo của anh ấy về khóa học mà anh ấy dạy về giảng dạy thống kê: "Một khóa học về giảng dạy thống kê ở cấp đại học" . Và về "Dạy Bayes cho sinh viên tốt nghiệp Khoa học Chính trị, Xã hội học, Sức khỏe Cộng đồng, Giáo dục, Kinh tế, ..." .

Để mô tả các phương pháp Bayes, sử dụng một đồng tiền không công bằng và lật nó nhiều lần là một cách tiếp cận khá phổ biến / hiệu quả.


1
Không có thứ gọi là đồng tiền không công bằng: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
Tim

11

Tôi muốn chứng minh biến thể lấy mẫu và về cơ bản là Định lý giới hạn trung tâm thông qua một bài tập "trong lớp". Mọi người trong lớp nói 100 học sinh viết tuổi của họ trên một tờ giấy. Tất cả các mảnh giấy có cùng kích thước và được gấp theo cùng một kiểu sau khi tôi đã tính trung bình. Đây là dân số và tôi tính tuổi trung bình. Sau đó, mỗi học sinh chọn ngẫu nhiên 10 mẩu giấy, ghi lại các lứa tuổi và trả chúng vào túi. (S) anh ta tính toán trung bình và chuyển túi cho học sinh tiếp theo. Cuối cùng, chúng tôi có 100 mẫu gồm 10 sinh viên, mỗi người ước tính dân số có nghĩa là chúng tôi có thể mô tả thông qua biểu đồ và một số thống kê mô tả.

Sau đó, chúng tôi lặp lại cuộc biểu tình lần này bằng cách sử dụng một bộ 100 "ý kiến" sao chép một số câu hỏi Có / Không từ các cuộc thăm dò gần đây, ví dụ: Nếu cuộc bầu cử (Đại tướng Anh) được gọi vào ngày mai, bạn sẽ xem xét bỏ phiếu cho Đảng Quốc gia Anh. Học sinh họ mẫu 10 trong số những ý kiến ​​này.

Cuối cùng, chúng tôi đã chứng minh biến thể lấy mẫu, Định lý giới hạn trung tâm, v.v. với cả dữ liệu nhị phân và dữ liệu nhị phân.


10

Chắc chắn là vấn đề Monty Hall. http://en.wikipedia.org/wiki/Monty_Hall_propet


1
+1 vấn đề đó đã vặn vẹo não tôi khi tôi lần đầu tiên đọc và nghĩ về nó - và giải pháp khá đơn giản nhưng dạy rất nhiều về xác suất.
Sharpie

1
Tôi thấy vấn đề Monty Hall làm bất cứ điều gì ngoại trừ lời giải thích xác suất của một giáo dân đơn giản. Tôi hiểu điều đó, nhưng tôi vẫn gặp khó khăn trong việc xoay quanh nó, nói gì đến việc hiểu nó đủ tốt để giải thích nó cho một người không thống kê và để họ học được điều gì đó từ nó ... Dù sao, bạn không xác định liệu vấn đề là khái niệm khó khăn của bạn , hoặc giải thích của giáo dân của bạn . -1 cho đến khi bạn làm.
ness101

2
Cách dễ dàng để giải thích vấn đề Monty Hall là tưởng tượng vấn đề tương tự nhưng với 1000 cánh cửa - 999 trong số chúng có một con dê đằng sau chúng và chỉ có 1 trong số chúng có một chiếc xe phía sau nó. Giả sử bạn chọn một cánh cửa, và người dẫn chương trình trò chơi mở 998 cánh cửa khác và hỏi bạn có muốn thay đổi quyết định của mình thành một cánh cửa mà anh ta không mở. Biết rằng anh ta không thể mở cánh cửa với chiếc xe phía sau, bạn sẽ phải chuyển sang cánh cửa khác (hoặc tự tin một cách nực cười rằng bạn đã đúng trong lựa chọn ban đầu của mình).
Berk U.

10

1) Một minh chứng tốt về cách xác định "ngẫu nhiên" để xác định xác suất của các sự kiện nhất định:

Cơ hội mà một đường ngẫu nhiên được vẽ trên một vòng tròn sẽ dài hơn bán kính là gì?

Câu hỏi hoàn toàn phụ thuộc vào cách bạn vẽ đường của bạn. Các khả năng mà bạn có thể mô tả theo cách trong thế giới thực cho một vòng tròn được vẽ trên mặt đất có thể bao gồm:

Vẽ hai điểm ngẫu nhiên bên trong vòng tròn và vẽ một đường thẳng qua các điểm đó. (Xem nơi hai con ruồi / đá rơi xuống ...)

Chọn một điểm cố định trên chu vi, sau đó chọn một điểm ngẫu nhiên ở nơi khác trong vòng tròn và nối các điểm đó. (Trong thực tế, điều này là đặt một cây gậy xuyên qua vòng tròn ở một góc thay đổi thông qua một điểm nhất định và một điểm ngẫu nhiên, ví dụ như nơi một hòn đá rơi xuống.)

Vẽ đường kính. Chọn ngẫu nhiên một điểm dọc theo nó và vẽ một đường vuông góc qua đó. (Cuộn một cây gậy theo một đường thẳng để nó nằm trên vòng tròn.)

Nó tương đối dễ dàng để hiển thị ai đó có thể thực hiện một số hình học (nhưng không nhất thiết là số liệu thống kê) câu trả lời cho câu hỏi có thể thay đổi khá rộng rãi (từ khoảng 2/3 đến khoảng 0,866 hoặc hơn).

(1210)

3) Giải thích tại sao chẩn đoán y tế có vẻ thực sự thiếu sót. Một xét nghiệm tìm bệnh foo có độ chính xác 99,9% trong việc xác định những người mắc bệnh nhưng .1% chẩn đoán sai tích cực những người không thực sự mắc bệnh có vẻ rất sai thường xuyên khi tỷ lệ mắc bệnh rất thấp ( ví dụ 1 trên 1000) nhưng nhiều bệnh nhân được thử nghiệm cho nó.

Đây là một trong những giải thích tốt nhất với những con số thực - hãy tưởng tượng 1 triệu người được xét nghiệm, vì vậy 1000 người mắc bệnh, 999 người được xác định chính xác, nhưng 0,1% trong số 999.000 là 999 người được cho biết họ mắc bệnh nhưng không. Vì vậy, một nửa những người được cho biết họ thực sự không có, mặc dù mức độ chính xác cao (99,9%) và mức độ dương tính giả thấp (0,1%). Một thử nghiệm thứ hai (lý tưởng khác nhau) sau đó sẽ tách các nhóm này ra.

[Ngẫu nhiên, tôi đã chọn các con số vì chúng dễ làm việc, tất nhiên chúng không phải cộng tới 100% vì tỷ lệ chính xác / dương tính giả là các yếu tố độc lập trong thử nghiệm.]


2
Tôi nghĩ ví dụ đầu tiên của bạn đề cập đến nghịch lý của Bertrand. Minh họa rất hay về những cách khác nhau để xác định một không gian xác suất!
chl

9

Cuốn sách Flaw of A Average của Sam Savage chứa đầy những giải thích tốt về giáo dân về các khái niệm thống kê. Cụ thể, anh ta có một lời giải thích tốt về sự bất bình đẳng của Jensen. Nếu biểu đồ lợi tức đầu tư của bạn là lồi, tức là "mỉm cười với bạn", thì sự ngẫu nhiên sẽ có lợi cho bạn: lợi nhuận trung bình của bạn lớn hơn lợi tức trung bình của bạn.



6

Behar et al có một bộ sưu tập 25 tương tự để giảng dạy thống kê. Đây là hai ví dụ:

2.9 Tất cả các mô hình là lý thuyết: Không có hình cầu hoàn hảo trong vũ trụ Dường như hình dạng hình học phổ biến nhất trong vũ trụ là hình cầu. Nhưng có bao nhiêu quả cầu hoàn hảo về mặt toán học trong vũ trụ? Câu trả lời là không. Không phải Trái đất, cũng không phải Mặt trời, cũng không phải quả bóng bi-a là một quả cầu hoàn hảo. Vì vậy, nếu không có hình cầu thực sự, công thức nào tốt để xác định diện tích hoặc thể tích của một hình cầu? Vì vậy, đó là với các mô hình thống kê nói chung và, đặc biệt, với một phân phối bình thường. Mặc dù một trong những ví dụ phổ biến nhất là phân bố chiều cao, nếu chúng ta tùy ý sử dụng chiều cao của mỗi người trưởng thành trên hành tinh, thì biểu đồ sẽ không tương ứng với đường cong chuông Gaussian, ngay cả khi dữ liệu được phân tầng theo giới tính, chủng tộc, hoặc bất kỳ đặc điểm khác.

2.25 Phần dư không nên chứa thông tin: Phần còn lại của Thùng rác là phần còn lại sau khi xóa tất cả thông tin khỏi dữ liệu. Vì chúng không mang thông tin gì, chúng tôi coi chúng là thùng rác. Cần phải đảm bảo rằng chúng tôi không vứt bất kỳ thùng rác nào có giá trị (thông tin) và có thể khai thác để giải thích rõ hơn hành vi của biến phụ thuộc.

Các ví dụ khác bao gồm

  • "Ảnh hưởng của cỡ mẫu đối với việc so sánh các phương pháp điều trị: Thông tin về ống nhòm"
  • "Cỡ mẫu so với kích thước của dân số: Một chiếc thìa để nếm súp"

Tài liệu tham khảo

  • Behar, R., Grima, P., & Marco-Almagro, L. (2012). Hai mươi lăm tương tự để giải thích các khái niệm thống kê. Thống kê người Mỹ, (vừa được chấp nhận).

3

Câu hỏi thú vị.

Một người nào đó phát hiện ra tôi làm việc trong ngành thống kê sinh học và họ đã hỏi tôi (về cơ bản) "Không phải thống kê chỉ là một cách nói dối sao?"

(Điều này mang lại trích dẫn của Mark Twain về Lies, Damn Lies và Statistics.)

Tôi đã cố gắng giải thích rằng các số liệu thống kê cho phép chúng tôi nói với độ chính xác 100 phần trăm rằng, giả định và đưa ra dữ liệu, rằng xác suất của những điều tương tự là chính xác và tương tự.

Cô không ấn tượng.


1
"Cho phép chúng tôi nói, với độ chính xác 100%, chính xác mức độ thiếu chính xác của chúng tôi lớn đến mức nào"
naught101

Nếu không phải là một lời bác bỏ hoàn toàn, câu trả lời của @ Jerom gợi ý lý do tại sao khái niệm "chính xác 100%" nên bị loại bỏ.
rolando2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.