Hiểu biết về phương sai của Nhật Bản trực giác


81

Cách sạch nhất, dễ nhất để giải thích cho ai đó về khái niệm phương sai là gì? Nó có nghĩa là trực giác? Nếu một người giải thích điều này với con họ, người ta sẽ làm thế nào?

Đó là một khái niệm mà tôi gặp khó khăn trong việc khớp nối - đặc biệt là khi liên quan đến phương sai rủi ro. Tôi hiểu nó về mặt toán học và cũng có thể giải thích nó theo cách đó. Nhưng khi giải thích các hiện tượng trong thế giới thực, làm thế nào để bạn hiểu được phương sai và đó là khả năng ứng dụng trong 'thế giới thực', có thể nói như vậy.

Giả sử chúng ta đang mô phỏng một khoản đầu tư vào một cổ phiếu bằng cách sử dụng các số ngẫu nhiên (cán một con súc sắc hoặc sử dụng một bảng excel, không thành vấn đề). Chúng tôi nhận được một số 'lợi tức đầu tư' bằng cách liên kết từng trường hợp của biến ngẫu nhiên với 'một số thay đổi' trong lợi nhuận. Ví dụ.:

Cán 1 có nghĩa là thay đổi 0,8 trên 1 đô la đầu tư, 5 thay đổi 1,1 trên 1 đô la , v.v.

Bây giờ nếu mô phỏng này được chạy trong khoảng 50 lần (hoặc 20 hoặc 100), chúng tôi sẽ nhận được một số giá trị và giá trị cuối cùng của khoản đầu tư. Vì vậy, "phương sai" thực sự cho chúng ta biết nếu chúng ta tính toán nó từ tập dữ liệu trên? Người ta "thấy" điều gì - Nếu phương sai hóa ra là 1.7654 hoặc 0.88765 hoặc 5.2342 thì điều này có nghĩa là gì? Tôi đã làm gì / tôi có thể quan sát về khoản đầu tư này ?? Tôi có thể rút ra kết luận gì - theo cách nói của người đàn ông.

Xin vui lòng tăng câu hỏi với độ lệch chuẩn quá! Mặc dù tôi cảm thấy nó 'dễ hiểu' hơn, nhưng điều gì đó sẽ góp phần làm cho nó cũng 'rõ ràng' bằng trực giác sẽ được đánh giá rất cao!


3
Chúng ta không nên hợp nhất câu hỏi này với cùng một câu hỏi năm ngoái?
whuber

1
@whuber Tôi nghĩ những thứ này nên được hợp nhất. Có nhiều lần cùng một câu hỏi (ngay cả khi ở đây bối cảnh là khác nhau) làm giảm chất lượng trung bình của câu trả lời.
cướp girard

2
Tôi ổn với việc nó được hợp nhất nhưng tôi biết cách tính phương sai và nó cũng được sử dụng trong thống kê. Tôi muốn có thể nói rõ khái niệm này cho những người không biết gì về nó và phải mất một thời gian dài để làm như vậy và do đó câu hỏi. Mục đích khá khác so với câu hỏi về SD, IMHO
Tiến sĩ

2
Tôi không nghĩ bất kỳ ai trong số các bạn đang làm rất tốt việc trả lời điều này theo cách mà một Giáo dân sẽ hiểu. Tôi thấy rất nhiều giả định được đưa ra và hầu như mọi câu trả lời đều kết thúc với một điều gì đó cần được giải thích. Tôi không phàn nàn, chỉ cố gắng chỉ ra điều đó. Tôi cũng không thể trả lời câu hỏi đơn giản. Có lẽ nó quá khó?

Tôi không nghĩ bất kỳ câu trả lời nào dưới đây đã trả lời câu hỏi ở đây. Câu hỏi, như tôi giải thích, là về phương sai như một con số, khi nó được coi là lớn hay nhỏ. Câu trả lời hàng đầu dưới đây chẳng hạn, giải quyết câu hỏi phương sai lớn so với phương sai nhỏ có nghĩa là gì. Nếu tôi đưa cho bạn một tập dữ liệu mà bạn không thể hình dung một cách hợp lý, để bạn phải dựa vào các con số, làm thế nào bạn có thể biết liệu phương sai có lớn / nhỏ không?
dùng31415

Câu trả lời:


70

Tôi có lẽ sẽ sử dụng một sự tương tự tương tự như cái mà tôi đã học để đưa ra 'giáo dân' khi đưa ra khái niệm sai lệch và phương sai: tương tự bảng phi tiêu. Xem bên dưới:

nhập mô tả hình ảnh ở đây

Hình ảnh cụ thể ở trên là từ Bách khoa toàn thư về học máy và tài liệu tham khảo trong ảnh là "Giới thiệu về thực hành thống kê" của Moore và McCabe .

BIÊN TẬP:

Đây là một bài tập mà tôi tin là khá trực quan: Lấy một cỗ bài (ra khỏi hộp) và thả bộ bài từ độ cao khoảng 1 feet. Yêu cầu con bạn nhận thẻ và trả lại cho bạn. Sau đó, thay vì thả bộ bài, hãy ném nó lên cao nhất có thể và để các lá bài rơi xuống đất. Yêu cầu con bạn nhận thẻ và trả lại cho bạn.

Những niềm vui tương đối mà họ có trong hai thử nghiệm sẽ mang lại cho họ cảm giác trực quan về phương sai :)


1
Vì vậy, nó có nghĩa gì'? Nếu ai đó sẽ nhìn thấy phương sai thống kê của phi tiêu trên bảng, họ sẽ kết luận điều gì? Điều đó có nghĩa gì khi có phương sai thấp / cao nói theo trực giác ...
Tiến sĩ

1
Tôi sẽ nói một cái gì đó như: Hãy nói rằng chúng tôi đã ném 4 phi tiêu. Số lượng tay cần thiết để loại bỏ phi tiêu cùng một lúc tăng lên khi phương sai của các vị trí phi tiêu tăng lên (Lưu ý: lập luận rất không chính thức ở đây khi có một số phản vật chất, chẳng hạn như khi 3 phi tiêu được nhóm lại với nhau và phi tiêu cuối cùng là trên tường 3 feet từ darboard).

2
Sơ đồ của bạn dường như cũng cộng hưởng theo cách cổ điển để phân biệt độ chính xác và độ chính xác quá! Nó vừa đánh tôi!
Tiến sĩ

2
AAAAAAAAAAAH! Tập thể dục tốt đẹp! Cách tốt để chỉ cho ai đó ý nghĩa của việc có phương sai thấp / cao! Khoảng cách trung bình từ giá trị trung bình (trung bình) của các điểm dữ liệu :)
Tiến sĩ

2
(+1) Phi tiêu tương tự để chứng minh sự khác biệt giữa sai lệch và phương sai chỉ đơn giản là tuyệt vời
steffen

36

Tôi đã từng dạy thống kê cho một giáo dân bằng những trò đùa, và tôi thấy họ học được rất nhiều.

Giả sử cho phương sai hoặc độ lệch chuẩn, trò đùa sau đây khá hữu ích:

Trò đùa

Một khi hai nhà thống kê có chiều cao 4 feet và 5 feet phải băng qua một con sông có độ sâu 3 feet. Trong khi đó, một nhà thống kê thứ ba đến và nói, "bạn còn chờ gì nữa? Bạn có thể dễ dàng qua sông"

Tôi giả định rằng cư sĩ biết về thuật ngữ 'trung bình'. Bạn cũng có thể hỏi họ câu hỏi tương tự rằng họ sẽ qua sông trong tình huống này?

Điều họ thiếu là 'phương sai' để quyết định "phải làm gì trong tình huống này?"

Đó là tất cả về kỹ năng thuyết trình của bạn. Tuy nhiên, những câu chuyện cười giúp ích rất nhiều cho giáo dân muốn hiểu số liệu thống kê. Tôi hy vọng nó sẽ giúp!


1
Có lẽ tôi không tốt với những trò đùa thống kê ( mặc dù tôi khá tốt với những người khác :). Nhưng tôi không nghĩ rằng tôi hiểu ý nghĩa của "phải làm gì trong tình huống"? "Chính xác" người ta nên làm gì nếu họ có ý tưởng về phương sai? Làm thế nào người ta nên giải thích nó?
Tiến sĩ

6
@Nupul: Thật ra, "phải làm gì trong tình huống" nghĩa là họ có qua sông hay không? Nếu bạn biết phương sai (hoặc SD) thì bạn có thể quyết định dễ dàng. Giả sử phương sai là 0,25 (SD = 0,5) thì họ có thể qua sông an toàn vì phạm vi khoảng (không nhầm lẫn điều này với Độ tin cậy (CI)) là 3 + 0,5 hoặc 3-0,5, và độ cao của chúng là 4 và 5. Nếu phương sai là 4 thì tốt hơn để không qua sông. Nhân tiện, chỉ cần thưởng thức những câu chuyện cười ở đây stats.stackexchange.com/questions/1337/statistic-jokes
Biuler

Hoàn hảo! Tôi hiểu rồi! :) Điều đó làm cho rất nhiều ý nghĩa. Trong thực tế, việc kết hợp các câu trả lời từ nhiều người khác nhau giúp tôi hiểu rõ hơn về sự hiểu biết ...
Tiến sĩ

Hoặc, nếu cá mập không 'trung bình' ăn thịt người, điều đó thật thoải mái nếu chúng rất ủ rũ (hành vi biến thể cao). Trong tương tự sông, đó là về việc bạn sẽ thực hiện một bước sẽ đưa bạn qua đầu bạn.
Dean Radcliffe

12

Tôi sẽ tập trung vào độ lệch chuẩn hơn là phương sai; phương sai là trên thang đo sai.

Giống như mức trung bình là một giá trị điển hình, SD là sự khác biệt điển hình (tuyệt đối) so với mức trung bình. Nó không giống như gấp phân phối ở mức trung bình và lấy mức trung bình của điều đó.


1
Đã đồng ý. Hãy nói rằng chúng tôi tập trung vào SD. Câu hỏi của tôi vẫn là làm thế nào để khiến ai đó hiểu SD bằng trực giác ngoài 'SD cao không có vẻ tốt ' ... làm thế nào để tôi giải thích SD cho một giáo dân vì đó là căn bậc hai của phương sai !!!
Tiến sĩ

@Nupul - Đọc đoạn thứ hai của tôi: Tôi sẽ giải thích SD là sự khác biệt điển hình so với mức trung bình.
Karl

4
"Nó không giống như gấp phân phối ở mức trung bình và lấy mức trung bình của điều đó." Nhận xét đó, giống như phần còn lại của bài đăng của bạn, dường như mô tả độ lệch tuyệt đối có nghĩa, không phải độ lệch chuẩn.
Macro

3
@Macro - vâng; khi cố gắng giải thích SD, tôi sẽ ước tính nó bằng MAD. Tôi nghĩ tốt nhất không nên phân biệt giữa giá trị trung bình gốc so với giá trị tuyệt đối trung bình.
Karl

7

Tôi không đồng ý với rất nhiều câu trả lời ủng hộ mọi người hoàn toàn nghĩ về phương sai là sự lây lan. Như những người thông minh (Nassim Taleb) đã chỉ ra, khi mọi người nghĩ về phương sai là sự lây lan, họ chỉ cho rằng đó là MAD.

Phương sai là một mô tả về mức độ trung bình của các thành viên, và nó đánh giá tầm quan trọng của mỗi quan sát theo cùng khoảng cách này. Điều này có nghĩa là các quan sát ở xa được đánh giá quan trọng hơn. Do đó hình vuông.

Tôi nghĩ rằng phương sai của một biến thống nhất liên tục là dễ hình dung nhất. Mỗi quan sát có thể có một hình vuông được vẽ cho nó. Xếp các hình vuông này tạo ra một kim tự tháp. Cắt kim tự tháp làm đôi để một nửa trọng lượng ở một bên và một nửa ở bên kia. Khuôn mặt nơi bạn cắt nó là phương sai.


2
Tôi không biết tại sao câu trả lời này không được nâng cao hơn. Điểm được nêu trong đoạn thứ hai là rất quan trọng để hiểu phương sai và phân biệt nó với MAD, điều được chỉ ra một cách chính xác là những gì mọi người nghĩ theo trực giác khi nói về "biện pháp lây lan". Và nó không vượt quá một giáo dân để hiểu ý tưởng rằng trọng số cho một khoảng cách từ điểm trung bình không tăng theo tuyến tính, ngay cả khi họ không hiểu các hình vuông về mặt toán học.
jercliff radcliff

3
"MAD" = en.wikipedia.org/wiki/Median_absolute_deviation cho những ai đang thắc mắc. Tôi không nghĩ những từ viết tắt như vậy nên được thừa nhận kiến ​​thức về một câu hỏi như thế này.

5

Có lẽ điều này có thể giúp đỡ. Tôi xin lỗi trước rằng như là hoàn toàn nghiệp dư tôi có thể nhận được điều này sai.

Hãy tưởng tượng bạn yêu cầu 1000 người đoán chính xác có bao nhiêu hạt đậu trong một cái lọ chứa đầy hạt thạch. Bây giờ hãy tưởng tượng rằng bạn không nhất thiết quan tâm đến việc biết câu trả lời chính xác (có thể được sử dụng) nhưng bạn muốn hiểu rõ hơn về cách mọi người ước tính câu trả lời.

Phương sai có thể được giải thích cho một giáo dân là sự lan truyền của các câu trả lời khác nhau (từ cao nhất đến thấp nhất). Bạn có thể tiếp tục bằng cách thêm rằng nếu đủ số người được hỏi câu trả lời chính xác thì nên nằm ở đâu đó giữa sự lây lan của 'khách mời'.

Bây giờ tôi đề cập đến một số đồng nghiệp quý hơn của tôi để xét xử


5

Tôi đang ngồi cố gắng giải đố phương sai và điều cuối cùng khiến nó nhấp vào vị trí đối với tôi là nhìn vào đồ họa.

Giả sử bạn vẽ một dòng số có bốn điểm, -7, -1, 1 và 7. Bây giờ, hãy vẽ một trục Y tưởng tượng có cùng bốn điểm dọc theo chiều Y và sử dụng các cặp XY để vẽ hình vuông cho mỗi cặp điểm. Bạn cuộn lên với bốn hình vuông riêng biệt bao gồm 49, 1, 1 và 49 hình vuông nhỏ hơn, mỗi hình vuông. Mỗi người trong số họ đóng góp vào tổng số hình vuông, mà chính nó, có thể được biểu diễn dưới dạng một hình vuông lớn 10 x 10 với 100 hình vuông nhỏ hơn.

Phương sai là kích thước của hình vuông trung bình góp phần vào hình vuông lớn hơn đó. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Vậy 25 sẽ là phương sai. Độ lệch chuẩn sẽ là chiều dài của một trong các cạnh của hình vuông trung bình đó, hoặc 5.

Rõ ràng sự tương tự này không bao gồm đầy đủ sắc thái của khái niệm phương sai. Có rất nhiều điều cần giải thích, chẳng hạn như tại sao chúng ta thường sử dụng mẫu số của n-1 để ước tính tham số dân số, thay vì chỉ sử dụng n. Nhưng như là một khái niệm cơ bản để chốt phần còn lại của một sự hiểu biết chi tiết về phương sai, chỉ đơn giản là vẽ nó ra để tôi có thể thấy nó giúp ích rất nhiều. Nó giúp hiểu ý nghĩa của chúng ta khi chúng ta nói rằng phương sai là độ lệch bình phương trung bình so với giá trị trung bình. Nó cũng giúp hiểu được mối quan hệ của SD với mức trung bình đó.


1
Chào mừng bạn đến với Xác thực chéo! Tôi thích cách tiếp cận, nhưng có thể hữu ích hơn nữa khi nhấn mạnh rằng các điểm được trải đều 'quanh' 0 (nghĩa là chúng có ý nghĩa bằng 0) và bạn đang đo mức chênh lệch so với "nguyên tử" nằm ở đó. (+1) và tôi mong được thấy nhiều câu trả lời hơn từ bạn!
Matt Krause

4

Có rất nhiều giáo dân thực hành giảng dạy về độ lệch chuẩn và phương sai.

TL; DR; Nó là một cái gì đó như trung bình của khoảng cách từ trung bình. (có một chút khó hiểu và sai lệch trong phiên bản ngắn gọn như vậy. Vì vậy, hãy đọc toàn bộ bài viết)

Tôi giả sử cư sĩ biết về trung bình. Tôi nói về Tầm quan trọng của việc biết SD và ước tính lỗi (xem PS bên dưới). Sau đó, tôi hứa rằng sẽ không có kiến ​​thức thống kê cao hoặc toán học nào được sử dụng - chỉ là một lý luận khô khan và logic thuần túy.

  1. Vấn đề. Hãy nói rằng chúng ta có một nhiệt kế (tôi chọn một thiết bị đo tùy thuộc vào những gì gần với thính giác hơn).

    Chúng tôi đã thực hiện N phép đo cùng nhiệt độ và nhiệt kế cho chúng tôi thấy một số thứ như 36,5, 35,9, 37,0, 36,6, ... (xem hình). Chúng tôi biết rằng nhiệt độ thực là như nhau, nhưng nhiệt kế nằm cho chúng tôi mỗi lần đo.

    Làm thế nào chúng ta có thể ước tính bao nhiêu cặn bã này nói dối với chúng ta?

    Chúng ta có thể tính trung bình (xem dòng màu đỏ trên hình bên dưới). Chúng ta có thể tin được không? Ngay cả sau khi tính trung bình, nó có đủ độ chính xác cho nhu cầu của chúng ta không?

    Giá trị nhiệt kế và trung bình của chúng

  2. Cách tiếp cận dễ nhất . Chúng ta có thể lấy điểm xa nhất, tính khoảng cách giữa nó và điểm trung bình (đường màu đỏ) và nói rằng đây là cách nhiệt kế nằm với chúng ta, bởi vì đó là lỗi tối đa chúng ta thấy. Người ta có thể đoán, nó không phải là ước tính tốt nhất. Nếu chúng ta nhìn vào bức tranh, hầu hết các điểm đều ở mức trung bình, làm thế nào chúng ta có thể quyết định chỉ bằng một điểm? Trên thực tế người ta có thể thực hành đánh số lý do tại sao ước tính như vậy là thô và thường xấu.

  3. Phương sai . Sau đó ... hãy lấy tất cả khoảng cách và tính khoảng cách trung bình !

    BTW, làm thế nào để tính khoảng cách? Khi bạn nghe "khoảng cách" trong tiếng Anh (tiếng Tây Ban Nha? Tiếng Đan Mạch?), Nó sẽ dịch thành "phép trừ" trong toán học. Do đó, chúng tôi bắt đầu công thức của mình với trong đó là trung bình và là một trong các phép đo.ˉ x x i(xix¯)x¯xi

    Sau đó, người ta có thể tưởng tượng rằng công thức của khoảng cách trung bình sẽ là tổng hợp mọi thứ và chia cho N:

    (xix¯)N

    Nhưng có một vấn đề. Chúng ta có thể dễ dàng nhìn thấy, ví dụ. 36,4 và 36,8 ở cùng khoảng cách từ 36,6. nhưng nếu chúng ta đặt các giá trị trong công thức trên, chúng ta sẽ nhận được -0.2 và +0.2 và tổng của chúng bằng 0, đó không phải là điều chúng ta muốn.

    Làm thế nào để thoát khỏi dấu hiệu? (Tại thời điểm này, cư sĩ thường nói "Lấy giá trị tuyệt đối" và nhận được gợi ý rằng "lấy một giá trị tuyệt đối là một chút giả tạo, cách khác là gì?"). Chúng ta có thể bình phương các giá trị! Sau đó, công thức trở thành:

    (xix¯)2N
    .

    Công thức này được gọi là "Phương sai" trong thống kê. Và nó phù hợp hơn nhiều để ước tính sự lan truyền của các giá trị nhiệt kế (hoặc bất cứ thứ gì) của chúng tôi, hơn là chỉ lấy khoảng cách tối đa.

  4. Độ lệch chuẩn . Nhưng vẫn còn một vấn đề nữa. Nhìn vào công thức phương sai. Hình vuông làm cho các đơn vị đo lường của chúng tôi ... bình phương. Nếu nhiệt kế đo nhiệt độ theo ° C (hoặc ° F) thì ước tính sai số của chúng tôi được đo bằng (hoặc ). Làm thế nào để trung hòa các hình vuông? - Sử dụng căn bậc hai!°C2°F2

    (xix¯)2N

    Vì vậy, ở đây chúng ta đến với công thức Độ lệch chuẩn thường được ký hiệu là . Và đó là cách tốt hơn để ước tính độ chính xác của thiết bị của chúng tôi.σ

Tại thời điểm này, một giáo dân hiểu khá rõ ràng, làm thế nào chúng ta đến đây và làm thế nào độ lệch / phương sai tiêu chuẩn hoạt động. Từ thời điểm này, tôi thường đi đến quy tắc 68195959999, cũng mô tả về lấy mẫu và dân số, lỗi tiêu chuẩn so với các điều khoản độ lệch chuẩn Etc.

PS Tầm quan trọng của việc biết ví dụ về SD talk:

Hãy nói rằng bạn có một số thiết bị đo lường, có giá 1 000 000 $ . Và nó cho bạn câu trả lời: 42. Bạn có nghĩ rằng một người đã trả 1 000 000 $ cho 42 không? Phooey! Một người đã trả 1000 000 cho độ chính xác của câu trả lời đó. Bởi vì Giá trị - chi phí không có gì mà không biết Lỗi của nó. Bạn trả tiền cho lỗi, không phải giá trị. Đây là một ví dụ cuộc sống tốt.

Trong cuộc sống chung, hầu hết các lần chúng ta sử dụng thước đo để đo khoảng cách. Thước đo cung cấp cho bạn độ chính xác khoảng một milimét (nếu bạn không ở Mỹ). Điều gì nếu bạn phải vượt ra ngoài milimet và đo một cái gì đó với độ chính xác 0,1mm? - Bạn có thể sẽ sử dụng một caliper. Bây giờ, thật dễ dàng để kiểm tra, rằng một cây thước rẻ nhất (nhưng vẫn có độ chính xác đến từng milimet) có giá xu, trong khi caliper tốt có giá bằng mười đô la. 2 độ lớn của một mức giá cho 1 độ lớn của độ chính xác. Và đó là điều rất bình thường về số tiền bạn phải trả cho một lỗi.


2

Tôi nghĩ rằng cụm từ chính để sử dụng khi giải thích cả phương sai và độ lệch chuẩn là "thước đo mức độ lây lan" . Trong ngôn ngữ cơ bản nhất, phương sai và độ lệch chuẩn cho chúng ta biết mức độ lan truyền của dữ liệu. Để chính xác hơn một chút, mặc dù vẫn giải quyết vấn đề giáo dân, họ cho chúng tôi biết dữ liệu được lan truyền tốt như thế nào xung quanh giá trị trung bình. Khi đi qua, lưu ý rằng giá trị trung bình là "thước đo vị trí" . Để kết luận lời giải thích cho giáo dân, cần nhấn mạnh rằng độ lệch chuẩn được biểu thị theo cùng đơn vị với dữ liệu chúng tôi làm việc và đó là lý do chúng tôi lấy căn bậc hai của phương sai. tức là hai cái được liên kết

Tôi nghĩ rằng lời giải thích ngắn gọn sẽ làm điều đó. Nó có lẽ hơi giống với một lời giải thích sách giáo khoa giới thiệu nào.



-2

Tôi sẽ gọi nó là sự khác biệt tích cực trung bình so với trung bình tổng thể.


1
Cho đến khi bạn làm rõ hai loại "trung bình" mà bạn muốn nói (loại thứ nhất là trung bình và loại thứ hai là trung bình số học), gần như chắc chắn câu lệnh của bạn sẽ được diễn giải theo cách làm cho nó không chính xác. Hơn nữa, thuật ngữ "sự khác biệt tích cực" là lạ lùng và mơ hồ: bạn có nghĩa là chỉ xem xét các phần dư tích cực? Hoặc để lấy các giá trị tuyệt đối của phần dư? Hay cái gì khác? L2
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.