Tại sao các biện pháp phân tán ít trực quan hơn trung tâm?


11

Dường như có một cái gì đó trong sự hiểu biết của con người chúng ta tạo ra những khó khăn trong việc nắm bắt trực giác ý tưởng về phương sai. Theo nghĩa hẹp, câu trả lời là ngay lập tức: bình phương ném chúng ta khỏi sự hiểu biết theo phản xạ. Nhưng, đó chỉ là phương sai thể hiện vấn đề, hay đó là toàn bộ ý tưởng lan truyền trong dữ liệu? Chúng tôi tìm nơi ẩn náu trong phạm vi, hoặc chỉ nêu tối thiểu và tối đa, nhưng chúng ta chỉ đang tránh những khó khăn thực sự? Trong trung bình (chế độ hoặc trung vị), chúng tôi tìm thấy trung tâm, tóm tắt ... một sự đơn giản hóa; phương sai lan truyền mọi thứ xung quanh và khiến chúng không thoải mái. Người đàn ông nguyên thủy chắc chắn sẽ sử dụng phương tiện trong việc săn bắn động vật bằng cách tam giác cầu nguyện, nhưng tôi cho rằng sau đó chúng ta cảm thấy cần phải định lượng sự lây lan của mọi thứ. Trên thực tế, thuật ngữ phương sai được Ronald Fisher giới thiệu lần đầu tiên vào năm 1918 trong bài báo "Mối tương quan giữa những người có quan hệ với việc giả định quyền thừa kế Mendel".

Hầu hết những người theo dõi tin tức sẽ nghe câu chuyện về bài phát biểu không may của Larry Summers về năng khiếu toán học theo giới tính , có thể liên quan đến việc ông rời Harvard. Tóm lại, ông đề nghị một sự khác biệt lớn hơn trong việc phân phối năng lực toán học giữa nam giới so với nữ giới, mặc dù cả hai giới đều có cùng một ý nghĩa. Bất kể sự phù hợp hoặc ý nghĩa chính trị, điều này dường như được chứng minh trong các tài liệu khoa học .

Quan trọng hơn, có lẽ sự hiểu biết về các vấn đề như biến đổi khí hậu - xin vui lòng tha thứ cho tôi vì đã đưa ra các chủ đề có thể dẫn đến hoàn toàn không bị thảo luận - bởi dân số nói chung có thể được hỗ trợ bởi sự quen thuộc được cải thiện với ý tưởng về phương sai.

Vấn đề trở nên phức tạp khi chúng ta cố gắng nắm bắt hiệp phương sai, như được hiển thị trong bài đăng này , có một câu trả lời tuyệt vời và đầy màu sắc của @whuber ở đây .

Nó có thể được hấp dẫn để bỏ câu hỏi này là quá chung chung, nhưng rõ ràng là chúng ta đang thảo luận nó một cách gián tiếp, như trong bài này , nơi mà toán học là không đáng kể, tuy nhiên khái niệm vẫn tiếp tục là khó nắm bắt, belying một sự chấp nhận thoải mái hơn trong phạm vi như trái ngược với phương sai ý tưởng nhiều sắc thái .

Trong một lá thư từ Fisher gửi EBFord , đề cập đến cuộc tranh cãi về sự nghi ngờ của ông đối với các thí nghiệm Mendel, chúng tôi đọc: "Bây giờ, khi dữ liệu đã bị làm giả, tôi biết rất rõ mọi người thường đánh giá thấp tần suất sai lệch cơ hội rộng , vì vậy mà xu hướng luôn là làm cho họ đồng ý quá tốt với những kỳ vọng ... những sai lệch [trong dữ liệu của Mendel] là rất nhỏ. " RA Fisher vĩ đại rất quan tâm đến việc nghi ngờ các phương sai nhỏ trong các mẫu nhỏ mà ông viết : "vẫn có khả năng, trong số những người khác rằng Mendel đã bị lừa bởi một số trợ lý biết quá rõ những gì được mong đợi."

Và hoàn toàn có thể là sự thiên vị này đối với sự hiểu lầm hoặc hiểu lầm lan truyền vẫn tồn tại đến ngày nay. Nếu vậy, có bất kỳ lời giải thích cho lý do tại sao chúng ta thoải mái với các khái niệm trung tâm hơn là phân tán? Có bất cứ điều gì chúng ta có thể làm để nội tâm hóa ý tưởng?

Một số khái niệm chúng ta "nhìn thấy" trong nháy mắt, và sau đó chúng ta không, nhưng chúng ta chấp nhận chúng và tiếp tục. Ví dụ: hoặc , nhưng chúng ta thực sự không cần biết về những danh tính này để đưa ra quyết định trong cuộc sống hàng ngày. Điều tương tự không đúng với phương sai. Vì vậy, không nên trực quan hơn?E = m c 2eiπ+1=0E=mc2

Nassim Taleb đã có cơ hội áp dụng nhận thức của mình (tốt, thực sự là Benoit Mandelbrot ) về sự hiểu biết thiếu sót về phương sai để khai thác thời kỳ khủng hoảng, và đã cố gắng làm cho khái niệm trở nên dễ hiểu đối với quần chúng bằng những câu như "phương sai của phương sai , một biện pháp thiếu kiến ​​thức về việc thiếu kiến ​​thức về ý nghĩa "- vâng, có nhiều bối cảnh hơn cho câu nói này ... Và với tín dụng của mình, ông cũng đã làm cho nó đơn giản hơn với ý tưởng Lễ Tạ ơn của Thổ Nhĩ Kỳ . Người ta có thể lập luận rằng chìa khóa để đầu tư là hiểu phương sai (và hiệp phương sai).

Vậy tại sao nó quá trơn, và làm thế nào để khắc phục nó? Không có công thức ... chỉ là trực giác của nhiều năm đối phó với sự không chắc chắn ... Tôi không biết câu trả lời, nhưng nó không phải là toán học (nhất thiết, đó là): chẳng hạn, tôi tự hỏi liệu ý tưởng về kurtosis có can thiệp vào phương sai không. Trong cốt truyện sau đây, chúng ta có hai biểu đồ chồng chéo với phương sai gần như giống nhau; Tuy nhiên, phản ứng giật đầu gối của tôi là cái có đuôi dài nhất và đỉnh cao nhất (mức độ tổn thương cao hơn) sẽ "lan rộng" hơn:


2
Phương sai rất khó hiểu chủ yếu là vì nó bình phương, tôi nghĩ vậy. Mọi người dường như không gặp quá nhiều khó khăn với độ lệch tuyệt đối trung bình. (Tôi thường sử dụng ý tưởng đó để làm việc với độ lệch chuẩn, vd.)
gung - Rebstate Monica

Thật khó để học những gì người ta đã học, nhưng tôi không chắc rằng tiền đề của tiêu đề là chính xác. Ví dụ, sự khác biệt, bao gồm phạm vi, trong một số cách có vẻ nhiều hơn trực quan hơn tóm tắt như giá trị trung bình hoặc trung bình. Tài khoản khác nhau; nhưng mặc dù giá trị trung bình xảy ra trong toán học cổ điển, việc sử dụng nó để tóm tắt dữ liệu chỉ xuất hiện chậm và đau đớn vào khoảng thế kỷ 17.
Nick Cox

1
Với hy vọng câu trả lời cho điều này không bị chuyển hướng thành các chi tiết cụ thể không nhất thiết liên quan đến vấn đề - câu hỏi này có liên quan nhiều hơn đến phương sai không (có thể thảo luận về bình phương) hay khái niệm chung hơn về tính biến đổi (phân tán, lan truyền, biến thể - mà nó sẽ không)? [Tôi cũng tự hỏi về mức độ mà chúng ta thực sự có thể khái quát về cảm giác trực giác tương đối của người khác]
Glen_b -Reinstate Monica

Cái sau Tôi nên làm cho nó rõ ràng. Không chắc chắn về câu hỏi tổng thể. Hãy đóng nó lại.
Antoni Parellada

@Antoni Tại sao tôi muốn đóng nó? Một trong hai hình thức sẽ là một câu hỏi hay; chỉ là câu trả lời sẽ khác nhau.
Glen_b -Reinstate Monica

Câu trả lời:


9

Tôi chia sẻ cảm nhận của bạn rằng phương sai hơi ít trực quan. Quan trọng hơn, phương sai như một thước đo được tối ưu hóa cho các phân phối nhất định và có ít giá trị hơn cho các phân phối không đối xứng. Sự khác biệt tuyệt đối trung bình so với giá trị trung bình không trực quan hơn nhiều theo quan điểm của tôi, bởi vì nó đòi hỏi người ta phải chọn giá trị trung bình làm thước đo của xu hướng trung tâm. Tôi thích sự khác biệt trung bình của Gini --- sự khác biệt tuyệt đối trung bình trên tất cả các cặp quan sát. Đó là trực quan, mạnh mẽ và hiệu quả. Về hiệu quả, nếu dữ liệu đến từ phân phối Gaussian, sự khác biệt trung bình của Gini với hệ số thay đổi tỷ lệ thích hợp được áp dụng cho nó là 0,98 hiệu quả như độ lệch chuẩn mẫu. Có một công thức tính toán hiệu quả cho sự khác biệt trung bình của Gini sau khi dữ liệu được sắp xếp. Mã R ở dưới.

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))

Nó có xu hướng nhấn mạnh quá mức phân tán? Tôi đã chơi với mã của bạn ở đây
Antoni Parellada

1
Đó là một biện pháp phân tán hợp lệ. Nếu bạn thích định nghĩa của nó, nó không quá nhấn mạnh bất cứ điều gì.
Frank Harrell

Chắc chắn rồi. Tôi coi bài viết của bạn như một cơ hội để tìm hiểu và nhận xét của tôi là cách tôi thể hiện sự quan tâm. Tôi chỉ cần đọc thêm về nó. Cảm ơn bạn!
Antoni Parellada

1
Chỉ khi vector xđã được sắp xếp.
Frank Harrell

4

Sau đây là những gì tôi nghĩ. Nó không giải quyết mọi góc độ bạn có thể nhìn vào câu hỏi của bạn, trên thực tế, có rất nhiều điều nó không giải quyết (câu hỏi cảm thấy hơi rộng).

Tại sao giáo dân khó hiểu được cách tính toán của phương sai?

Phương sai về cơ bản là làm thế nào để trải ra mọi thứ. Điều này đủ dễ hiểu, nhưng cách tính toán có vẻ phản trực giác đối với một giáo dân.

Vấn đề là sự khác biệt so với giá trị trung bình được bình phương (sau đó tính trung bình), và sau đó căn bậc hai để có Độ lệch chuẩn. Chúng tôi hiểu lý do tại sao phương pháp này là cần thiết - bình phương là làm cho các giá trị dương và sau đó chúng được căn bậc hai để có được các đơn vị ban đầu. Tuy nhiên, một giáo dân có thể bị nhầm lẫn với lý do tại sao các số được bình phương và căn bậc hai. Điều này có vẻ như nó tự hủy bỏ (nó không) vì vậy dường như vô nghĩa / kỳ lạ.

Những gì trực quan hơn đối với họ là tìm ra sự lây lan bằng cách đơn giản lấy trung bình sự khác biệt tuyệt đối giữa giá trị trung bình và từng điểm (được gọi là độ lệch tuyệt đối trung bình). Phương pháp này không yêu cầu bình phương và root vuông, do đó trực quan hơn nhiều.

Lưu ý rằng chỉ vì Độ lệch tuyệt đối trung bình đơn giản hơn, không có nghĩa là 'tốt hơn'. Cuộc tranh luận về việc nên sử dụng giá trị Squares hay Tuyệt đối đã diễn ra trong một thế kỷ liên quan đến nhiều nhà thống kê nổi bật, vì vậy một người ngẫu nhiên như tôi không thể chỉ xuất hiện ở đây và nói rằng một người tốt hơn. (Trung bình bình phương để tìm phương sai tất nhiên là phổ biến hơn)

Tóm lại: Squared để tìm phương sai có vẻ ít trực quan hơn đối với những người giáo dân, những người sẽ tìm thấy trung bình sự khác biệt tuyệt đối để đơn giản hơn. Tuy nhiên, tôi không nghĩ mọi người có vấn đề với việc hiểu ý tưởng lan truyền chính nó


3
+1 để chỉ ra hiệu ứng của bình phương. Nhưng tôi nghĩ rằng vấn đề vượt ra ngoài cấu trúc toán học thực tế để đo lường sự lây lan. Đó là ở cấp độ thân não triệt để hơn - cách xa trung tâm chỉ không cảm thấy tự nhiên; điểm trung tâm là.
Antoni Parellada

Ah tôi thấy. Tôi không chắc đó là về 'lây lan' hay cách toán học cụ thể để tìm sự lây lan. Tôi e rằng tôi không thể giúp bạn với người cũ - cá nhân tôi không nghĩ mọi người có quá nhiều vấn đề với việc hiểu khái niệm lây lan ...
Yang Li

Tôi làm. Tôi có rất nhiều vấn đề hiểu được mức độ không chắc chắn, mà ở một mức độ lớn, ngay lập tức là hậu quả của phương sai. Tôi chỉ không biết tại sao.
Antoni Parellada

3

Đây là ý kiến ​​của tôi về câu hỏi của bạn.

Tôi sẽ bắt đầu bằng cách đặt câu hỏi cho một câu trả lời nêu trên để sau đó cố gắng đưa ra quan điểm của mình.

Câu hỏi cho giả thuyết trước:

Có thực sự các hình vuông làm cho các biện pháp phân tán như Độ lệch trung bình vuông khó hiểu? Tôi đồng ý hình vuông làm cho nó khó hơn bằng cách mang lại sự phức tạp toán học nhưng nếu câu trả lời chỉ là hình vuông, thì Độ lệch tuyệt đối trung bình sẽ đơn giản để hiểu và đo lường tính trung tâm.

Ý kiến:

Tôi nghĩ rằng điều khiến chúng ta khó hiểu được các biện pháp phân tán là chính sự phân tán đó là thông tin 2 chiều. Cố gắng tóm tắt thông tin 2 chiều trong một số liệu có nghĩa là mất một phần thông tin do đó gây ra nhầm lẫn.

Thí dụ:

Một ví dụ có thể giúp giải thích khái niệm trên là bằng cách sau đây. Hãy lấy 2 bộ dữ liệu khác nhau:

  1. Theo phân phối Gaussian
  2. Theo một phân phối không xác định và không đối xứng

Chúng ta cũng giả sử độ phân tán theo độ lệch chuẩn là 1.0.

Tâm trí của tôi có xu hướng giải thích sự phân tán của tập 1 rõ ràng hơn nhiều so với tập 2. Trong trường hợp cụ thể này, lý do để tôi hiểu rõ hơn được giải thích khi biết trước hình dạng phân phối 2 chiều cho phép tôi hiểu được biện pháp phân phối trong các điều khoản của một xác suất xung quanh ý nghĩa Gaussian tập trung. Nói cách khác, phân phối Gaussian cho tôi gợi ý 2 chiều tôi cần để dịch tốt hơn từ thước đo độ phân tán.

Phần kết luận:

Tóm lại, không có cách hữu hình nào để chụp trong một Độ lệch tất cả có trong thông tin 2 chiều. Những gì tôi thường làm để hiểu sự phân tán mà không cần nhìn trực tiếp vào bản phân phối là kết hợp nhiều biện pháp giải thích một phân phối nhất định. Họ sẽ thiết lập bối cảnh để tâm trí tôi nắm bắt tốt hơn về chính biện pháp phân tán. Nếu tôi có thể sử dụng đồ thị thì chắc chắn các ô vuông thực sự hữu ích cho việc hiển thị nó.

Cuộc thảo luận tuyệt vời khiến tôi suy nghĩ rất nhiều về vấn đề này. Tôi sẽ rất vui khi nghe ý kiến ​​của bạn.


1
Một phản ứng tốt nghĩ ra +1. Tôi thực sự không có bất cứ điều gì để thêm, ngoại trừ rằng tôi nghĩ có lẽ có những lý do khác đáng để xem xét.
Yang Li

1

Tôi nghĩ rằng một lý do đơn giản khiến mọi người gặp khó khăn hơn với tính biến thiên (cho dù phương sai, độ lệch chuẩn, MAD hay bất cứ điều gì) là bạn không thể thực sự hiểu được sự biến đổi cho đến khi bạn hiểu ý tưởng về trung tâm. Điều này là do các biện pháp thay đổi đều được đo lường dựa trên khoảng cách từ trung tâm.

Các khái niệm như trung bình và trung bình là các khái niệm song song, bạn có thể học một trong hai trước và một số người có thể hiểu rõ hơn về một người và những người khác sẽ hiểu người khác tốt hơn. Nhưng sự lây lan được đo từ trung tâm (đối với một số định nghĩa về trung tâm), vì vậy không thể thực sự được hiểu trước tiên.


+1 Điều đó rất có ý nghĩa - đó là một khái niệm thứ yếu ...
Antoni Parellada

@Greg Snow: ngoại trừ việc đó là 'nt đúng; thấy Gini có nghĩa là sự khác biệt từ câu trả lời của Frank Harrells, điều đó không có nghĩa là sai lệch so với trung tâm.
kjetil b halvorsen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.