Khấu trừ phương sai từ boxplot

Tôi đã tự hỏi làm thế nào để suy ra phương sai của một biến bằng cách sử dụng boxplot. Có ít nhất có thể suy ra nếu hai biến có cùng phương sai quan sát boxplot của chúng không?

variance boxplot

— Donbeo
nguồn

Gần đây vấp phải bài viết này về một chủ đề tương tự. Hy vọng nó sẽ cung cấp cho bạn một cái nhìn sâu sắc.

— Penguin_Knight

Câu trả lời:

Không phải không có nhiều giả định nghiêm ngặt, không. Nếu bạn cho rằng câu trả lời là có (thay vì hỏi, tôi hoan nghênh bạn), tôi cá là tôi có thể đánh lừa bạn bằng ví dụ (bộ đếm) này:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

Trông khá giống nhau phải không? Tuy nhiên, ! $\sigma^2_1=1,\sigma^2_2=1.96$

Trong trường hợp không rõ ràng từ mã, dân số 2là:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

Và không, bạn không thể suy luận rằng dân số này là bình thường chỉ vì nó chính xác đối xứng. Đây là một âm mưu dân số QQ 2:

Chắc chắn là không bình thường với tôi.

Chỉnh sửa - Trả lời bình luận của bạn:

Phương sai là một thống kê số. Nếu phương sai của hai bản phân phối là bằng nhau theo nghĩa đen, thì đó là tất cả những gì bạn phải nói về điều đó. Nếu hai phân phối hoàn toàn bình thường , một lần nữa, có một định nghĩa toán học mà cả hai sẽ phù hợp. Nếu hai phân phối không chính xác bình thường hoặc bằng nhau, bạn không nên nói khác. Nếu bạn muốn nói rằng chúng xấp xỉ bằng hoặc bình thường, có lẽ bạn nên định nghĩa "đủ gần đúng" theo cách phù hợp với mục đích của bạn, mà bạn chưa chỉ định ở đây. Độ nhạy cảm với sự khác biệt về phân phối rất khác nhau trong các phân tích thường thúc đẩy các câu hỏi như của bạn. Ví dụ, $t$ nó khá mạnh mẽ đối với các vi phạm của các mẫu sau được cho bằng các cỡ mẫu bằng nhau ), vì vậy tôi không khuyến nghị thử nghiệm đó để so sánh dân số của tôi 2với dân số 1(phân phối bình thường).

— Nick Stauner
nguồn

Ví dụ tốt. Nick đang sử dụng R. (Cho đến khi mọi người sử dụng R, thật tốt khi đề cập đến điều đó.)

— Nick Cox

Không thể không nghĩ rằng đó sẽ là một ngày tốt cho khoa học trên toàn bộ :)

— Nick Stauner

Tôi có một bài luận dài về điều đó, nhưng bằng cách nào đó nó sẽ không phù hợp với không gian có sẵn.

— Nick Cox

Câu trả lời tốt. Bạn có thể viết những thông tin nào chúng tôi nên báo cáo để nói: "Chúng là bình thường và phương sai là như nhau"

— Donbeo

Chỉnh sửa để trả lời.

— Nick Stauner

Điều này đã được trả lời tốt. Những bình luận thêm này hơi quá dài (CẬP NHẬT: bây giờ quá dài) để đi như bình luận.

Nghiêm túc, tất cả những gì bạn có thể đọc được từ một boxplot về tính biến thiên của phân phối là phạm vi liên vùng của nó (chiều dài hoặc chiều cao của hộp) và phạm vi (chiều dài hoặc chiều cao giữa các cực trị của màn hình).

Là một xấp xỉ, các ô hình có vẻ giống hệt nhau có thể có phương sai rất giống nhau, nhưng xem ra. Các ô hình hộp với vị trí hộp hoặc đuôi rất khác nhau (hoặc cả hai) hầu như không có phương sai tương tự, nhưng không phải là không thể. Nhưng ngay cả khi các ô hộp trông giống hệt nhau, bạn không nhận được thông tin nào trong biểu đồ hộp đơn giản hoặc vanilla về độ biến thiên trong hộp hoặc thực sự biến đổi trong râu (các đường thường được hiển thị giữa hộp và các điểm dữ liệu trong 1,5 IQR của phân vị gần) . NB một số biến thể của ô hộp tồn tại; các tác giả thường kém trong việc ghi lại các quy tắc chính xác được sử dụng bởi phần mềm của họ.

Sự phổ biến của cốt truyện hộp có giá của nó. Biểu đồ hộp có thể rất hữu ích để hiển thị các tính năng tổng của nhiều nhóm hoặc biến (ví dụ 20 hoặc 30, đôi khi thậm chí nhiều hơn). Như thường được sử dụng để so sánh nói 2 hoặc 3 nhóm, chúng được bán quá mức, theo quan điểm của tôi, vì các lô khác có thể hiển thị nhiều chi tiết hơn một cách thông minh trong cùng một không gian. Đương nhiên, điều này là rộng rãi nếu không được đánh giá cao trên toàn cầu, và các cải tiến khác nhau của cốt truyện hộp cho thấy nhiều chi tiết hơn.

Công việc nghiêm túc với phương sai đòi hỏi quyền truy cập vào dữ liệu gốc.

Đây là bàn chải rộng, và nhiều chi tiết có thể được thêm vào. Ví dụ, vị trí của dải trung vị trong hộp đôi khi cung cấp thêm một chút thông tin.

CẬP NHẬT

Tôi đoán rằng nhiều người quan tâm đến việc sử dụng (và giới hạn) của các ô vuông nói chung hơn là trong câu hỏi cụ thể về suy ra phương sai từ một ô vuông (mà câu trả lời ngắn gọn là "Bạn không thể, ngoại trừ, gián tiếp, xấp xỉ, và đôi khi "), vì vậy tôi sẽ thêm nhận xét thêm về các lựa chọn thay thế, như được nhắc bởi @Christian Sauer.

Biểu đồ được sử dụng hợp lý thường vẫn cạnh tranh. Các văn bản giới thiệu cổ điển hiện đại của Freedman, Pisani và Purves sử dụng chúng xuyên suốt.
Những gì được gọi là ô chấm hoặc dải (biểu đồ) (và bằng nhiều tên khác) là dễ hiểu. Điểm giống hệt nhau có thể được xếp chồng lên nhau, sau khi đóng thùng nếu muốn. Bạn có thể thêm trung bình và tứ phân, hoặc khoảng trung bình và khoảng tin cậy vào nội dung trái tim của bạn.
Các lô định lượng, dường như, là một hương vị có được nhưng theo một số cách linh hoạt nhất trong tất cả. Tôi bao gồm ở đây các ô của các giá trị được sắp xếp lại xác suất tích lũy (vị trí vẽ) cũng như các ô lượng tử sẽ thẳng nếu dữ liệu là bất kỳ phân phối "tên thương hiệu" nào được xem xét (bình thường, hàm mũ, gamma, bất cứ điều gì). (Lời cảm ơn tới @Scortchi để tham khảo "tên thương hiệu" như được sử dụng bởi CJ Geyer.)

Nhưng một danh sách toàn diện là không thể. . dường như không thể, nhận thức về cấu trúc tốt trong dữ liệu có thể thú vị hoặc quan trọng (phương thức, độ chi tiết, ngoại lệ, v.v.) cũng như cấu trúc thô (mức độ, mức độ lan truyền, độ lệch, v.v.).

Đồ thị hộp không tốt như nhau trong việc hiển thị tất cả các loại cấu trúc. Họ không thể, và không có ý định. Nó đáng để gắn cờ mà JW Tukey trong phân tích dữ liệu Khám phá Đọc, MA: Addison-Wesley (1977) đã đưa ra một ví dụ về dữ liệu lưỡng kim từ Rayleigh mà một âm mưu hộp che khuất hoàn toàn cấu trúc chính. Là một nhà thống kê vĩ đại, ông nhận thức rõ rằng các ô vuông không phải lúc nào cũng là câu trả lời.

Một thực tiễn kỳ lạ, phổ biến rộng rãi trong các văn bản giới thiệu, đang thảo luận về ANOVA trong khi mời độc giả xem xét các ô vuông, trong đó hiển thị trung vị và tứ phân, không phải phương tiện và phương sai (thay vì SD). Đương nhiên, nhìn vào dữ liệu tốt hơn nhiều so với không nhìn, nhưng ngay cả như vậy, một đại diện đồ họa phù hợp hơn được cho là một số biểu đồ của dữ liệu thô với phương tiện được trang bị +/- một số bội số thích hợp của SE.

— Nick Cox
nguồn

Nick, bạn có thể mô tả các lựa chọn thay thế cho ô vuông cho một số lượng nhỏ các biến không?

— Christian Sauer

@ChristianSauer Cảm ơn lời nhắc: vui lòng xem cập nhật.

— Nick Cox

Cảm ơn bạn đã cập nhật rất tốt đẹp. Tôi đặc biệt thích đoạn cuối của bạn, tôi thấy các ô vuông kết hợp với ANOVA và / hoặc hồi quy khá khó hiểu - nó giống như so sánh táo và cam.

— Christian Sauer

Thống kê, giống như bất kỳ ngành khoa học nào khác, có đầy đủ các thuật ngữ, ký hiệu và thói quen phân tích kỳ lạ chỉ được sao chép từ những người khác.

— Nick Cox

Tôi hoàn toàn đồng ý - trong luận án thạc sĩ của tôi, tôi đã kiểm tra các Biến độc lập cho phân phối bình thường của họ ... đó là hình thức thống kê sùng bái hàng hóa tốt nhất :(

— Christian Sauer

Một cách tiếp cận ngây thơ:

$0.67\cdot\sigma$ $1.35\cdot \sigma$

$IQR=1.35\cdot\sigma$ $\sigma=0.74\cdot IQR$

Và về việc so sánh phương sai theo boxplot: hộp rộng hơn có nghĩa là phương sai lớn hơn, nhưng điều đó mang lại cho bạn sự hiểu biết khám phá, và bạn phải tính đến cả râu ria và ngoại lệ. Để xác nhận bạn nên sử dụng độ tương phản giả thuyết.

— Rufo
nguồn

Để so sánh phương sai chúng ta vẫn phải giả sử cả hai phân phối là bình thường? Chúng ta có thể suy luận rằng biến là bình thường nếu hộp đối xứng với trung tâm?

— Donbeo

Tôi đăng ký mọi thứ @Nick_Stauner nói. Những gì tôi tiếp xúc là giả định rằng quần thể của bạn là Bình thường, đòi hỏi, trong số những người khác nhưng không chỉ, đối xứng và kurtosis = 0. Giả định này bị vi phạm thường xuyên.

— Rufo

Kurtosis được định nghĩa theo nhiều cách khác nhau. Theo một định nghĩa khác (đơn giản hơn), một (Gaussian) bình thường bị suy nhược 3. Bạn cần kiểm tra định nghĩa nào phần mềm của bạn sử dụng nếu bạn đang tính toán nó trong thực tế.

— Nick Cox

Đối với phân phối bình thường, đó sẽ là kurtosis 3, dư thừa 0 , nếu tôi không nhầm. Tôi tò mò nếu bất kỳ gói phần mềm phổ biến nào tạo ra sự bứt rứt không thừa theo mặc định. Điều đó có thể sẽ tạo ra nhiều sự nhầm lẫn (không thể phủ nhận rằng mọi người nói chung có phần bối rối bởi sự thiếu sót của "sự dư thừa" trong thực tế ngược lại) ...

— Nick Stauner

Stata tạo ra kurtosis theo mặc định. "Kurtosis dư thừa" là một thuật ngữ khủng khiếp trong quan điểm của tôi, nhưng vượt ra ngoài việc loại bỏ. Kurtosis như được định nghĩa đơn giản nhất theo thuật ngữ của khoảnh khắc thứ hai và thứ tư có đặc tính đẹp hơn nhiều so với (kurtosis

-

$-$ 3); việc sử dụng định nghĩa cuối cùng có thể được quy cho sự tôn trọng quá mức của phân phối bình thường vì bằng cách nào đó là "bình thường" (tất cả các ý định chơi chữ) mà từ đó các phân phối khác đi chệch hướng. Chúng ta nên có cái nhìn rộng hơn về những gì phân phối là có thể và tự nhiên.

— Nick Cox