Tôi đã tự hỏi làm thế nào để suy ra phương sai của một biến bằng cách sử dụng boxplot. Có ít nhất có thể suy ra nếu hai biến có cùng phương sai quan sát boxplot của chúng không?
Tôi đã tự hỏi làm thế nào để suy ra phương sai của một biến bằng cách sử dụng boxplot. Có ít nhất có thể suy ra nếu hai biến có cùng phương sai quan sát boxplot của chúng không?
Câu trả lời:
Không phải không có nhiều giả định nghiêm ngặt, không. Nếu bạn cho rằng câu trả lời là có (thay vì hỏi, tôi hoan nghênh bạn), tôi cá là tôi có thể đánh lừa bạn bằng ví dụ (bộ đếm) này:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Trông khá giống nhau phải không? Tuy nhiên, !
Trong trường hợp không rõ ràng từ mã, dân số 2
là:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
Và không, bạn không thể suy luận rằng dân số này là bình thường chỉ vì nó chính xác đối xứng. Đây là một âm mưu dân số QQ 2
:
Chắc chắn là không bình thường với tôi.
Chỉnh sửa - Trả lời bình luận của bạn:
Phương sai là một thống kê số. Nếu phương sai của hai bản phân phối là bằng nhau theo nghĩa đen, thì đó là tất cả những gì bạn phải nói về điều đó. Nếu hai phân phối hoàn toàn bình thường , một lần nữa, có một định nghĩa toán học mà cả hai sẽ phù hợp. Nếu hai phân phối không chính xác bình thường hoặc bằng nhau, bạn không nên nói khác. Nếu bạn muốn nói rằng chúng xấp xỉ bằng hoặc bình thường, có lẽ bạn nên định nghĩa "đủ gần đúng" theo cách phù hợp với mục đích của bạn, mà bạn chưa chỉ định ở đây. Độ nhạy cảm với sự khác biệt về phân phối rất khác nhau trong các phân tích thường thúc đẩy các câu hỏi như của bạn. Ví dụ,nó khá mạnh mẽ đối với các vi phạm của các mẫu sau được cho bằng các cỡ mẫu bằng nhau ), vì vậy tôi không khuyến nghị thử nghiệm đó để so sánh dân số của tôi 2
với dân số 1
(phân phối bình thường).
Điều này đã được trả lời tốt. Những bình luận thêm này hơi quá dài (CẬP NHẬT: bây giờ quá dài) để đi như bình luận.
Nghiêm túc, tất cả những gì bạn có thể đọc được từ một boxplot về tính biến thiên của phân phối là phạm vi liên vùng của nó (chiều dài hoặc chiều cao của hộp) và phạm vi (chiều dài hoặc chiều cao giữa các cực trị của màn hình).
Là một xấp xỉ, các ô hình có vẻ giống hệt nhau có thể có phương sai rất giống nhau, nhưng xem ra. Các ô hình hộp với vị trí hộp hoặc đuôi rất khác nhau (hoặc cả hai) hầu như không có phương sai tương tự, nhưng không phải là không thể. Nhưng ngay cả khi các ô hộp trông giống hệt nhau, bạn không nhận được thông tin nào trong biểu đồ hộp đơn giản hoặc vanilla về độ biến thiên trong hộp hoặc thực sự biến đổi trong râu (các đường thường được hiển thị giữa hộp và các điểm dữ liệu trong 1,5 IQR của phân vị gần) . NB một số biến thể của ô hộp tồn tại; các tác giả thường kém trong việc ghi lại các quy tắc chính xác được sử dụng bởi phần mềm của họ.
Sự phổ biến của cốt truyện hộp có giá của nó. Biểu đồ hộp có thể rất hữu ích để hiển thị các tính năng tổng của nhiều nhóm hoặc biến (ví dụ 20 hoặc 30, đôi khi thậm chí nhiều hơn). Như thường được sử dụng để so sánh nói 2 hoặc 3 nhóm, chúng được bán quá mức, theo quan điểm của tôi, vì các lô khác có thể hiển thị nhiều chi tiết hơn một cách thông minh trong cùng một không gian. Đương nhiên, điều này là rộng rãi nếu không được đánh giá cao trên toàn cầu, và các cải tiến khác nhau của cốt truyện hộp cho thấy nhiều chi tiết hơn.
Công việc nghiêm túc với phương sai đòi hỏi quyền truy cập vào dữ liệu gốc.
Đây là bàn chải rộng, và nhiều chi tiết có thể được thêm vào. Ví dụ, vị trí của dải trung vị trong hộp đôi khi cung cấp thêm một chút thông tin.
CẬP NHẬT
Tôi đoán rằng nhiều người quan tâm đến việc sử dụng (và giới hạn) của các ô vuông nói chung hơn là trong câu hỏi cụ thể về suy ra phương sai từ một ô vuông (mà câu trả lời ngắn gọn là "Bạn không thể, ngoại trừ, gián tiếp, xấp xỉ, và đôi khi "), vì vậy tôi sẽ thêm nhận xét thêm về các lựa chọn thay thế, như được nhắc bởi @Christian Sauer.
Biểu đồ được sử dụng hợp lý thường vẫn cạnh tranh. Các văn bản giới thiệu cổ điển hiện đại của Freedman, Pisani và Purves sử dụng chúng xuyên suốt.
Những gì được gọi là ô chấm hoặc dải (biểu đồ) (và bằng nhiều tên khác) là dễ hiểu. Điểm giống hệt nhau có thể được xếp chồng lên nhau, sau khi đóng thùng nếu muốn. Bạn có thể thêm trung bình và tứ phân, hoặc khoảng trung bình và khoảng tin cậy vào nội dung trái tim của bạn.
Các lô định lượng, dường như, là một hương vị có được nhưng theo một số cách linh hoạt nhất trong tất cả. Tôi bao gồm ở đây các ô của các giá trị được sắp xếp lại xác suất tích lũy (vị trí vẽ) cũng như các ô lượng tử sẽ thẳng nếu dữ liệu là bất kỳ phân phối "tên thương hiệu" nào được xem xét (bình thường, hàm mũ, gamma, bất cứ điều gì). (Lời cảm ơn tới @Scortchi để tham khảo "tên thương hiệu" như được sử dụng bởi CJ Geyer.)
Nhưng một danh sách toàn diện là không thể. . dường như không thể, nhận thức về cấu trúc tốt trong dữ liệu có thể thú vị hoặc quan trọng (phương thức, độ chi tiết, ngoại lệ, v.v.) cũng như cấu trúc thô (mức độ, mức độ lan truyền, độ lệch, v.v.).
Đồ thị hộp không tốt như nhau trong việc hiển thị tất cả các loại cấu trúc. Họ không thể, và không có ý định. Nó đáng để gắn cờ mà JW Tukey trong phân tích dữ liệu Khám phá Đọc, MA: Addison-Wesley (1977) đã đưa ra một ví dụ về dữ liệu lưỡng kim từ Rayleigh mà một âm mưu hộp che khuất hoàn toàn cấu trúc chính. Là một nhà thống kê vĩ đại, ông nhận thức rõ rằng các ô vuông không phải lúc nào cũng là câu trả lời.
Một thực tiễn kỳ lạ, phổ biến rộng rãi trong các văn bản giới thiệu, đang thảo luận về ANOVA trong khi mời độc giả xem xét các ô vuông, trong đó hiển thị trung vị và tứ phân, không phải phương tiện và phương sai (thay vì SD). Đương nhiên, nhìn vào dữ liệu tốt hơn nhiều so với không nhìn, nhưng ngay cả như vậy, một đại diện đồ họa phù hợp hơn được cho là một số biểu đồ của dữ liệu thô với phương tiện được trang bị +/- một số bội số thích hợp của SE.
Một cách tiếp cận ngây thơ:
Và về việc so sánh phương sai theo boxplot: hộp rộng hơn có nghĩa là phương sai lớn hơn, nhưng điều đó mang lại cho bạn sự hiểu biết khám phá, và bạn phải tính đến cả râu ria và ngoại lệ. Để xác nhận bạn nên sử dụng độ tương phản giả thuyết.