Cách tốt nhất để đặt hai biểu đồ trên cùng một tỷ lệ?


14

Giả sử tôi có hai bản phân phối tôi muốn so sánh chi tiết, tức là theo cách làm cho hình dạng, tỷ lệ và dịch chuyển dễ dàng nhìn thấy. Một cách tốt để làm điều này là vẽ biểu đồ cho mỗi phân phối, đặt chúng trên cùng một tỷ lệ X và xếp chồng lên nhau bên dưới phân phối khác.

Khi làm điều này, binning nên được thực hiện như thế nào? Cả hai biểu đồ có nên sử dụng cùng một ranh giới bin ngay cả khi một phân phối phân tán hơn nhiều so với phân phối khác, như trong Hình 1 bên dưới không? Việc tạo thùng có nên được thực hiện độc lập cho từng biểu đồ trước khi phóng to, như trong Hình 2 bên dưới không? Thậm chí có một quy tắc tốt về điều này?

Hình 1 Hình 2


5
Cốt truyện QQ là công cụ tốt hơn nhiều để so sánh phân phối theo kinh nghiệm. Sử dụng chúng để tránh hoàn toàn vấn đề binning.
whuber

3
@whuber: Đồng ý, nếu bạn chỉ muốn có một hình dung nhạy cảm cho dù hai phân bố khác nhau, nhưng cách tiếp cận histogram là IMHO tốt hơn nếu bạn muốn nhìn chi tiết vào cách họ đang khác nhau.
dsimcha

3
@dsimcha Kinh nghiệm của tôi thì ngược lại. Biểu đồ QQ cho thấy rõ ràng (một cách định lượng) sự khác biệt về quy mô, vị trí và hình dạng, đặc biệt là độ dày của đuôi. (Ví dụ: thử so sánh hai SD trực tiếp từ biểu đồ: không thể khi chúng gần nhau về giá trị. Trên lô QQ bạn chỉ cần so sánh độ dốc, nhanh và tương đối chính xác.) Một biểu đồ QQ kém hơn biểu đồ về mặt biểu đồ. chọn ra các chế độ, nhưng không có biểu đồ nào tốt cho đến khi thu thập được một lượng dữ liệu kha khá và một lựa chọn tốt về thùng đã được thực hiện.
whuber

1
Tôi đồng ý rằng các lô QQ là giải pháp tốt nhất, mặc dù chúng không tránh được vấn đề về thùng, chúng chỉ buộc bạn đặt các thùng ở những nơi cụ thể (mặt khác :-) Mặt khác, điều này có nghĩa là các thùng không , thực sự không nên được chia sẻ bởi hai bản phân phối.
liên hợp chiến binh

1
@dsimcha, tôi nghĩ một cái gì đó như cốt truyện tuổi / giới tính có thể là hình ảnh hữu ích. Dù sao tại sao để sử dụng biểu đồ cho việc này? Chỉ cần âm mưu phân phối chức năng trực tiếp. Tuy nhiên, nếu bạn đang chơi với những thứ thực nghiệm, thì đề xuất cốt truyện QQ là lựa chọn tốt nhất.
Dmitrij Celov

Câu trả lời:


7

Tôi nghĩ bạn cần sử dụng các thùng giống nhau. Nếu không thì tâm trí giở trò đồi bại với bạn. Bình thường (0,2) trông phân tán hơn so với Bình thường (0,1) trong Hình ảnh số 2 so với Hình ảnh số 1. Không có gì để làm với số liệu thống kê. Có vẻ như Bình thường (0,1) đã thực hiện "chế độ ăn kiêng".

Mùa đông -Ralph

Điểm cuối trung điểm và biểu đồ cũng có thể thay đổi nhận thức về sự phân tán. Lưu ý rằng trong applet này, lựa chọn bin tối đa ngụ ý phạm vi> 1,5 - ~ 5 trong khi lựa chọn bin tối thiểu ngụ ý phạm vi <1 -> 5,5

http://www.stat.sc.edu/~west/javahtml/Histogram.html


1
Bạn có thể cung cấp một số biện minh lý thuyết cho ý kiến ​​này?
whuber

Không, chỉ là một ý kiến. Nhưng nếu có thời gian, tôi sẽ bắt đầu nghiên cứu từ thế giới bao bì bán lẻ (nhận thức cơ thể mỏng) và kết hợp một số công việc của Tufte.
Ralph Winters

@whuber: nó chủ yếu liên quan đến cách não của chúng ta xử lý thông tin. Khi có những cái thùng nhỏ hơn, tâm trí của chúng ta cũng "thu nhỏ" ranh giới của đường cong. Hãy thử đảo ngược kích thước của các thùng trong hình. # 2 để xem ý tôi là gì
nico

@nico Vâng, có một yếu tố nhận thức cho câu hỏi. Nhưng ở phía trước là vấn đề thống kê vì nó có ảnh hưởng lớn hơn nhiều: thùng nhỏ hơn ==> biến động mẫu nhiều hơn trong thùng ==> biểu đồ "rách rưới" hơn ==> khó so sánh hơn. Do đó, IMO, bất kỳ câu trả lời đáng giá nào cũng cần thêm sự hỗ trợ từ lý thuyết thống kê (tối thiểu).
whuber

@whuber: Tôi đã đề cập đến thực tế là phân phối trông khác nhau trong hai hình ảnh. Tất nhiên vẻ ngoài của chúng không liên quan gì đến việc chúng thực sự phân tán đến mức nào.
nico

2

Một cách tiếp cận khác là vẽ các phân phối khác nhau trên cùng một lô và sử dụng một cái gì đó giống như alphatham số ggplot2để giải quyết các vấn đề quá mức. Tiện ích của phương pháp này sẽ phụ thuộc vào sự khác biệt hoặc tương đồng trong phân phối của bạn vì chúng sẽ được vẽ với cùng một thùng. Một cách khác là hiển thị các đường cong mật độ được làm mịn cho mỗi phân phối. Đây là một ví dụ về các tùy chọn này và các tùy chọn khác được thảo luận trong chuỗi:

library(ggplot2)

df <- melt(
    data.frame( 
        x = rnorm(1000)
        , y = rnorm(1000, 0, 2)
    )
)


ggplot(data = df) + 
#   geom_bar(aes(x = value, fill = variable), alpha = 1/2)
#   geom_bar(aes(x = value)) + facet_grid(variable ~ .)
#   geom_density(aes(x = value, colour = variable))
#   stat_qq(aes(sample = value, colour = variable))

Không phải điều này chỉ đẩy câu hỏi xuống vấn đề chọn độ rộng hạt nhân phù hợp và liệu (và làm thế nào) người ta có thể so sánh hai độ mịn bằng cách sử dụng độ rộng hạt nhân khác nhau?
whuber

1
@whuber - điểm hợp lệ. Tôi đã không cố gắng đề xuất các đường cong mật độ là phương pháp cuối cùng để sử dụng, chỉ đơn giản là cung cấp các phương án khác. Rõ ràng từ bài đăng này là có những ưu và nhược điểm đối với bất kỳ cách tiếp cận nào, vì vậy đã đưa ra điều này như một sự thay thế khả thi khác để đưa vào hỗn hợp.
Đuổi theo

Trong bối cảnh đó, tôi đang bỏ phiếu cho câu trả lời của bạn, +1.
whuber

0

Vì vậy, đó là một câu hỏi về việc duy trì cùng kích thước thùng hoặc duy trì cùng số lượng thùng? Tôi có thể thấy các đối số cho cả hai bên. Một cách giải quyết sẽ là chuẩn hóa các giá trị trước tiên. Sau đó, bạn có thể duy trì cả hai.


Điều đó sẽ làm việc khi hai kích thước mẫu là tương tự nhau. Nhưng khi chúng không giống nhau, kích thước thùng chung (ngay cả trong các đơn vị được tiêu chuẩn hóa) có thể phù hợp với một hoặc biểu đồ khác, nhưng không phải cho cả hai. Làm thế nào bạn sẽ đối phó với trường hợp đó?
whuber

Có lẽ chúng ta đang nghĩ về những ý nghĩa khác nhau của tiêu chuẩn hóa. Tôi có nghĩa là người mà tôi đã liên kết đến, ví dụ, nếu một dân số có stdev là 5 và người kia có stdev là 10, sau khi tiêu chuẩn hóa, cả hai sẽ có stdev là 1. Họ có thể so sánh tương đương với cùng kích thước thùng vì mỗi thùng có lượng pixel và dữ liệu tương đương. Hoặc có thể bạn đang gặp phải vấn đề lớn hơn rằng "kích thước thùng thích hợp" là một chút nghệ thuật đen và duy nhất cho mọi bộ dữ liệu ...
xan

Chúng tôi chia sẻ cùng một ý nghĩa của "tiêu chuẩn hóa." Chọn kích thước thùng đòi hỏi sự phán đoán và kiến ​​thức về bối cảnh, nhưng thật khó để mô tả nó như là một "nghệ thuật đen": xem, ví dụ, stats.stackexchange.com/q/798/919 .
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.