Có thích hợp để vẽ trung bình trong biểu đồ không?


13

Có ổn không khi thêm một đường thẳng đứng vào biểu đồ để trực quan hóa giá trị trung bình?

Nó có vẻ ổn đối với tôi, nhưng tôi chưa bao giờ thấy điều này trong sách giáo khoa và các lượt thích, vì vậy tôi tự hỏi liệu có một quy ước nào đó không làm điều đó không?

Biểu đồ dành cho một bài viết hạn, tôi chỉ muốn chắc chắn rằng mình không vô tình phá vỡ một số quy tắc thống kê bất thành văn cực kỳ quan trọng. :)


Tại sao không. Chỉ cần thêm một bình luận. Giá trị trung bình là một giá trị tóm tắt như biểu đồ. Bạn có thể thay đổi mức độ thông tin được cung cấp thay đổi kích thước xô của biểu đồ chẳng hạn. Tuy nhiên, thông thường biểu đồ cung cấp nhiều thông tin hơn chỉ là giá trị trung bình. Bạn thực sự có thể tính gần đúng giá trị trung bình từ biểu đồ. Tôi nghĩ đó là lý do tại sao chúng thường không được cung cấp cùng nhau.
Simone

Đôi khi người ta nhìn thấy biểu đồ với phân phối phủ (ví dụ phổ biến nhất theo kinh nghiệm của tôi, phân phối bình thường được vẽ bằng cách sử dụng giá trị trung bình mẫu và độ lệch chuẩn.) Điều này đang làm điều tương tự (và hơn một chút) khi vẽ một đường thẳng đứng (chỉ ra nơi mẫu có nghĩa là với đỉnh của đường cong.)
James Stanley

Câu trả lời:


30

Dĩ nhiên, tại sao không?

biểu đồ với giá trị trung bình

Đây là một ví dụ (một trong số hàng tá tôi tìm thấy với một tìm kiếm google đơn giản):

hist với trung bình và trung bình

(Nguồn hình ảnh là blog đo lường khả năng sử dụng, ở đây .)

Tôi đã thấy các phương tiện, có nghĩa là cộng hoặc trừ một độ lệch chuẩn, các lượng tử khác nhau (như trung vị, tứ phân vị, phần trăm thứ 10 và 90) đều được hiển thị theo nhiều cách khác nhau.

Thay vì vẽ một đường thẳng qua cốt truyện, bạn có thể đánh dấu thông tin dọc theo đáy của nó - như vậy:

biểu đồ với boxplot cận biên

Có một ví dụ (một trong số rất nhiều được tìm thấy) với một boxplot trên đầu thay vì ở dưới cùng, ở đây .

Đôi khi mọi người đánh dấu trong dữ liệu:

biểu đồ rugplot với jitter
(Tôi đã thay đổi vị trí dữ liệu một chút vì các giá trị được làm tròn thành số nguyên và bạn không thể thấy mật độ tương đối tốt.)

Có một ví dụ về loại này, được thực hiện ở Stata, trên trang này (xem cái thứ ba ở đây )

Biểu đồ tốt hơn với một chút thông tin bổ sung - chúng có thể tự gây hiểu lầm

Bạn chỉ cần quan tâm để giải thích cốt truyện của bạn bao gồm những gì! (Bạn muốn có một tiêu đề và nhãn trục x tốt hơn tôi đã sử dụng ở đây, cho người mới bắt đầu. Cộng với một lời giải thích trong chú thích hình giải thích những gì bạn đã đánh dấu trên đó.)

-

Một âm mưu cuối cùng:

biểu đồ với thoát y

-

Lô đất của tôi được tạo ra trong R.

Biên tập:

Như @gung phỏng đoán, abline(v=mean...đã được sử dụng để vẽ đường trung bình trên biểu đồ và rugđược sử dụng để vẽ các giá trị dữ liệu (mặc dù tôi thực sự đã sử dụng rug(jitter(...vì dữ liệu được làm tròn thành số nguyên).

Đây là một cách để thực hiện boxplot ở giữa biểu đồ và trục:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

Tôi sẽ không liệt kê tất cả mọi thứ dành cho, nhưng bạn có thể kiểm tra các đối số trong trợ giúp ( ?boxplot) để tìm hiểu xem chúng dùng để làm gì và tự chơi với chúng.

Tuy nhiên, đó không phải là một giải pháp chung - tôi không đảm bảo nó sẽ luôn hoạt động tốt như ở đây (lưu ý tôi đã thay đổi atboxwexcác tùy chọn *). Nếu bạn không viết một chức năng thông minh để chăm sóc mọi thứ, bạn cần chú ý đến mọi thứ để đảm bảo nó làm những gì bạn muốn.

Đây là cách tạo dữ liệu tôi đã sử dụng (Tôi đã cố gắng chỉ ra cách hồi quy Theil thực sự có thể xử lý một số ngoại lệ có ảnh hưởng). Nó chỉ là dữ liệu tôi đã chơi khi tôi trả lời câu hỏi này lần đầu tiên.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - một giá trị thích hợp cho atkhoảng -0,5 lần giá trị của boxwex; đó sẽ là một mặc định tốt nếu bạn viết một hàm để làm điều đó;boxwexsẽ cần phải được thu nhỏ theo cách liên quan đến thang đo y (chiều cao) của boxplot; Tôi đề nghị 0,04 đến 0,05 lần giới hạn y trên có thể thường ổn.

Mã cho các biểu đồ biên:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')

+1, đây là tốt đẹp; quan tâm để thêm mã? abline(v=mean(Davis2[,2]))& rug(Davis2[,2])Tôi đoán, nhưng làm thế nào mà bạn nêm cái hộp trong đó?
gung - Phục hồi Monica

1
@gung Xem bản chỉnh sửa để biết chi tiết ngắn gọn, bao gồm một ví dụ có thể tái tạo tương tự như ví dụ với boxplot. Nó thực sự không làm gì thông minh hơn việc sử dụng một số đối số cho boxplothàm. Giữa boxplotboxpbạn có thể làm một số điều khá tiện lợi với ít nỗ lực.
Glen_b -Reinstate Monica

Trí tuệ cho mọi thời đại: "Nếu bạn không viết một chức năng thông minh để lo mọi thứ, thì cần phải chú ý đến mọi thứ để đảm bảo nó làm những gì bạn muốn" ;-).
gung - Phục hồi Monica

Vâng. Tôi thậm chí đã dự tính viết một cái gì đó thông minh để thiết lập atboxwexvân vân ... nhưng tốt nhất là tôi chỉ thực hiện một vài cốt truyện như thế một năm, và mỗi lần phải mất vài giây để gõ? Tôi hình dung sẽ dễ dàng hơn khi chỉ chú ý đến những gì tôi đang làm.
Glen_b -Reinstate Monica

@gung Tôi đã chỉnh sửa để cung cấp mã để tạo dữ liệu Davis2 tôi đang sử dụng. Mong rằng sẽ giúp.
Glen_b -Reinstate Monica

3

Tất nhiên bạn có thể. Chỉ cần chắc chắn để dán nhãn rõ ràng / cho biết ý nghĩa của dòng và tránh làm cho cốt truyện quá 'bận rộn'.

Không có gì tệ hơn một biểu đồ truyền tải quá nhiều thông tin để dễ hiểu. Bảng này là một cách thường bị bỏ qua để hiển thị số liệu thống kê tóm tắt trong một vấn đề rõ ràng, súc tích.


2

Câu trả lời trước làm cho điểm tuyệt vời, nhưng đây là một trong những cơ bản được thêm vào.

Giá trị trung bình là trọng tâm của phân phối và do đó điểm mấu chốt của biểu đồ. Đó là nơi phân phối sẽ cân bằng. Vì vậy, có một mối quan hệ qua lại: không chỉ có nghĩa là ý nghĩa có thể giúp bạn nghĩ về biểu đồ, mà biểu đồ cũng có thể giúp bạn nghĩ về giá trị trung bình. Điều này thậm chí có thể hữu ích hơn khi phân phối bị lệch và giá trị trung bình của phân phối không nhất thiết phải ở giữa.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.