Sự khác biệt giữa biểu đồ và pdf?


18

Nếu chúng ta muốn thấy rõ sự phân phối của một dữ liệu liên tục, thì nên sử dụng dữ liệu nào trong biểu đồ và pdf?

Sự khác biệt, không phải là công thức khôn ngoan, giữa biểu đồ và pdf là gì?


Bạn có thể vui lòng làm rõ liệu câu hỏi này liên quan đến dữ liệu (có phân phối có thể được biểu thị bằng biểu đồ) hoặc các cấu trúc lý thuyết (như pdf, mô tả phân phối xác suất).
whuber

4
Nhưng pdf đến từ đâu? Theo định nghĩa, pdf mô tả phân phối xác suất lý thuyết. Bạn có thể có nghĩa là edf (chức năng phân phối theo kinh nghiệm)?
whuber

Câu trả lời:


22

Để làm rõ điểm Dirks:

Nói rằng dữ liệu của bạn là một mẫu phân phối bình thường. Bạn có thể xây dựng cốt truyện sau:

văn bản thay thế

Đường màu đỏ là ước tính mật độ thực nghiệm, đường màu xanh là pdf lý thuyết của phân phối chuẩn bên dưới. Lưu ý rằng biểu đồ được thể hiện ở mật độ chứ không phải tần số ở đây. Điều này được thực hiện cho mục đích âm mưu, nói chung tần số được sử dụng trong biểu đồ.

Vì vậy, để trả lời câu hỏi của bạn: bạn sử dụng phân phối theo kinh nghiệm (nghĩa là biểu đồ) nếu bạn muốn mô tả mẫu của mình và pdf nếu bạn muốn mô tả phân phối cơ bản được giả thuyết.

Cốt truyện được tạo bởi mã sau trong R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

sự khác biệt giữa tần số và mật độ là gì?
Lakshay

2
@Lakshay tần số là số lượng. Tất cả các tần số tổng bằng số lượng quan sát. Mật độ là viết tắt của PDF (hàm mật độ xác suất), là proxy cho xác suất có một giá trị nhất định. Khu vực dưới PDF tổng hợp thành 1.
Joris Meys

13

Một biểu đồ là ước tính tuổi trước máy tính của mật độ. Một ước tính mật độ là một thay thế.

Ngày nay chúng ta sử dụng cả hai, và có một tài liệu phong phú về việc mặc định người ta nên sử dụng.

Mặt khác, pdf là một biểu thức dạng đóng cho một phân phối nhất định . Điều đó khác với việc mô tả tập dữ liệu của bạn với mật độ hoặc biểu đồ ước tính .


1
μσ2density

*ab***ab**$\sqrt{2}$2

6

Không có quy tắc cứng và nhanh ở đây. Nếu bạn biết mật độ dân số của bạn, thì PDF là tốt hơn. Mặt khác, thông thường chúng ta xử lý các mẫu và biểu đồ có thể truyền tải một số thông tin mà mật độ ước tính bao phủ. Ví dụ, Andrew Gelman đưa ra quan điểm này:

Biến thể trên biểu đồ

Một lợi ích chính của biểu đồ là, như một biểu đồ của dữ liệu thô, nó chứa các hạt giống của đánh giá lỗi của chính nó. Hoặc, nói một cách khác, sự lởm chởm của biểu đồ hơi thiếu sáng thực hiện một dịch vụ hữu ích bằng cách chỉ ra trực quan biến thiên lấy mẫu. Đó là lý do tại sao, nếu bạn nhìn vào biểu đồ trong sách và các bài báo đã xuất bản, tôi chỉ luôn sử dụng rất nhiều thùng. Tôi cũng gần như không bao giờ thích những ước tính mật độ hạt nhân mà đôi khi mọi người sử dụng để hiển thị phân phối một chiều. Tôi muốn xem biểu đồ và biết dữ liệu ở đâu.


3
Tôi phải thừa nhận tôi không bao giờ hiểu đầy đủ lý do tại sao Gelman ủng hộ việc sử dụng biểu đồ với chiều rộng thùng nhỏ; tại sao không sử dụng biểu đồ dải hoặc dữ liệu thô với ước tính mật độ hạt nhân chồng chất, điều này truyền tải tốt hơn sự phân phối theo kinh nghiệm của dữ liệu quan sát?
chl

2
@chl: Tất nhiên có các phương pháp trực quan tốt khác để có được cảm giác về sự biến đổi lấy mẫu. Nhưng về việc so sánh hẹp hơn của biểu đồ v. Pdf đang thảo luận ở đây, tôi nghĩ rằng quan điểm của ông được thực hiện tốt.
ars

1
đó là một liên kết tốt đẹp, cũng như các bài báo được thảo luận ở đó. Nhưng, cách tiếp cận này có đúng với mô phỏng không, trong trường hợp nào chúng ta thực sự đang cố gắng ước tính mật độ?
David LeBauer

1

Biểu đồ tần số tương đối ( rời rạc )

  • trục 'y' là số lượng chuẩn hóa
  • Trục 'y' là xác suất riêng biệt cho thùng / phạm vi cụ thể đó
  • Tổng số bình thường lên tới 1

Biểu đồ mật độ ( rời rạc )

  • Trục 'y' là giá trị mật độ ('Số lượng chuẩn hóa' chia cho 'chiều rộng thùng')
  • Tổng diện tích là 1

Hàm mật độ xác suất PDF ( liên tục )

  • PDF là phiên bản liên tục của biểu đồ vì các thùng biểu đồ là rời rạc
  • tổng diện tích dưới Curve tích hợp thành 1

Các tài liệu tham khảo này rất hữu ích :) http://stattrek.com/statistic/dipedia.aspx?def định = Beatability_d mật_feft

Contin_probability_distribution từ trang web trên

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.