Sự khác biệt giữa các ô xác suất, các ô PP và các ô QQ khi cố gắng phân tích phân phối phù hợp với dữ liệu là gì?
Sự khác biệt giữa các ô xác suất, các ô PP và các ô QQ khi cố gắng phân tích phân phối phù hợp với dữ liệu là gì?
Câu trả lời:
Như @ vector07 lưu ý , biểu đồ xác suất là danh mục trừu tượng hơn trong đó pp-plots và qq-plots là thành viên. Vì vậy, tôi sẽ thảo luận về sự khác biệt giữa hai cái sau. Cách tốt nhất để hiểu sự khác biệt là suy nghĩ về cách chúng được xây dựng và để hiểu rằng bạn cần nhận ra sự khác biệt giữa các lượng tử của phân phối và tỷ lệ phân phối mà bạn đã đi qua khi bạn đạt đến một lượng tử nhất định. Bạn có thể thấy mối quan hệ giữa những điều này bằng cách vẽ hàm phân phối tích lũy (CDF) của một bản phân phối. Ví dụ, hãy xem xét phân phối chuẩn thông thường:
Chúng ta thấy rằng khoảng 68% trục y (vùng giữa các đường màu đỏ) tương ứng với 1/3 trục x (vùng giữa các đường màu xanh). Điều đó có nghĩa là khi chúng tôi sử dụng tỷ lệ phân phối mà chúng tôi đã chuyển qua để đánh giá sự phù hợp giữa hai phân phối (nghĩa là chúng tôi sử dụng biểu đồ pp), chúng tôi sẽ nhận được rất nhiều độ phân giải ở trung tâm của các phân phối, nhưng ít hơn tại những cái đuôi. Mặt khác, khi chúng ta sử dụng các lượng tử để đánh giá sự trùng khớp giữa hai phân phối (nghĩa là chúng ta sử dụng biểu đồ qq), chúng ta sẽ có độ phân giải rất tốt ở phần đuôi, nhưng ít hơn ở trung tâm. (Bởi vì các nhà phân tích dữ liệu thường quan tâm nhiều hơn đến các đuôi của phân phối, điều này sẽ có tác dụng nhiều hơn đối với suy luận, ví dụ, các biểu đồ qq phổ biến hơn nhiều so với các sơ đồ pp.)
Để thấy những sự thật này trong thực tế, tôi sẽ hướng dẫn xây dựng cốt truyện pp và cốt truyện qq. (Tôi cũng đi qua việc xây dựng một cốt truyện qq bằng lời nói / chậm hơn ở đây: QQ-cốt truyện không khớp với biểu đồ .) Tôi không biết nếu bạn sử dụng R, nhưng hy vọng nó sẽ tự giải thích:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
Thật không may, các lô này không đặc biệt lắm, vì có ít dữ liệu và chúng tôi đang so sánh một bình thường thực sự với phân phối lý thuyết chính xác, vì vậy không có gì đặc biệt để thấy ở trung tâm hoặc đuôi của phân phối. Để thể hiện rõ hơn những khác biệt này, tôi vẽ sơ đồ phân phối (đuôi béo) với 4 bậc tự do và phân phối hai phương thức dưới đây. Các đuôi chất béo đặc biệt hơn nhiều trong biểu đồ qq, trong khi phương thức hai đặc biệt hơn trong biểu đồ pp.
Đây là một định nghĩa từ v8doc.sas.com :
Biểu đồ PP so sánh hàm phân phối tích lũy theo kinh nghiệm của một tập dữ liệu với hàm phân phối tích lũy lý thuyết xác định F (·). Một biểu đồ QQ so sánh các lượng tử của phân phối dữ liệu với các lượng tử của phân phối lý thuyết được tiêu chuẩn hóa từ một họ phân phối xác định.
Trong văn bản, họ cũng đề cập đến:
Tham khảo :
Học viện SAS, SAS OnlineDoc®, Phiên bản 8, Cary, NC: SAS Institute Inc., 1999