Lô PP so với lô QQ


39

Sự khác biệt giữa các ô xác suất, các ô PP và các ô QQ khi cố gắng phân tích phân phối phù hợp với dữ liệu là gì?


4
Dường như wikipedia có thể giúp bạn thực hiện điều này: cốt truyện xác suất . Cốt truyện QQ , cốt truyện PP . Nếu bạn có một câu hỏi cụ thể hơn xin vui lòng làm rõ!
vector07

Cảm ơn bạn, tôi nghĩ rằng tôi đã nhận được cốt truyện PP và cốt truyện xác suất nhầm lẫn!
kay

Câu trả lời:


41

Như @ vector07 lưu ý , biểu đồ xác suất là danh mục trừu tượng hơn trong đó pp-plots và qq-plots là thành viên. Vì vậy, tôi sẽ thảo luận về sự khác biệt giữa hai cái sau. Cách tốt nhất để hiểu sự khác biệt là suy nghĩ về cách chúng được xây dựng và để hiểu rằng bạn cần nhận ra sự khác biệt giữa các lượng tử của phân phối và tỷ lệ phân phối mà bạn đã đi qua khi bạn đạt đến một lượng tử nhất định. Bạn có thể thấy mối quan hệ giữa những điều này bằng cách vẽ hàm phân phối tích lũy (CDF) của một bản phân phối. Ví dụ, hãy xem xét phân phối chuẩn thông thường:

nhập mô tả hình ảnh ở đây

Chúng ta thấy rằng khoảng 68% trục y (vùng giữa các đường màu đỏ) tương ứng với 1/3 trục x (vùng giữa các đường màu xanh). Điều đó có nghĩa là khi chúng tôi sử dụng tỷ lệ phân phối mà chúng tôi đã chuyển qua để đánh giá sự phù hợp giữa hai phân phối (nghĩa là chúng tôi sử dụng biểu đồ pp), chúng tôi sẽ nhận được rất nhiều độ phân giải ở trung tâm của các phân phối, nhưng ít hơn tại những cái đuôi. Mặt khác, khi chúng ta sử dụng các lượng tử để đánh giá sự trùng khớp giữa hai phân phối (nghĩa là chúng ta sử dụng biểu đồ qq), chúng ta sẽ có độ phân giải rất tốt ở phần đuôi, nhưng ít hơn ở trung tâm. (Bởi vì các nhà phân tích dữ liệu thường quan tâm nhiều hơn đến các đuôi của phân phối, điều này sẽ có tác dụng nhiều hơn đối với suy luận, ví dụ, các biểu đồ qq phổ biến hơn nhiều so với các sơ đồ pp.)

Để thấy những sự thật này trong thực tế, tôi sẽ hướng dẫn xây dựng cốt truyện pp và cốt truyện qq. (Tôi cũng đi qua việc xây dựng một cốt truyện qq bằng lời nói / chậm hơn ở đây: QQ-cốt truyện không khớp với biểu đồ .) Tôi không biết nếu bạn sử dụng R, nhưng hy vọng nó sẽ tự giải thích:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

nhập mô tả hình ảnh ở đây

Thật không may, các lô này không đặc biệt lắm, vì có ít dữ liệu và chúng tôi đang so sánh một bình thường thực sự với phân phối lý thuyết chính xác, vì vậy không có gì đặc biệt để thấy ở trung tâm hoặc đuôi của phân phối. Để thể hiện rõ hơn những khác biệt này, tôi vẽ sơ đồ phân phối (đuôi béo) với 4 bậc tự do và phân phối hai phương thức dưới đây. Các đuôi chất béo đặc biệt hơn nhiều trong biểu đồ qq, trong khi phương thức hai đặc biệt hơn trong biểu đồ pp.

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây


14
@AleksandrH Chúng tôi thực sự đánh giá cao sự quan tâm của bạn dành cho sinh viên. Giả định ngầm định của bạn rằng trang web này chỉ dành cho sinh viên mới biết về thống kê là không chính xác; và sự khẳng định của bạn rằng "câu trả lời dài dòng" là không phù hợp với sinh viên chỉ không phù hợp với thực tế, vì nhiều câu trả lời "dài dòng" trên trang web này sẽ chứng thực. Ví dụ, một cách xây dựng hơn để thể hiện khiếu nại của bạn là: chỉ cho chúng tôi cách cải thiện phản hồi của chúng tôi và truyền cảm hứng cho chúng tôi thi đua với bạn, bằng cách đăng câu trả lời ở đây đáp ứng các tiêu chuẩn của bạn để giải quyết nhu cầu của sinh viên mới.
whuber

12

Đây là một định nghĩa từ v8doc.sas.com :

Biểu đồ PP so sánh hàm phân phối tích lũy theo kinh nghiệm của một tập dữ liệu với hàm phân phối tích lũy lý thuyết xác định F (·). Một biểu đồ QQ so sánh các lượng tử của phân phối dữ liệu với các lượng tử của phân phối lý thuyết được tiêu chuẩn hóa từ một họ phân phối xác định.

Trong văn bản, họ cũng đề cập đến:

  • sự khác biệt về cách xây dựng và giải thích các ô PP và các ô QQ.
  • lợi ích của việc sử dụng cái này hay cái khác, liên quan đến việc so sánh các phân phối theo kinh nghiệm và lý thuyết.

Tham khảo :

Học viện SAS, SAS OnlineDoc®, Phiên bản 8, Cary, NC: SAS Institute Inc., 1999

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.