Cốt truyện QQ không khớp với biểu đồ


12

Tôi có biểu đồ, mật độ hạt nhân và phân phối bình thường của lợi nhuận nhật ký tài chính, được chuyển thành lỗ (dấu hiệu được thay đổi) và biểu đồ QQ bình thường của những dữ liệu này:

http://tinypic.com/r 432ocwvr / 6

Cốt truyện QQ cho thấy rõ rằng đuôi không được trang bị chính xác. Nhưng nếu tôi nhìn vào biểu đồ và phân phối chuẩn được trang bị (màu xanh), ngay cả các giá trị xung quanh 0,0 cũng không được gắn chính xác. Vì vậy, âm mưu QQ cho thấy chỉ có đuôi không được trang bị phù hợp, nhưng rõ ràng toàn bộ phân phối không được trang bị chính xác. Tại sao điều này không hiển thị trong cốt truyện QQ?


10
Đường cong màu xanh bên trái tương ứng với một dòng giả thuyết "phù hợp nhất" ở bên phải. Dòng bên phải không phải là dòng phù hợp nhất: nó là dòng phù hợp nhất với các giá trị trung bình trong phân phối. Nếu bạn đặt một "đường cong hình chuông" vào giữa hai phần ba hoặc hơn của biểu đồ, thay vì toàn bộ, đường cong đó sẽ tiến gần đến đỉnh và các sườn dốc, nhưng sau đó sẽ rất xa quá thấp ở vai và đuôi. Đó chính xác là những gì dòng trong cốt truyện qq đang hiển thị: các lô đó là hoàn toàn đồng ý; nó là phù hợp mà khác nhau.
whuber

Câu trả lời:


11

+1 cho @NickSabbe, vì 'cốt truyện chỉ cho bạn biết rằng "có gì đó không ổn", đây thường là cách tốt nhất để sử dụng cốt truyện qq (vì có thể khó hiểu cách diễn giải chúng). Tuy nhiên, có thể học cách diễn giải một cốt truyện qq bằng cách suy nghĩ về cách tạo ra một cái, tuy nhiên.

Bạn sẽ bắt đầu bằng cách sắp xếp dữ liệu của mình, sau đó bạn sẽ tính theo cách của mình từ giá trị tối thiểu lấy mỗi phần trăm bằng nhau. Ví dụ: nếu bạn có 20 điểm dữ liệu, khi bạn đếm điểm đầu tiên (tối thiểu), bạn sẽ tự nói với bản thân mình, 'Tôi đã đếm 5% dữ liệu của mình'. Bạn sẽ làm theo quy trình này cho đến khi bạn kết thúc, tại thời điểm đó bạn sẽ chuyển qua 100% dữ liệu của mình. Các giá trị phần trăm này sau đó có thể được so sánh với cùng các giá trị tỷ lệ phần trăm từ bình thường lý thuyết tương ứng (nghĩa là bình thường có cùng giá trị trung bình và SD).

Khi bạn đi đến cốt truyện này, bạn sẽ phát hiện ra rằng bạn gặp rắc rối với giá trị cuối cùng, là 100%, bởi vì khi bạn đã vượt qua 100% mức bình thường về mặt lý thuyết, bạn đang ở mức vô hạn. Vấn đề này được giải quyết bằng cách thêm một hằng số nhỏ vào mẫu số tại mỗi điểm trong dữ liệu của bạn trước khi tính tỷ lệ phần trăm. Một giá trị điển hình sẽ là thêm 1 vào mẫu số; ví dụ: bạn sẽ gọi điểm dữ liệu đầu tiên (trong số 20) 1 / (20 + 1) = 5% và điểm cuối cùng của bạn sẽ là 20 / (20 + 1) = 95%. Bây giờ nếu bạn vẽ các điểm này so với bình thường lý thuyết tương ứng, bạn sẽ có một biểu đồ pp(để vẽ các xác suất chống lại xác suất). Một âm mưu như vậy rất có thể sẽ cho thấy độ lệch giữa phân phối của bạn và bình thường ở trung tâm phân phối. Điều này là do 68% phân phối bình thường nằm trong +/- 1 SD, vì vậy các lô pp có độ phân giải tuyệt vời ở đó và độ phân giải kém ở nơi khác. (Để biết thêm về điểm này, có thể giúp đọc câu trả lời của tôi ở đây: PP-lô so với QQ-lô .)

Thông thường, chúng tôi quan tâm nhất về những gì đang xảy ra trong các phân phối của chúng tôi. Để có được độ phân giải tốt hơn ở đó (và do đó độ phân giải kém hơn ở giữa), chúng ta có thể xây dựng một biểu đồ qq thay thế. Chúng tôi thực hiện điều này bằng cách lấy các bộ xác suất của mình và chuyển chúng qua nghịch đảo của CDF phân phối bình thường (điều này giống như đọc bảng z ở mặt sau của một cuốn sách thống kê ngược - bạn đọc xác suất và đọc ra một z- ghi bàn). Kết quả của hoạt động này là hai bộ lượng tử , có thể được vẽ với nhau tương tự nhau.

@whuber đúng là dòng tham chiếu được vẽ sau đó (thông thường) bằng cách tìm dòng phù hợp nhất thông qua 50% điểm giữa (nghĩa là, từ phần tư thứ nhất đến phần thứ ba). Điều này được thực hiện để làm cho cốt truyện dễ đọc hơn. Sử dụng dòng này, bạn có thể diễn giải cốt truyện như cho bạn biết liệu các lượng tử phân phối của bạn sẽ dần dần tách khỏi một bình thường thực sự khi bạn di chuyển vào đuôi. (Lưu ý rằng vị trí của các điểm ở xa trung tâm không thực sự độc lập với các điểm gần hơn; vì vậy, trong biểu đồ cụ thể của bạn, các đuôi dường như khớp với nhau sau khi có 'vai' khác nhau không có nghĩa là các lượng tử bây giờ giống nhau một lần nữa.)

x-3y-.2dữ liệu trong đuôi phân phối của bạn hơn bình thường về mặt lý thuyết. Nói cách khác:

  • Nếu cả hai đuôi xoắn ngược chiều kim đồng hồ, bạn có đuôi nặng ( leptokurtosis ),
  • Nếu cả hai đuôi xoắn theo chiều kim đồng hồ, bạn có đuôi nhẹ (platykurtosis),
  • Nếu đuôi phải của bạn xoắn ngược chiều kim đồng hồ và đuôi trái của bạn xoắn theo chiều kim đồng hồ, bạn có lệch phải
  • nếu đuôi trái của bạn xoắn ngược chiều kim đồng hồ và đuôi phải xoắn theo chiều kim đồng hồ, bạn đã lệch trái

Tôi tìm thấy rubrics như vậy ít hơn thỏa đáng. Một là họ không có mối liên hệ trực tiếp với các nguyên tắc đằng sau cốt truyện: chúng phải được ghi nhớ riêng (và có thể bị nhầm lẫn hoàn toàn bởi một bộ nhớ bị lỗi). Một điều nữa (trong trường hợp này) là nó quá phức tạp để có thể sử dụng một cách đáng tin cậy. Tuy nhiên, một điều nữa là việc thiếu tiêu chuẩn hóa trong cách vẽ các ô như vậy có thể làm cho phương pháp này không chính xác khi áp dụng cho một biểu đồ qq được thực hiện bởi một quy trình khác. Nhưng các sơ đồ qq rất dễ diễn giải: hãy xem nỗ lực của tôi tại một lời giải thích nửa chừng quantdec.com/envstats/notes/ class_03 / probability.htmlm .
whuber

5

Nói một cách đơn giản: cốt truyện QQ cho thấy thứ hạng trong phân phối theo kinh nghiệm so với phân phối dự kiến. Trong trường hợp của bạn (và điều này thực sự khá thường xuyên, luôn luôn có các phân phối đối xứng), các cấp bậc gần giữa sẽ tương tự giữa dự kiến ​​và theo kinh nghiệm, do đó, cốt truyện QQ gần với dòng ở đó.

Thật không đơn giản để thực sự xác định các quan sát "lạ" dựa trên vị trí của chúng trong cốt truyện QQ: cốt truyện chỉ cho bạn biết rằng "có gì đó không ổn" và nếu bạn biết thêm về dữ liệu / phân phối, bạn có thể tìm hiểu vấn đề ở đâu


1
Tôi sẽ duy trì kết luận ngược lại, Nick: biểu đồ qq giúp việc xác định và đánh giá kết quả "lạ" dễ dàng hơn nhiều so với phần thân của dữ liệu, trong khi biểu đồ có xu hướng che khuất nhiều mà biểu đồ qq tiết lộ. Vấn đề ở đây không phải là liệu cốt truyện qq có gần với một dòng hay không: nó liên quan đến dòng nào được phần mềm chọn làm tham chiếu cho cốt truyện! (Tôi nghi ngờ Rsự phù hợp của nó dựa trên một số phần trăm vừa phải, chẳng hạn như phần tư, trong khi rõ ràng sự phù hợp với biểu đồ được dựa trên những khoảnh khắc phù hợp.)
whuber

1
@whuber: Cá nhân tôi thích xem cả hai nếu có thể (chủ yếu là vì tôi "đọc" biểu đồ dễ dàng hơn so với QQ-lô). Nhưng bạn nói đúng và tôi đứng chính xác.
Nick Sabbe

Và bạn khá chính xác rằng hai kỹ thuật là bổ sung. Ví dụ, bimodality có xu hướng dễ dàng phát hiện (và định lượng) trong biểu đồ hơn so với biểu đồ qq. Tôi tin rằng với thực tế, cả biểu đồ và biểu đồ qq đều trở nên dễ đọc. Các sơ đồ QQ có thể mất nhiều thời gian hơn để tìm hiểu chỉ vì chúng không có hình thức trình bày chuẩn: bạn luôn phải kiểm tra trục nào là giá trị và lượng tử nào, và đôi khi các lượng tử được chuyển đổi thành "giá trị tương đương" (thay vì được chuẩn hóa).
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.