Định lượng QQ


10

Biểu đồ qq có thể được sử dụng để hình dung hai phân phối giống nhau như thế nào (ví dụ trực quan hóa sự giống nhau của phân phối với phân phối bình thường, nhưng cũng để so sánh hai phân phối dữ liệu nghệ thuật). Có bất kỳ số liệu thống kê nào tạo ra một số đo khách quan hơn, đại diện cho độ tương tự của chúng (tốt nhất là ở dạng chuẩn hóa (0 <= x <= 1)) không? Hệ số Gini là ví dụ được sử dụng trong kinh tế khi làm việc với các đường cong Lorenz; Có cái gì cho QQ-cốt truyện?

Câu trả lời:


8

Như tôi nói để trả lời nhận xét của bạn về câu hỏi trước đây của bạn, hãy xem bài kiểm tra Kolmogorov-Smirnov. Nó sử dụng khoảng cách tuyệt đối tối đa giữa hai hàm phân phối tích lũy (được coi là khoảng cách tuyệt đối tối đa của đường cong trong biểu đồ QQ từ đường 45 độ) làm thống kê. Kiểm tra KS có thể được tìm thấy trong R bằng cách sử dụng lệnh ks.test()trong thư viện 'stats'. Dưới đây là thông tin thêm về việc sử dụng R của nó.


Lưu ý rằng (theo tôi hiểu), kiểm tra KS là để kiểm tra dữ liệu thực nghiệm dựa trên phân phối tiên nghiệm. Không phù hợp để so sánh hai phân phối theo kinh nghiệm và cũng không phù hợp để so sánh dữ liệu thực nghiệm với phân phối tiên nghiệm có giá trị tham số được ước tính từ dữ liệu thực nghiệm.
Mike Lawrence

4
@Mike, bạn có thể sử dụng thử nghiệm KS để so sánh hai bản phân phối có nguồn gốc thực nghiệm, xem câu trả lời và nhận xét trước của Charlie.stackexchange.com/questions/2918/lorenz-curve-qq-plot/iêu
Andy W

@Andy, Ah, tôi đã lấy điểm 3 từ itl.nist.gov/div898/handbook/eda/section3/eda35g.htm vì có hệ quả mà bạn không thể so sánh hai CDF theo kinh nghiệm, nhưng tôi thấy rằng giả định của tôi không phải là thích hợp. Tốt để biết, cảm ơn!
Mike Lawrence

2
Tuy nhiên, điểm 3 ngụ ý rằng bạn không thể sử dụng KS để kiểm tra xem dữ liệu của bạn có đến từ phân phối bình thường với giá trị trung bình và sd ước tính từ dữ liệu hay không . Đây là một lỗi phổ biến trong số các sinh viên tâm lý tôi gặp.
Stephan Kolassa

1
(+1) Khía cạnh vượt trội của câu trả lời này là thống kê của KS có thể được đọc trực tiếp từ cốt truyện QQ.
whuber

2

Gần đây tôi đã sử dụng mối tương quan giữa CDF theo kinh nghiệm và CDF được trang bị để định lượng mức độ phù hợp và tôi tự hỏi liệu cách tiếp cận này cũng có thể hữu ích trong trường hợp hiện tại, vì tôi hiểu nó liên quan đến việc so sánh hai bộ dữ liệu theo kinh nghiệm. Nội suy có thể là cần thiết nếu có số lượng quan sát khác nhau giữa các bộ.


Bài viết của bạn bao gồm những số liệu rất hay :)
chl

@chi: Tất cả đều được tạo trong R bằng ggplot2. Đó là một hệ thống sản xuất đồ họa tuyệt vời!
Mike Lawrence

Bạn có ý nghĩa gì với CDF được trang bị?
Ampleforth

@Ampleforth, trong bài báo đó, tôi phù hợp với phân phối cho dữ liệu thực nghiệm, do đó, "CDF được trang bị" tôi có nghĩa là CDF lý thuyết của phân phối được trang bị. Xin lỗi, tôi thấy làm thế nào tôi có thể rõ ràng hơn!
Mike Lawrence

Ồ, xin đừng xin lỗi. Sự thiếu số liệu thống kê của tôi khá lớn và đó là vấn đề duy nhất ở đây;) Ngoài ra tôi không đọc bài viết của bạn mà chỉ lướt qua các biểu đồ mà tôi thực sự thích.
Ampleforth

1

Tôi muốn nói rằng cách ít nhiều hợp quy để so sánh hai bản phân phối sẽ là một phép thử chi bình phương. Thống kê không được chuẩn hóa, tuy nhiên, và nó phụ thuộc vào cách bạn chọn thùng. Tất nhiên, điểm cuối cùng có thể được xem là một tính năng, không phải là lỗi: chọn thùng thích hợp cho phép bạn xem xét kỹ hơn về sự giống nhau ở đuôi so với ở giữa các bản phân phối.


1

Một thước đo khá trực tiếp về "sự gần gũi" với tuyến tính trong cốt truyện QQ sẽ là một thống kê kiểm tra Shapiro-Francia (có liên quan chặt chẽ với Shapiro-Wilk được biết đến nhiều hơn và có thể được coi là một xấp xỉ đơn giản với nó).

Thống kê Shapiro-Francia là mối tương quan bình phương giữa các giá trị dữ liệu theo thứ tự và thống kê đơn hàng bình thường dự kiến ​​(đôi khi được gắn nhãn là "lượng tử lý thuyết") - nghĩa là nó phải là bình phương của mối tương quan mà bạn nhìn thấy trong biểu đồ, khá trực tiếp biện pháp tóm tắt.

.

Dù bằng cách nào, đối với một bản tóm tắt số duy nhất về những gì cốt truyện QQ thể hiện, một trong số đó có thể là một cách phù hợp để tóm tắt cốt truyện.

1W

n1W)nn(1W)nnnlog(n)log(n)n

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.