Tại sao Pearson tham số và Spearman không tham số


19

Rõ ràng hệ số tương quan của Pearson là tham số và rho của Spearman là không tham số.

Tôi đang gặp khó khăn để hiểu điều này. Theo tôi hiểu thì Pearson được tính là và Spearman được tính theo cùng một cách, ngoại trừ chúng tôi thay thế tất cả các giá trị bằng các cấp bậc của chúng.

rxy=cov(X,Y)σxσy

Wikipedia nói

Sự khác biệt giữa mô hình tham số và mô hình không tham số là cái trước có số lượng tham số cố định, trong khi cái sau tăng số lượng tham số với lượng dữ liệu huấn luyện.

Nhưng tôi không thấy bất kỳ thông số nào ngoại trừ bản thân các mẫu. Một số người nói rằng các xét nghiệm tham số giả định phân phối bình thường và tiếp tục nói rằng Pearson không giả sử dữ liệu phân phối bình thường, nhưng tôi không biết tại sao Pearson lại yêu cầu điều đó.

Vì vậy, câu hỏi của tôi là những gì tham số và không tham số có nghĩa là gì trong bối cảnh thống kê? Và làm thế nào để Pearson và Spearman phù hợp ở đó?


6
Đó là một câu hỏi hay và có rất nhiều thông tin sai lệch ngoài kia. Ví dụ, phương trình của các bài kiểm tra tham số và giả sử phân phối bình thường không may là một sự nhầm lẫn thường xuyên, theo đó nhiều tác giả sách giáo khoa, giáo viên khóa học và áp phích internet chỉ sao chép từ những người khác hoặc nhiều hơn là nhầm lẫn.
Nick Cox

5
Có lẽ độ phân giải tích cực đơn giản nhất của câu hỏi là: có, mối tương quan của Spearman là một tham số để ước tính sức mạnh định lượng của một mối quan hệ và do đó giống với Pearson (về cơ bản, đó là ý tưởng tương tự, như bạn chỉ ra); nhưng không, mối tương quan của Spearman không phải là một tham số có trong phân phối, trong khi Pearson là một tham số trong phân phối chuẩn bivariate (một cách giải thích lịch sử nhưng hiện bị xem nhẹ về những gì bạn đang làm khi bạn thực hiện tương quan). Đó là một sự khác biệt tốt, được hiểu bằng cách thấy rằng từ "tham số" có nhiều nghĩa.
Nick Cox

@NickCox, tại sao bạn không đăng nó dưới dạng câu trả lời.
Richard Hardy

5
Điểm về tính quy tắc của phân phối chỉ thực sự cắn khi bạn muốn làm các bài kiểm tra quan trọng với mối tương quan. Nếu bạn chỉ sử dụng các mối tương quan như các biện pháp mô tả, thì tính phi quy tắc không cần phải là rào cản đối với việc sử dụng các mối tương quan. Tương quan thậm chí có thể hữu ích một chút với hai biến nhị phân miễn là cả hai biến khác nhau. Bạn vẫn cần coi chừng ảnh hưởng của các ngoại lệ, v.v.
Nick Cox

1
Vì dường như chưa được nói rõ ràng, tôi muốn nhấn mạnh rằng không có thống kê nào là "tham số". Điều đó giống như nói những con số rất ngon: tính từ đơn giản là không áp dụng cho danh từ. Các mô hình thống kê có thể là tham số (như được nêu trong trích dẫn Wikipedia), cũng như các thử nghiệm và quy trình dựa trên chúng. Số liệu thống kê Spearman và Pearson có thể được sử dụng trong cả cài đặt tham số và không tham số. Thông tin thêm về điều này tại stats.stackexchange.com/questions/67204 . Điều làm cho một tham số mô hình là không gian trạng thái của nó .
whuber

Câu trả lời:


17

Vấn đề là "không đối xứng" thực sự có hai ý nghĩa riêng biệt ngày nay. Định nghĩa trong Wikipedia áp dụng cho những thứ như khớp đường cong không theo tỷ lệ, ví dụ như thông qua splines hoặc hồi quy cục bộ. Một nghĩa khác, cũ hơn, nằm dọc theo dòng "không phân phối" - nghĩa là các kỹ thuật có thể được áp dụng bất kể phân phối giả định của dữ liệu. Cái sau là cái được áp dụng cho rho của Spearman, vì việc chuyển đổi thứ hạng ngụ ý nó sẽ cho kết quả tương tự cho dù phân phối ban đầu của bạn là gì.


2
Nonparametric có hai nghĩa, nhưng nhận xét trong wikipedia thực sự áp dụng cho cả hai. Trong hồi quy không tham số, nó đề cập đến mối quan hệ không phải là hữu hạn. Ở khía cạnh 'không phân phối', mọi thứ đề cập đến các mô hình phân phối không phải là tham số hữu hạn.
Glen_b -Reinstate Monica

1
Hừm, đó là trích dẫn từ Wikipedia không phải là tôi. Một số người khác đã thêm nó.
Hồng Ooi

2
Bản chỉnh sửa chính - mà tôi tin là không chính xác trong một chi tiết và không thêm bất cứ thứ gì đặc biệt hữu ích - đã được đưa ra để xem xét vì nó được thực hiện bởi một người dùng low = rep và đã bị một người từ chối, nhưng sau đó được chấp nhận tự động khi một người thứ ba đã cố gắng chỉnh sửa để cải thiện nó (họ có thể không nhận ra rằng đây sẽ là hậu quả). Tôi sẽ chuyển bản chỉnh sửa đó trở lại bản gốc của bạn. Bạn có thể làm điều đó bất cứ khi nào có chỉnh sửa mà bạn không thích.
Glen_b -Reinstate Monica

Bây giờ quay trở lại bài viết gốc của bạn, vì tôi nghĩ rằng nó đã thay đổi bài đăng của bạn quá nhiều mà không tìm kiếm thỏa thuận của bạn và không có vẻ như bạn đồng ý với nó. Nếu có bất cứ điều gì bạn thích về nó, hãy nhấp vào liên kết "đã chỉnh sửa ... trước đây" phía trên tên của tôi và sao chép những phần bạn thích từ những gì đã có trước đó, sau đó chỉnh sửa và dán nó vào.
Glen_b -Reinstate Monica

Khi nào thì hợp lý để sử dụng Spearman? Pearson có thể giúp gì khi bạn sử dụng Spearman?
Léo Léopold Hertz 준영

3

Tôi nghĩ lý do duy nhất tại sao hệ số tương quan của Pearson sẽ được gọi là tham số là bởi vì bạn có thể sử dụng nó để ước tính các tham số của phân phối chuẩn nhiều biến số. ví dụ, phân phối chuẩn bivariate có 5 tham số: hai phương tiện, hai phương sai và hệ số tương quan. Cái sau có thể được ước tính với hệ số tương quan Pearson.

ρ


không phải là tham số hệ số tương quan của pearson theo nghĩa là bạn phải giả sử tính chuẩn để kiểm tra tầm quan trọng của nó? nghĩa là, nó không coi tính quy tắc là một thống kê, nhưng bạn cho rằng dữ liệu là bình thường khi tính toán phân phối hệ số tương quan mẫu và kiểm tra nó? Đây là một câu hỏi trung thực, tôi có thể sai 100%.
Mugen

Bạn có thể giải thích nếu bạn thực hiện bất kỳ giả định phân phối nào trong sperman và kendall không?
Léo Léopold Hertz 11/11/2016

@mugen bạn không cần phải sử dụng tính quy tắc để kiểm tra tầm quan trọng của mối tương quan Pearson; một thử nghiệm phổ biến về mối tương quan Pearson làm như vậy. Bạn có thể đưa ra một giả định tham số khác nhau và đưa ra một thử nghiệm khác ... hoặc thực tế, người ta có thể thực hiện một phép thử hoán vị của null mà tương quan Pearson dân số bằng 0, dẫn đến một thử nghiệm không theo tỷ lệ.
Glen_b -Reinstate Monica

0

Câu trả lời đơn giản nhất tôi nghĩ là bài kiểm tra rho của Spearmen sử dụng dữ liệu thứ tự (các số có thể được xếp hạng nhưng không cho bạn biết bất cứ điều gì về khoảng giữa các số, ví dụ 3 hương vị của kem được xếp hạng 1, 2 và 3 nhưng điều này chỉ cho bạn biết hương vị được ưa thích không bao nhiêu bằng). Dữ liệu thông thường không thể được sử dụng trong các xét nghiệm tham số.

Kiểm tra r của Pearson sử dụng dữ liệu khoảng hoặc tỷ lệ (các số có các khoảng cố định, ví dụ giây, kg, mm). 1mm không chỉ nhỏ hơn 5mm mà bạn biết chính xác bao nhiêu. loại dữ liệu này có thể được sử dụng trong một thử nghiệm tham số.


1
Chắc chắn có thể sử dụng các mô hình tham số - và do đó kiểm tra tham số - với dữ liệu thứ tự. Người ta chỉ cần đề xuất một phân phối cho biến này với số lượng tham số hữu hạn - và cố định - và một số giả thuyết phù hợp liên quan đến các tham số đó và voila , một thử nghiệm tham số tồn tại. Tương quan Pearson được tính toán trong các tình huống trong đó một hoặc cả hai biến có hai loại (được dán nhãn bằng hai số khác nhau, thường là 0/1) dẫn đến các biện pháp liên kết thường được sử dụng cho các tình huống đó.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.