Nếu hai đặc điểm có mối tương quan đã biết, bạn có thể dự đoán xác suất chúng sẽ sắp xếp phù hợp cho một cặp ngẫu nhiên không?


7

Giả sử bạn có hai đặc điểm tương quan trong một dân số nhất định, như chỉ số BMI của một người và huyết áp của họ. Và giả sử tôi muốn ước tính xác suất trong một cặp người được chọn ngẫu nhiên từ dân số này, người có chỉ số BMI cao hơn cũng sẽ có huyết áp cao hơn. Nếu tôi biết hệ số tương quan quả lêr (hoặc tương đương r ^ 2, tỷ lệ phương sai trong huyết áp được giải thích bởi BMI), điều này có thể được sử dụng để có được xác suất đó không? Nếu không, tôi có thể làm như vậy bằng cách sử dụng một số biện pháp tương quan khác, hoặc bằng cách đưa ra một số giả định đơn giản hóa về mối quan hệ chức năng giữa chúng (giả sử, giả sử huyết áp ở mỗi cá nhân là một hàm tuyến tính của BMI cùng với một số biến độc lập khác) và / hoặc phân phối riêng lẻ của mỗi người (giả sử, cả BMI và huyết áp đều được phân phối bình thường)?


Nếu đây là những gì bạn quan tâm, bạn có thể ước tính điều này trực tiếp từ dữ liệu bằng cách sử dụng Kendall's τví dụ.
DSaxton

Câu trả lời:


4

Không - biết mối tương quan (và thậm chí cả công thức hồi quy tuyến tính) giữa hai đặc điểm là không đủ để dự đoán xác suất chỉ số BMI cao hơn sẽ có huyết áp cao hơn.

Xem bộ tứ của Anscombe để biết ví dụ trực quan về bốn phân phối khác nhau có tương quan giống hệt nhau và các đường hồi quy tuyến tính phù hợp để xem việc đưa ra dự đoán xác suất dựa trên mối tương quan có thể khiến bạn lạc lối.

Nếu bạn thực hiện các giả định đơn giản hóa: nghĩa là, mối quan hệ tuyến tính giữa BMI và huyết áp và phân phối bình thường thì có, bạn có thể xây dựng các khoảng dự đoán cho các phép đo mới bằng phương trình bình phương nhỏ nhất.

Tuy nhiên, khi làm việc với dữ liệu trong thế giới thực, tôi sẽ khuyên bạn nên tránh các giả định về phân phối dữ liệu. Một cách khác tốt hơn là sử dụng bootstrapping để ước tính hàm phân phối tích lũy.


6

Nếu hai đặc điểm có mối tương quan đã biết, bạn có thể dự đoán xác suất chúng sẽ sắp xếp phù hợp cho một cặp ngẫu nhiên không?

Nó phụ thuộc vào mối tương quan dân số mà bạn nhìn vào.

Đối với mối tương quan Pearson mà bạn đề cập (ρ), câu trả lời là "không", ít nhất là không có các giả định bổ sung. (Câu trả lời của RobertF là chính xác)

Nếu thay vào đó, bạn biết mối tương quan Kendall dân số ( Kendall's tau , ở đây được ký hiệu làτK) trong một phân phối bivariate liên tục thì câu trả lời thực sự là có.

Mối tương quan Kendall dân số là sự khác biệt giữa xác suất của một cặp tương ứng và xác suất của một cặp bất hòa:

τK=pCpD

(mối tương quan mẫu Kendall tương tự như sự khác biệt về tỷ lệ mẫu của các cặp tương ứng và bất hòa).

Kể từ khi trong quần thể bivariate liên tục pC+pD=1, nếu bạn biết τK bạn có thể tính toán pC:

τK=pCpD =pC(1pC) =2pC1

Vì thế pC=12(τK+1), một kết quả đơn giản tốt đẹp.

Trong khi τK xác định xác suất bạn yêu cầu (ít nhất là trong trường hợp liên tục), mối quan hệ giữa ρτKphụ thuộc vào cấu trúc của mối quan hệ bivariate giữa các biến (tức là copula ).


Nếu bạn giả sử tính quy tắc bivariate, thì bạn có thể tìm ra kết nối (phi tuyến) giữa τKρ. Trong thực tế đây là một kết quả nổi tiếng; chúng ta có:

τK=2πarcsin(ρ)

- xem giây 5.3.2 của Embrechts et al. (2005) [1], kết quả này cũng có thể được tìm thấy ở nhiều nơi - ví dụ như trong Meyer (2009) [2]. Vì vậy, trong trường hợp đó

pC=arcsin(ρ)π+12.

(Tuy nhiên, một giả định về tính quy tắc bivariate có vẻ không rõ ràng đối với BMI và huyết áp)

Mối quan hệ giữa τKρthực sự giữ cho phân phối elip nói chung hơn. Xem ví dụ Lindskog, McNeil, & Schmock (2003) [3]. Tuy nhiên, một lần nữa, giả định này đối với BMI và huyết áp có thể không rõ ràng - ví dụ, cả hai biện pháp trong thực tế đều có xu hướng sai lệch.

[1] Embrechts, P., Frey, R., McNeil, AJ (2005),
Quản lý rủi ro định lượng: Khái niệm, Kỹ thuật, Công cụ ,
sê-ri Princeton trong Tài chính, Nhà xuất bản Đại học Princeton

[2] Meyer, C. (2009),
Copula Bivariate bình thường ,
arXiv: 0912.2816v1 [math.PR] pdf (15 tháng 12)

[3] Lindskog, F., McNeil, AJ, Schmock, U., (2003),
"Kendall's tau cho phân phối elip"
trong: Rủi ro tín dụng; Đo lường, Đánh giá và Quản lý , ed. G. Bol và cộng sự,
Đóng góp cho Kinh tế học, Physica-Verlag Heidelberg, tr.149.
(hoặc xem http://www.macs.hw.ac.uk/~mcneil/ftp/KendallsTau.pdf )


2
Tôi chấp thuận câu trả lời của RobertF kể từ khi nó xuất hiện đầu tiên và giải quyết hầu hết những gì tôi đang hỏi, nhưng tôi đánh giá cao thông tin bổ sung này. Ấn tượng của giáo dân tôi là hầu hết các nghiên cứu thống kê theo kinh nghiệm tôi từng thấy trong các lĩnh vực như y học / tâm lý học / xã hội học chỉ sử dụng Pearson r hoặc r ^ 2 để mô tả mối tương quan - nếu đó là sự thật tôi tự hỏi tại sao biện pháp của Kendall không được báo cáo thường xuyên hơn cùng với nó, nó dường như có một số hữu ích trong việc diễn giải kết quả (đặc biệt là khi tóm tắt cho một đối tượng không chuyên, vì ý tưởng chọn một cặp ngẫu nhiên là trực quan).
Hypnosifl

Quả thực đó là một câu hỏi tuyệt vời để suy ngẫm - và người ta cũng có thể hỏi một câu hỏi tương tự liên quan đến một số lượng không định lượng khác về tính dễ hiểu và đơn giản tương tự. [Ít nhất là mối tương quan Kendall được sử dụng rộng rãi trong công việc với các công thức, cả lý thuyết và thực hành.]
Glen_b -Reinstate Monica

0

Tôi khuyên bạn nên tăng các biến bạn đang đo. Tuổi, giới tính, địa điểm, vv cân nhắc chúng trong công thức của bạn để giảm xác suất âm tính giả. Tối đa hóa đường cong ROC của bạn. Sẽ rất thú vị khi thấy một mô hình giữ mối tương quan tương tự với các bộ dữ liệu trong các thập kỷ khác nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.