Tại sao không tương quan Pearson trên dữ liệu tỷ lệ?


10

Một mô-đun trực tuyến tôi đang nghiên cứu nói rằng người ta không bao giờ nên sử dụng tương quan Pearson với dữ liệu tỷ lệ. Tại sao không?

Hoặc, nếu đôi khi nó ổn hoặc luôn luôn OK, tại sao?


3
Điều gì nói điều này, và trong bối cảnh nào? "Không bao giờ" dường như quá mạnh trừ khi họ nói về một số tình huống rất hạn chế. Nó có thể là bất cứ ai đã viết nó chỉ đơn giản là sai, nhưng không có bối cảnh làm thế nào chúng ta đoán?
Glen_b -Reinstate Monica

2
Các mô-đun trực tuyến là độc quyền và tôi không thể liên kết nó. Tuy nhiên, tôi đã tìm thấy một video nói lên điều tương tự: australianbioinformatics.net/the-pipeline/2013/3/19/ . Cả mô-đun tôi đã xem và video này chỉ ra rằng không có bối cảnh trong đó tỷ lệ tương quan là chấp nhận được.
user1205901 - Phục hồi Monica

4
"Không bao giờ" quá mạnh. Có nhiều lý do để thận trọng về việc diễn giải các hệ số tương quan liên quan đến tỷ lệ, đặc biệt là những lý do dựa trên số lượng nhỏ. Nhưng phân tích tương tự ủng hộ những lý do đó cũng cho thấy rằng khi tỷ lệ dựa trên số lượng lớn và tỷ lệ "đủ xa" từ hoặc 1 , thì các hệ số tương quan không có vấn đề. Hơn nữa, người ta luôn có thể báo cáo một hệ số tương quan cho bất kỳ tập hợp dữ liệu được ghép nối nào (trong đó cả hai thành phần thể hiện biến thể) dưới dạng thống kê tóm tắt (mô tả). 01
whuber

Câu trả lời:


6

Đây là trường hợp khi một số biến tổng hợp thành 1, trong mỗi quan sát. Câu trả lời của tôi sẽ là trực giác; đây là cố ý (và cũng có thể, tôi không phải là chuyên gia về dữ liệu thành phần).

Hãy để chúng tôi có các biến có giá trị dương iid (do đó không tương quan) mà sau đó chúng tôi tổng hợp và tính toán lại theo tỷ lệ của tổng đó. Sau đó,

  • 1
  • 1/21/20.5
  • 1/31/30.333
  • 0

OK, nhưng tôi đoán sự quan tâm là ở các cặp V1, V2, mỗi V tổng hợp thành 1 (100%), nhưng không có ràng buộc nào đối với V riêng lẻ ngoại trừ mỗi phần là một phân số.
Nick Cox

each V summing to 1 ( 100%)Xin lỗi? Tôi đã không hiểu bạn. Tôi không đặt ràng buộc vào từng V, chỉ là một phần nhỏ. Tuy nhiên, hạn chế ban đầu là ví dụ của tôi giả định không có tương quan trước khi biến Vs thành phân số.
ttnphns

Ý của bạn là mỗi V có các giá trị tổng bằng 1 ("theo chiều dọc")? Không, tôi có nghĩa là "khủng khiếp", qua các biến. Nhưng thật không may, OP đã không làm sáng tỏ vấn đề trong câu hỏi của họ. Vì vậy, tôi đã lấy nó khi tôi lấy nó.
ttnphns

Đúng; đó là tôi nghĩ những gì thường có nghĩa ở đây, nhưng câu hỏi không đặc biệt rõ ràng.
Nick Cox

1
@ttnphns Tôi thấy một tuyên bố rằng người ta không bao giờ nên thực hiện tương quan Pearson hai biến được đo bằng tỷ lệ. Tôi đã cố gắng làm cho điều này rõ ràng hơn bằng cách chỉnh sửa OP để làm nổi bật từ 'không bao giờ'. Video đưa ra tuyên bố tương tự trong tiêu đề của nó ("Không tương quan tỷ lệ!"), Mặc dù họ chỉ thảo luận về điều này trong bối cảnh dữ liệu thành phần. Tôi cố tình để bối cảnh không xác định vì nguồn của tôi nói rằng không nên sử dụng tương quan Pearson trên dữ liệu tỷ lệ trong bất kỳ bối cảnh nào. Tuy nhiên, dường như câu trả lời cho câu hỏi của tôi là: "Tỷ lệ tương quan là tốt, ngoại trừ trong một số bối cảnh."
user1205901 - Phục hồi Monica

10

Liên kết video của nhận xét của bạn đặt bối cảnh cho bối cảnh của các tác phẩm, cũng có thể được gọi là hỗn hợp. Trong những trường hợp này, tổng tỷ lệ của mỗi thành phần cộng lại lên tới 1. Ví dụ, Air là 78% nitơ, 21% oxy và 1% khác (tổng cộng là 100%). Cho rằng số lượng của một thành phần hoàn toàn được xác định bởi các thành phần khác, bất kỳ hai thành phần nào cũng sẽ có mối quan hệ đa tuyến tính hoàn hảo. Ví dụ về không khí, chúng ta có:

x1+x2+x3=1

vậy thì

x1=1x2x3

x2=1x1x3

x3=1x1x2

Vì vậy, nếu bạn biết bất kỳ hai thành phần, thứ ba ngay lập tức được biết đến.

Nói chung, các ràng buộc về hỗn hợp là

i=1qxi=1

xi

Bạn có thể tính toán mối tương quan giữa hai thành phần, nhưng không có nhiều thông tin , vì chúng luôn tương quan với nhau. Bạn có thể đọc thêm về phân tích thành phần trong Phân tích dữ liệu được đo dưới dạng thành phần tỷ lệ .

Bạn có thể sử dụng tương quan khi dữ liệu tỷ lệ từ các miền khác nhau. Giả sử phản hồi của bạn là một phần pixel chết trên màn hình LCD. Bạn có thể cố gắng tương quan điều này với, nói, phần helium được sử dụng trong bước xử lý hóa học của màn hình.


Tôi thấy - tôi đã lầm tưởng rằng các tác phẩm chỉ là một ví dụ. Như vậy có công bằng không khi nói rằng tỷ lệ tương quan nói chung là không có vấn đề gì trừ khi bạn có một tình huống trong đó các tác phẩm 'lực lượng' một mối tương quan tồn tại?
user1205901 - Phục hồi Monica

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipkhông rõ ràng. Bạn có thể mở rộng nó?
ttnphns

Tôi cũng không hiểu câu trả lời này. Trong ví dụ 3 biến của bạn, mỗi biến được "xác định" bởi HAI người khác, nhưng tương quan Pearson chỉ phân tích một biến liên quan đến MỘT biến khác. Vì vậy, ví dụ: nếu nhìn vào nitơ so với oxy, bạn có thể có bộ dữ liệu (nitơ, oxy) [(0,78, 0,21), (0,20, 0,41), (0,44, 0,44)] và bạn có thể thực hiện hệ số tương quan hợp lệ tính toán trên dữ liệu đó (và chắc chắn nó không cùng tuyến tính). Hệ số tương quan Pearson không biết hoặc không quan tâm đến "cái khác" ở đó ...
Jason C

3
Là một loại bình luận meta, tôi sẽ không mong đợi thấy tài liệu không thể truy cập được trích dẫn là quyền hạn cho bất kỳ điểm thống kê nào, không phải là bạn đang đề xuất làm điều đó. Vì vậy, nó đơn giản ở một cấp độ: có một tài liệu về phân tích dữ liệu thành phần, đó là nơi để tìm; Tôi không phải là một chuyên gia, vì vậy tôi không thể nói những gì có thẩm quyền nhất về mối tương quan, nhưng bản năng của tôi là cảnh báo là phóng đại. Mô tả sử dụng tương quan có thể hữu ích. Chỉ là suy luận là phức tạp bởi các ràng buộc về tổng số.
Nick Cox

Tôi nghĩ rằng "tỷ lệ pixel chết" sẽ ổn nếu chúng ta thu thập các phép đo từ màn hình LCD có cùng số pixel và áp suất khí trong quá trình không đổi. Nhưng một khi bạn bắt đầu cho phép mẫu số của các tỷ lệ này thay đổi, ai có thể nói tác dụng của helium là gì?
David Lovell

5

Đây là một câu hỏi sâu sắc, và một câu hỏi với một số sự tinh tế cần phải được nêu. Tôi sẽ cố gắng hết sức, nhưng mặc dù tôi đã xuất bản về chủ đề này ( Tỷ lệ: Thay thế hợp lệ cho dữ liệu tương đối ) Tôi luôn sẵn sàng ngạc nhiên trước những hiểu biết mới về phân tích dữ liệu chỉ chứa thông tin tương đối.

Như những người đóng góp cho chủ đề này đã chỉ ra, mối tương quan là nổi tiếng (trong một số vòng tròn) vì vô nghĩa khi áp dụng cho dữ liệu thành phần phát sinh khi một tập hợp các thành phần bị hạn chế để thêm vào một hằng số (như chúng ta thấy với tỷ lệ, tỷ lệ phần trăm, phần triệu, v.v.).

Karl Pearson đặt ra thuật ngữ tương quan giả với điều này trong tâm trí. (Lưu ý: phổ biến Tyler Vigen của tương quan giả trang web không phải là quá nhiều về tương quan giả mạo như là " mối tương quan nhân quả ngụ ý " sai lầm.)

Phần 1.7 của Aitchison (2003) Hướng dẫn ngắn gọn về phân tích dữ liệu thành phần cung cấp một minh họa cổ điển về lý do tại sao tương quan là một biện pháp liên kết không phù hợp cho dữ liệu thành phần (để thuận tiện, được trích dẫn trong Thông tin bổ sung này .

Dữ liệu thành phần phát sinh không chỉ khi một tập hợp các thành phần không âm được tạo thành tổng không đổi; dữ liệu được cho là thành phần bất cứ khi nào chúng chỉ mang thông tin tương đối.

Tôi nghĩ rằng vấn đề chính với sự tương quan của dữ liệu chỉ mang thông tin tương đối là trong việc giải thích kết quả. Đây là một vấn đề mà chúng ta có thể minh họa bằng một biến duy nhất; giả sử "bánh rán được sản xuất trên mỗi đô la GDP" trên khắp các quốc gia trên thế giới. Nếu giá trị của một quốc gia cao hơn một quốc gia khác, thì đó là bởi vì

  • sản xuất bánh rán của họ cao hơn?
  • GDP của họ thấp hơn?

...ai có thể nói?

Tất nhiên, như mọi người nhận xét về chủ đề này, người ta có thể tính toán tương quan của các loại biến này như một biến mô tả. Nhưng những mối tương quan như vậy có nghĩa là gì?


3

Tôi đã có cùng một câu hỏi. Tôi thấy tài liệu tham khảo này tại biorxiv hữu ích:

Lovell D., V. Pawlowsky-Glahn, J. EgozTHER, S. Marguerat, J. Bähler (2014),
"Tỷ lệ: một sự thay thế hợp lệ cho tương quan cho dữ liệu tương đối"

Trong thông tin hỗ trợ của bài viết này (Lovell, David và cộng sự; doi: dx.doi.org/10.1101/008417), các tác giả đề cập rằng mối tương quan giữa sự phong phú tương đối không cung cấp bất kỳ thông tin nào trong một số trường hợp. Họ đưa ra một ví dụ về sự phong phú tương đối của hai biểu thức mRNA. Trong Hình S2, sự phong phú tương đối của hai mRNA khác nhau có mối tương quan hoàn toàn tiêu cực, mặc dù mối tương quan của hai mRNA này trong các giá trị tuyệt đối không liên quan tiêu cực (điểm xanh và điểm tím).

Có lẽ nó có thể giúp bạn.


2
Cảm ơn đề nghị của bạn. Tôi đã không làm cho nó rõ ràng. Trong thông tin hỗ trợ của bài viết này (Lovell, David và cộng sự; doi: dx.doi.org/10.1101/008417 ), các tác giả đề cập rằng mối tương quan giữa sự phong phú tương đối không cung cấp bất kỳ thông tin nào trong một số trường hợp. Họ đưa ra một ví dụ về sự phong phú tương đối của hai biểu thức mRNA. Trong Hình S2, sự phong phú tương đối của hai mRNA khác nhau có mối tương quan hoàn toàn tiêu cực, mặc dù mối tương quan của hai mRNA này trong các giá trị tuyệt đối không phải là âm (điểm xanh và điểm tím).
kiện

@shu có lẽ bạn có thể nói tại sao bài viết này đã giúp bạn với vấn đề tương tự và tóm tắt nó ..? Liên kết dán không phải là một câu trả lời, vì vậy xin vui lòng giải thích thêm một chút. Lý do cho điều đó cũng là vì các liên kết chết và nếu bạn muốn câu trả lời của mình hữu ích cho ai đó trong tương lai, bạn nên tự làm cho nó phù hợp. Tất nhiên cung cấp tài liệu tham khảo bổ sung cho câu trả lời của bạn là một thói quen tốt.
Tim
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.