Một mô-đun trực tuyến tôi đang nghiên cứu nói rằng người ta không bao giờ nên sử dụng tương quan Pearson với dữ liệu tỷ lệ. Tại sao không?
Hoặc, nếu đôi khi nó ổn hoặc luôn luôn OK, tại sao?
Một mô-đun trực tuyến tôi đang nghiên cứu nói rằng người ta không bao giờ nên sử dụng tương quan Pearson với dữ liệu tỷ lệ. Tại sao không?
Hoặc, nếu đôi khi nó ổn hoặc luôn luôn OK, tại sao?
Câu trả lời:
Đây là trường hợp khi một số biến tổng hợp thành 1, trong mỗi quan sát. Câu trả lời của tôi sẽ là trực giác; đây là cố ý (và cũng có thể, tôi không phải là chuyên gia về dữ liệu thành phần).
Hãy để chúng tôi có các biến có giá trị dương iid (do đó không tương quan) mà sau đó chúng tôi tổng hợp và tính toán lại theo tỷ lệ của tổng đó. Sau đó,
each V summing to 1 ( 100%)
Xin lỗi? Tôi đã không hiểu bạn. Tôi không đặt ràng buộc vào từng V, chỉ là một phần nhỏ. Tuy nhiên, hạn chế ban đầu là ví dụ của tôi giả định không có tương quan trước khi biến Vs thành phân số.
Liên kết video của nhận xét của bạn đặt bối cảnh cho bối cảnh của các tác phẩm, cũng có thể được gọi là hỗn hợp. Trong những trường hợp này, tổng tỷ lệ của mỗi thành phần cộng lại lên tới 1. Ví dụ, Air là 78% nitơ, 21% oxy và 1% khác (tổng cộng là 100%). Cho rằng số lượng của một thành phần hoàn toàn được xác định bởi các thành phần khác, bất kỳ hai thành phần nào cũng sẽ có mối quan hệ đa tuyến tính hoàn hảo. Ví dụ về không khí, chúng ta có:
vậy thì
Vì vậy, nếu bạn biết bất kỳ hai thành phần, thứ ba ngay lập tức được biết đến.
Nói chung, các ràng buộc về hỗn hợp là
Bạn có thể tính toán mối tương quan giữa hai thành phần, nhưng không có nhiều thông tin , vì chúng luôn tương quan với nhau. Bạn có thể đọc thêm về phân tích thành phần trong Phân tích dữ liệu được đo dưới dạng thành phần tỷ lệ .
Bạn có thể sử dụng tương quan khi dữ liệu tỷ lệ từ các miền khác nhau. Giả sử phản hồi của bạn là một phần pixel chết trên màn hình LCD. Bạn có thể cố gắng tương quan điều này với, nói, phần helium được sử dụng trong bước xử lý hóa học của màn hình.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
không rõ ràng. Bạn có thể mở rộng nó?
Đây là một câu hỏi sâu sắc, và một câu hỏi với một số sự tinh tế cần phải được nêu. Tôi sẽ cố gắng hết sức, nhưng mặc dù tôi đã xuất bản về chủ đề này ( Tỷ lệ: Thay thế hợp lệ cho dữ liệu tương đối ) Tôi luôn sẵn sàng ngạc nhiên trước những hiểu biết mới về phân tích dữ liệu chỉ chứa thông tin tương đối.
Như những người đóng góp cho chủ đề này đã chỉ ra, mối tương quan là nổi tiếng (trong một số vòng tròn) vì vô nghĩa khi áp dụng cho dữ liệu thành phần phát sinh khi một tập hợp các thành phần bị hạn chế để thêm vào một hằng số (như chúng ta thấy với tỷ lệ, tỷ lệ phần trăm, phần triệu, v.v.).
Karl Pearson đặt ra thuật ngữ tương quan giả với điều này trong tâm trí. (Lưu ý: phổ biến Tyler Vigen của tương quan giả trang web không phải là quá nhiều về tương quan giả mạo như là " mối tương quan nhân quả ngụ ý " sai lầm.)
Phần 1.7 của Aitchison (2003) Hướng dẫn ngắn gọn về phân tích dữ liệu thành phần cung cấp một minh họa cổ điển về lý do tại sao tương quan là một biện pháp liên kết không phù hợp cho dữ liệu thành phần (để thuận tiện, được trích dẫn trong Thông tin bổ sung này .
Dữ liệu thành phần phát sinh không chỉ khi một tập hợp các thành phần không âm được tạo thành tổng không đổi; dữ liệu được cho là thành phần bất cứ khi nào chúng chỉ mang thông tin tương đối.
Tôi nghĩ rằng vấn đề chính với sự tương quan của dữ liệu chỉ mang thông tin tương đối là trong việc giải thích kết quả. Đây là một vấn đề mà chúng ta có thể minh họa bằng một biến duy nhất; giả sử "bánh rán được sản xuất trên mỗi đô la GDP" trên khắp các quốc gia trên thế giới. Nếu giá trị của một quốc gia cao hơn một quốc gia khác, thì đó là bởi vì
...ai có thể nói?
Tất nhiên, như mọi người nhận xét về chủ đề này, người ta có thể tính toán tương quan của các loại biến này như một biến mô tả. Nhưng những mối tương quan như vậy có nghĩa là gì?
Tôi đã có cùng một câu hỏi. Tôi thấy tài liệu tham khảo này tại biorxiv hữu ích:
Lovell D., V. Pawlowsky-Glahn, J. EgozTHER, S. Marguerat, J. Bähler (2014),
"Tỷ lệ: một sự thay thế hợp lệ cho tương quan cho dữ liệu tương đối"
Trong thông tin hỗ trợ của bài viết này (Lovell, David và cộng sự; doi: dx.doi.org/10.1101/008417), các tác giả đề cập rằng mối tương quan giữa sự phong phú tương đối không cung cấp bất kỳ thông tin nào trong một số trường hợp. Họ đưa ra một ví dụ về sự phong phú tương đối của hai biểu thức mRNA. Trong Hình S2, sự phong phú tương đối của hai mRNA khác nhau có mối tương quan hoàn toàn tiêu cực, mặc dù mối tương quan của hai mRNA này trong các giá trị tuyệt đối không liên quan tiêu cực (điểm xanh và điểm tím).
Có lẽ nó có thể giúp bạn.