Khi nào chúng ta có thể nói về sự cộng tác


16

Trong các mô hình tuyến tính, chúng ta cần kiểm tra xem có tồn tại mối quan hệ giữa các biến giải thích hay không. Nếu chúng tương quan quá nhiều thì có sự cộng tuyến (nghĩa là các biến giải thích một phần cho nhau). Tôi hiện chỉ xem xét mối tương quan cặp đôi giữa mỗi biến giải thích.

Câu 1: Điều gì phân loại quá nhiều tương quan? Ví dụ, tương quan Pearson là 0,5 quá nhiều?

Câu hỏi 2: Chúng ta có thể xác định đầy đủ liệu có sự cộng tuyến giữa hai biến dựa trên hệ số tương quan hay không phụ thuộc vào các yếu tố khác?

Câu hỏi 3: Việc kiểm tra đồ họa của biểu đồ phân tán của hai biến có thêm bất cứ điều gì vào hệ số tương quan chỉ ra không?


2
Collinearity (số ít) trong số hơn 3 biến không chỉ giảm xuống tương quan cặp cao. Tìm kiếm trang web cho các câu hỏi được gắn thẻ "đa cộng đồng". Ngoài ra, tôi khuyên bạn nên đọc câu trả lời này của tôi: stats.stackexchange.com/a/70910/3277 .
ttnphns

Câu trả lời:



3

Tôi đưa ra ba câu hỏi là

Câu hỏi 1 Điều gì phân loại quá nhiều tương quan? Ví dụ: một tương quan pearson là 0,5 có quá nhiều không?

Nhiều tác giả cho rằng cộng tác (đa) không phải là vấn đề. Hãy xem ở đâyở đây cho một ý kiến ​​khá axit về chủ đề này. Điểm mấu chốt là tính đa hình không có tác động đến kiểm tra giả thuyết ngoài việc có cỡ mẫu (hiệu quả) thấp hơn. Chẳng hạn, bạn sẽ khó diễn giải các hệ số hồi quy nếu bạn thực hiện hồi quy, nhưng bạn không vi phạm bất kỳ giả định cơ bản nào nếu bạn chọn làm như vậy.

Câu hỏi 2 Chúng ta có thể xác định đầy đủ liệu có sự cộng tuyến giữa hai biến dựa trên hệ số tương quan hay không phụ thuộc vào các yếu tố khác?

Tôi nghĩ rằng có một số cách đo lường mối tương quan giữa hai biến, từ việc tính hệ số tương quan của Pearson (nếu bạn giả định tuyến tính và rõ ràng bạn đã làm như vậy), đến thứ hạng của Spearman , tương quan khoảng cách và thậm chí là thực hiện PCA trên tập dữ liệu của bạn. Nhưng tôi sẽ để lại câu trả lời của câu hỏi này cho những người hiểu biết hơn tôi.

Câu hỏi 3 Việc kiểm tra đồ họa của biểu đồ phân tán của hai biến có thêm bất cứ điều gì vào hệ số tương quan chỉ ra không?

IMO, câu trả lời là âm thanh không.


3
IMHO, câu trả lời cho (3) trái lại là rất mạnh: trong khi hệ số tương quan chỉ có thể đưa ra một đánh giá bằng số duy nhất về tính tuyến tính của một mối quan hệ, một cái nhìn nhanh vào biểu đồ phân tán sẽ cung cấp nhiều thông tin bổ sung về điều đó mối quan hệ, bao gồm cả những hành vi không được mong đợi trước đó. Tuy nhiên, mối quan tâm thực sự trong bộ câu hỏi này nằm ở cách đánh giá mối quan hệ giữa ba hoặc nhiều biến số (mặc dù cách (3) thực sự được đặt ra) và trong trường hợp đó, ngay cả một ma trận phân tán cũng không tiết lộ mọi thứ, như ghi chú @ttnphns.
whuber

1
Theo như (1), tôi đã đọc tài liệu tham khảo của bạn (đến blog của Dave Gile) theo cách khác: anh ta lập luận rằng thử nghiệm chính thức về tính đa hình là sai lầm. Tôi không thấy anh ta tuyên bố rằng đa cộng đồng không phải là vấn đề.
whuber

Sự hiểu biết của tôi về câu trả lời của Dave Gile là cách duy nhất đa hình ảnh hưởng đến kết quả sẽ thông qua một cỡ mẫu nhỏ hơn tương đương. Vì vậy, giống như nó không có ý nghĩa để kiểm tra kích thước mẫu nhỏ, không có ý nghĩa gì để kiểm tra tác động của tính đa hình. Nhưng tôi sẽ rất vui khi nghe ý kiến ​​của bạn về nó, có lẽ tôi đã hiểu nhầm nó.
pedrofigueira

Chà, cần một cỡ mẫu lớn hơn có thể là một tác động lớn cho hầu hết các nghiên cứu! Hiệu ứng tinh vi hơn của việc xây dựng mô hình gần như liên quan đến việc xây dựng mô hình và lựa chọn biến, như đã thảo luận ( liên alia ) trong các chủ đề như stats.stackexchange.com/questions/50537stats.stackexchange.com/a/28476/919 . Nhưng hãy chắc chắn rằng chúng ta đang nói về những điều tương tự: Giles đang thảo luận về các thử nghiệm chính thức về tính đa hình, như thể các biến độc lập được lấy mẫu ngẫu nhiên. Ở đây mối quan tâm dường như tập trung vào việc sử dụng chẩn đoán đa hình để hiểu các khả năng và hạn chế của một mô hình.
whuber

1

Một cách phổ biến để đánh giá cộng tác là với các yếu tố lạm phát phương sai (VIF). Điều này có thể đạt được trong R bằng cách sử dụng chức năng 'vif' trong gói 'xe hơi'. Điều này có một lợi thế so với việc chỉ xem xét mối tương quan giữa hai biến, vì nó đồng thời đánh giá mối tương quan giữa một biến và phần còn lại của các biến trong mô hình. Sau đó, nó cung cấp cho bạn một điểm số duy nhất cho mỗi dự đoán trong mô hình.

Như đã nêu ở trên, không có điểm cắt cứng và nhanh, nhưng điểm VIF thường được quyết định là có vấn đề khi chúng nằm trong khoảng 5-10. Tôi sử dụng quy tắc cụ thể của lĩnh vực này cho việc này. Ngoài ra - không có gì nhất thiết không hợp lệ về việc sử dụng các yếu tố dự đoán tương quan (miễn là chúng không tương quan hoàn hảo). Bạn sẽ chỉ cần thêm dữ liệu để tách hiệu ứng. Khi bạn không có đủ dữ liệu, sẽ có sự không chắc chắn lớn trong các ước tính tham số của các yếu tố dự đoán tương quan và các ước tính này sẽ nhạy cảm với việc lấy mẫu lại.

Để trả lời câu hỏi của bạn một cách cụ thể:

  1. Đừng sử dụng các hệ số tương quan. sử dụng VIF của mô hình với tất cả các yếu tố dự đoán và không có tương tác. VIF của 5-10 là biểu thị quá nhiều tương quan, mức cắt cụ thể của bạn phụ thuộc vào những gì bạn cần làm với mô hình.

  2. Nó phụ thuộc vào các yếu tố dự đoán khác trong mô hình, đó là lý do tại sao nó có lợi khi sử dụng VIF.

  3. Không! Các số liệu thống kê sẽ định lượng tốt hơn những gì bạn đang cầu mắt với âm mưu phân tán. Trừ khi có một siêu vi phạm các giả định của OLS khi hồi quy các dự đoán của bạn với nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.