Tôi thích cả hai câu trả lời cho đến nay. Hãy để tôi thêm một vài điều.
Một tùy chọn khác là bạn cũng có thể kết hợp các biến. Điều này được thực hiện bằng cách tiêu chuẩn hóa cả hai (nghĩa là biến chúng thành điểm z), lấy trung bình chúng và sau đó khớp mô hình của bạn chỉ với biến tổng hợp. Đây sẽ là một cách tiếp cận tốt khi bạn tin rằng chúng là hai biện pháp khác nhau của cùng một cấu trúc cơ bản. Trong trường hợp đó, bạn có hai phép đo bị nhiễm lỗi. Giá trị thực sự có khả năng nhất cho biến bạn thực sựquan tâm là ở giữa chúng, do đó trung bình chúng cho một ước tính chính xác hơn. Bạn chuẩn hóa chúng trước để đặt chúng lên cùng một thang đo, sao cho các vấn đề danh nghĩa không làm ô nhiễm kết quả (ví dụ: bạn sẽ không muốn lấy trung bình một số phép đo nhiệt độ nếu một số là Fahrenheit và một số là Celsius). Tất nhiên, nếu chúng đã ở cùng một thang điểm (ví dụ: một số cuộc thăm dò dư luận có tương quan cao), bạn có thể bỏ qua bước đó. Nếu bạn nghĩ rằng một trong các biến của bạn có thể chính xác hơn các biến khác, bạn có thể thực hiện trung bình có trọng số (có thể sử dụng các đối ứng của các lỗi đo lường).
If your variables are just different measures of the same construct, and are sufficiently highly correlated, you really could just throw one out without losing much information. As an example, I was actually in a situation once, where I wanted to use a covariate to absorb some of the error variance and boost power, but where I didn't care about that covariate--it wasn't germane substantively. I had several options available and they were all correlated with each other r>.98. I basically picked one at random and moved on, and it worked fine. I suspect I would have lost power burning two extra degrees of freedom if I had included the others as well by using some other strategy. Of course, I could have combined them, but why bother? However, this depends critically on the fact that your variables are correlated because they are two different versions of the same thing; if there's a different reason they are correlated, this could be totally inappropriate.
Như điều đó ngụ ý, tôi khuyên bạn nên suy nghĩ về những gì ẩn sau các biến tương quan của bạn. Đó là, bạn cần một lý thuyết về lý do tại sao chúng có mối tương quan cao để thực hiện công việc tốt nhất là chọn chiến lược nào sẽ sử dụng. Ngoài các biện pháp khác nhau của cùng một biến tiềm ẩn, một số khả năng khác là một chuỗi nguyên nhân (nghĩa làX1→ X2→ Y) và các tình huống phức tạp hơn trong đó các biến của bạn là kết quả của nhiều lực nhân quả, một số biến giống nhau cho cả hai. Có lẽ trường hợp cực đoan nhất là biến số triệt tiêu, mà @whuber mô tả trong bình luận của mình dưới đây. Chẳng hạn, đề xuất của Macro, giả sử rằng bạn chủ yếu quan tâm đếnXvà tự hỏi về sự đóng góp bổ sung củaZ after having accounted for X's contribution. Thus, thinking about why your variables are correlated and what you want to know will help you decide which (i.e., x1 or x2) should be treated as X and which Z. The key is to use theoretical insight to inform your choice.
I agree that ridge regression is arguably better, because it allows you to use the variables you had originally intended and is likely to yield betas that are very close to their true values (although they will be biased--see here or here for more information). Nonetheless, I think is also has two potential downsides: It is more complicated (requiring more statistical sophistication), and the resulting model is more difficult to interpret, in my opinion.
I gather that perhaps the ultimate approach would be to fit a structural equation model. That's because it would allow you to formulate the exact set of relationships you believe to be operative, including latent variables. However, I don't know SEM well enough to say anything about it here, other than to mention the possibility. (I also suspect it would be overkill in the situation you describe with just two covariates.)