Disclaimer: Đây là một dự án bài tập về nhà.
Tôi đang cố gắng đưa ra mô hình tốt nhất cho giá kim cương, tùy thuộc vào một số biến và tôi dường như có một mô hình khá tốt cho đến nay. Tuy nhiên, tôi đã chạy vào hai biến rõ ràng là cộng tuyến:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
Bảng và Độ sâu phụ thuộc vào nhau, nhưng tôi vẫn muốn đưa chúng vào mô hình dự đoán của mình. Tôi đã thực hiện một số nghiên cứu về kim cương và thấy rằng Bảng và Độ sâu là chiều dài trên đỉnh và khoảng cách từ đỉnh đến đỉnh của viên kim cương. Vì những giá kim cương này dường như có liên quan đến vẻ đẹp và vẻ đẹp dường như có tỷ lệ liên quan, nên tôi sẽ bao gồm tỷ lệ của chúng, giả sử , để dự đoán giá. Đây có phải là quy trình chuẩn để xử lý các biến cộng tuyến không? Nếu không, là gì?
Chỉnh sửa: Đây là một âm mưu của Độ sâu ~ Bảng: