Phải làm gì với các biến cộng tuyến

11

Disclaimer: Đây là một dự án bài tập về nhà.

Tôi đang cố gắng đưa ra mô hình tốt nhất cho giá kim cương, tùy thuộc vào một số biến và tôi dường như có một mô hình khá tốt cho đến nay. Tuy nhiên, tôi đã chạy vào hai biến rõ ràng là cộng tuyến:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

Bảng và Độ sâu phụ thuộc vào nhau, nhưng tôi vẫn muốn đưa chúng vào mô hình dự đoán của mình. Tôi đã thực hiện một số nghiên cứu về kim cương và thấy rằng Bảng và Độ sâu là chiều dài trên đỉnh và khoảng cách từ đỉnh đến đỉnh của viên kim cương. Vì những giá kim cương này dường như có liên quan đến vẻ đẹp và vẻ đẹp dường như có tỷ lệ liên quan, nên tôi sẽ bao gồm tỷ lệ của chúng, giả sử , để dự đoán giá. Đây có phải là quy trình chuẩn để xử lý các biến cộng tuyến không? Nếu không, là gì? $\frac{Table}{Depth}$

Chỉnh sửa: Đây là một âm mưu của Độ sâu ~ Bảng: nhập mô tả hình ảnh ở đây

— Mike Flynn
nguồn

1

+1 cho một câu hỏi thú vị nhưng, không, đây chắc chắn không phải là một quy trình chuẩn để xử lý các biến đồng tuyến tính. Hy vọng ai đó sẽ cho bạn một câu trả lời tốt về lý do tại sao không. Nó vẫn có thể là một điều tốt để làm trong trường hợp của bạn ...

— Peter Ellis

3

Điều kỳ lạ về điều này dường như là sự tương quan của -0.4 cho thấy rằng những viên kim cương dài hơn trên đỉnh sẽ ngắn hơn từ trên xuống dưới. Điều này có vẻ phản trực giác - chắc chắn nó đúng?

— Peter Ellis

c o r

$cor$

T a b l e

$Table$

D e p t h

$Depth$

@PeterEllis Tôi đã nói rằng đây là một bộ dữ liệu thực sự, vâng. Nhìn vào một âm mưu của Độ sâu ~ Bảng, có thể là do người hâm mộ phương sai cho các giá trị Bảng cao.

— Mike Flynn

14

Các biến đó là tương quan.

Phạm vi liên kết tuyến tính ngụ ý bởi ma trận tương quan đó không đủ cao để các biến được coi là cộng tuyến.

Trong trường hợp này, tôi rất vui khi sử dụng cả ba biến đó cho các ứng dụng hồi quy điển hình.

Một cách để phát hiện tính đa hình là kiểm tra sự phân rã Choleski của ma trận tương quan - nếu có tính đa hình sẽ có một số phần tử đường chéo gần bằng không. Đây là ma trận tương quan của riêng bạn:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(Đường chéo phải luôn dương, mặc dù một số triển khai có thể hơi tiêu cực với ảnh hưởng của các lỗi cắt ngắn tích lũy)

Như bạn thấy, đường chéo nhỏ nhất là 0,91, vẫn còn rất xa so với số không.

Ngược lại, đây là một số dữ liệu gần như cộng tuyến:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

— Glen_b -Reinstate Monica
nguồn

Cảm ơn, tôi nghĩ rằng tôi chỉ đơn giản là nhầm lẫn giữa "tương quan" và "cộng tuyến"

— Mike Flynn

@kingledion Xin đừng sử dụng ý kiến để cố gắng để các cá nhân trả lời câu hỏi của bạn.

— Glen_b -Reinstate Monica

6

Nghĩ rằng sơ đồ cắt kim cương này có thể thêm cái nhìn sâu sắc cho Câu hỏi. Không thể thêm hình ảnh vào một Nhận xét để làm cho nó trở thành một câu trả lời ....

nhập mô tả hình ảnh ở đây

Tái bút Nhận xét của @ PeterEllis: Thực tế là "những viên kim cương dài hơn trên đỉnh ngắn hơn từ trên xuống dưới" có thể có ý nghĩa theo cách này: Giả sử tất cả các viên kim cương chưa cắt đều có hình chữ nhật (giả sử). Bây giờ người cắt phải chọn vết cắt của mình với hình chữ nhật giới hạn này. Điều đó giới thiệu sự đánh đổi. Nếu cả chiều rộng và chiều dài tăng, bạn sẽ tìm kim cương lớn hơn. Có thể nhưng hiếm hơn và đắt hơn. Có lý?

— tò mò
nguồn

2

Nên tránh sử dụng các tỷ số trong hồi quy tuyến tính. Về cơ bản, điều bạn đang nói là, nếu hồi quy tuyến tính được thực hiện trên hai biến đó, chúng sẽ tương quan tuyến tính với không có đánh chặn; Điều này rõ ràng không phải là trường hợp. Xem: http://cscu.cornell.edu/news/statnews/stnews03.pdf

Ngoài ra, họ đang đo một biến tiềm ẩn - kích thước (thể tích hoặc diện tích) của viên kim cương. Bạn đã xem xét chuyển đổi dữ liệu của mình sang thước đo diện tích / thể tích bề mặt thay vì bao gồm cả hai biến chưa?

Bạn nên đăng một biểu đồ dư của dữ liệu bảng và độ sâu đó. Mối tương quan của bạn giữa hai người có thể không hợp lệ.

— TLJ
nguồn

1

Từ mối tương quan, rất khó để kết luận nếu Bảng và Chiều rộng thực sự tương quan. Một hệ số gần + 1 / -1 sẽ cho biết chúng là cộng tuyến. Nó cũng phụ thuộc vào kích thước mẫu..nếu bạn có nhiều dữ liệu sử dụng nó để xác nhận.

Quy trình chuẩn trong việc xử lý các biến cộng tuyến là loại bỏ một trong số chúng ... vì biết rằng cái này sẽ xác định cái kia.

— Subspacian
nguồn

1

Tôi không chắc chắn tôi đồng ý với điều này. Tương quan là r = -. 41, đó là một cường độ hợp lý cho một mối tương quan, tôi nghĩ vậy. Với khả năng N (dựa trên cái nhìn thoáng qua về cốt truyện), tôi sẽ hy vọng r sẽ rất 'đáng kể'. Việc Bảng & Độ sâu có tương quan đủ để được gọi là "cộng tuyến" hay không sẽ là vấn đề định nghĩa (mặc dù tôi cũng không gọi đó là cộng tuyến có vấn đề). Cuối cùng, tôi sẽ cảnh giác khi chỉ cần loại bỏ một trong các biến trừ khi r rất gần với | 1 | (ví dụ: ~ 0,99) - Tôi không thể biết đó là ý bạn.

— gung - Phục hồi Monica

1

Điều gì khiến bạn nghĩ rằng bảng và độ sâu gây ra sự cộng tác trong mô hình của bạn? Chỉ từ ma trận tương quan, thật khó để nói rằng hai biến này sẽ gây ra các vấn đề về cộng tuyến. Thử nghiệm F chung cho bạn biết gì về đóng góp của cả hai biến cho mô hình của bạn? Như tò mò đã đề cập Pearson có thể không phải là thước đo tương quan tốt nhất khi mối quan hệ không phải là tuyến tính (có lẽ là thước đo dựa trên xếp hạng?). VIF và dung sai có thể giúp định lượng mức độ cộng tác mà bạn có thể có.

Tôi nghĩ rằng cách tiếp cận của bạn về việc sử dụng tỷ lệ của họ là phù hợp (mặc dù không phải là một giải pháp cho sự cộng tác). Khi nhìn thấy con số, tôi nghĩ ngay đến một biện pháp phổ biến trong nghiên cứu sức khỏe là tỷ lệ vòng eo / hông. Mặc dù, trong trường hợp này gần giống với BMI (cân nặng / chiều cao ^ 2). Nếu tỷ lệ dễ hiểu và trực quan trong đối tượng của bạn, tôi không thấy lý do để không sử dụng nó. Tuy nhiên, bạn có thể sử dụng cả hai biến trong mô hình của mình trừ khi có bằng chứng rõ ràng về cộng tuyến.

— Thomas Speidel
nguồn