Đa sắc thái khi hồi quy riêng lẻ là đáng kể, nhưng VIF thấp


13

Tôi có 6 biến ( ) mà tôi đang sử dụng để dự đoán . Khi thực hiện phân tích dữ liệu của mình, trước tiên tôi đã thử hồi quy tuyến tính bội. Từ đó, chỉ có hai biến là đáng kể. Tuy nhiên, khi tôi chạy hồi quy tuyến tính so sánh từng biến riêng lẻ với , tất cả ngoại trừ một biến đều có ý nghĩa ( bất kỳ đâu từ dưới 0,01 đến dưới 0,001). Nó đã được đề xuất rằng điều này là do đa cộng đồng.x1...x6yyp

Nghiên cứu ban đầu của tôi về điều này cho thấy việc kiểm tra tính đa hình bằng cách sử dụng VIF . Tôi đã tải xuống gói thích hợp từ R và kết thúc với các VIF kết quả: 3.35, 3.59, 2.64, 2.24 và 5.56. Theo nhiều nguồn trực tuyến khác nhau, điểm bạn nên lo lắng về tính đa hình với VIF của bạn là ở mức 4 hoặc 5.

Bây giờ tôi đã bối rối về những gì điều này có nghĩa cho dữ liệu của tôi. Tôi hay tôi không có vấn đề về đa cộng đồng? Nếu tôi làm thì tôi nên tiến hành như thế nào? (Tôi không thể thu thập thêm dữ liệu và các biến là một phần của mô hình không liên quan rõ ràng) Nếu tôi không gặp vấn đề này, thì tôi nên lấy gì từ dữ liệu của mình, đặc biệt là các biến này rất có ý nghĩa cá nhân, nhưng không đáng kể ở tất cả khi kết hợp.

Chỉnh sửa: Một số câu hỏi đã được hỏi về bộ dữ liệu và vì vậy tôi muốn mở rộng ...

Trong trường hợp cụ thể này, chúng tôi đang tìm hiểu cách các tín hiệu xã hội cụ thể (cử chỉ, ánh mắt, v.v.) ảnh hưởng đến khả năng ai đó sản xuất một số gợi ý khác. Chúng tôi muốn mô hình của chúng tôi bao gồm tất cả các thuộc tính quan trọng, vì vậy tôi không thoải mái khi loại bỏ một số thuộc tính có vẻ dư thừa.

Hiện tại không có bất kỳ giả thuyết nào với điều này. Thay vào đó, vấn đề không được đề cập và chúng tôi đang tìm cách hiểu rõ hơn về những thuộc tính nào là quan trọng. Theo như tôi có thể nói, các thuộc tính này phải tương đối độc lập với nhau (bạn không thể nói ánh mắt và cử chỉ giống nhau, hoặc là một tập hợp con của một thuộc tính khác). Thật tuyệt khi có thể báo cáo giá trị p cho mọi thứ, vì chúng tôi muốn các nhà nghiên cứu khác hiểu những gì đã được xem xét.

Chỉnh sửa 2: Vì nó xuất hiện ở đâu đó bên dưới, của tôi là 24.n


Giả sử bạn làm có đa cộng tuyến, bạn có thể mở rộng, như @ rolando2 gợi ý, vào mục đích dự định của mô hình? Đây có phải là trường hợp mà tất cả những người dự đoán có tầm quan trọng đối với các nhà điều tra khác (trong trường hợp đó bạn muốn báo cáo mức độ quan trọng cho từng người trong số họ), hoặc bạn có thể ném một hoặc hai trong số họ ra không?

@jlovegren Tôi đã thêm một số thông tin ở trên - hãy cho tôi biết nếu bạn cần thêm thông tin.
cryptic_star

Các biến giải thích được đo trên thang đo liên tục? Trong trường hợp đó, có những phương pháp để dư mà không quá khó. Nếu họ là phân loại, tôi không biết nhưng tôi hy vọng người khác sẽ (tôi đã hỏi một câu hỏi tương tự trên trang web này).

@jlovegren Năm trong số sáu biến được tính.
cryptic_star

một điều nữa, chỉ để chắc chắn các số đếm có giới hạn trên rõ ràng thường đạt được, hoặc nếu giá trị tối đa của số lượng không bị ràng buộc về nguyên tắc?

Câu trả lời:


18

Để hiểu những gì có thể xảy ra, việc tạo (và phân tích) dữ liệu hành xử theo cách được mô tả là điều nên làm.

Để đơn giản, hãy quên đi biến độc lập thứ sáu đó. Vì vậy, câu hỏi mô tả hồi quy của một biến phụ thuộc so với năm biến độc lập x 1 , x 2 , x 3 , x 4 , x 5 , trong đóyx1,x2,x3,x4,x5

  • Mỗi hồi quy thông thường có ý nghĩa ở các mức từ 0,01 đến dưới 0,001 .yxi0.010.001

  • Hồi quy nhiều sản lượng hệ số đáng kể duy nhất cho x 1x 2 .yx1++x5x1x2

  • Tất cả các yếu tố lạm phát phương sai (VIF) đều thấp, cho thấy điều kiện tốt trong ma trận thiết kế (nghĩa là thiếu sự cộng tác giữa các ).xi

Hãy làm điều này xảy ra như sau:

  1. Tạo giá trị phân phối bình thường cho x 1x 2 . (Chúng tôi sẽ chọn n sau.)nx1x2n

  2. Đặt trong đóy=x1+x2+ε là độc lập lỗi bình thường của bình 0 . Một số thử nghiệm và lỗi là cần thiết để tìm độ lệch chuẩn phù hợp cho ε ; 1 / 100 hoạt động tốt (và khá ấn tượng: yvô cùngtốt tương quan với x 1 x 2 , mặc dù nó chỉ vừa phải tương quan với x 1 x 2 cá nhân).ε0ε1/100yx1x2x1x2

  3. Hãy = x 1 / 5 + δ , j = 3 , 4 , 5 , nơi δxjx1/5+δj=3,4,5δ là tiêu chuẩn độc lập lỗi bình thường. Điều này làm cho chỉ phụ thuộc một chút vào x 1 . Tuy nhiên, thông qua mối tương quan chặt chẽ giữa x 1y , điều này tạo ra một mối tương quan nhỏ giữa y và các x j này .x3,x4,x5x1x1yyxj

Đây là chà: nếu chúng ta thực hiện đủ lớn, những nhẹ mối tương quan sẽ dẫn đến hệ số đáng kể, mặc dù y là gần như hoàn toàn "giải thích" bởi chỉ có hai biến đầu tiên.ny

Tôi thấy rằng hoạt động tốt khi tái tạo các giá trị p được báo cáo. Đây là một ma trận phân tán của tất cả sáu biến:n=500

spm

Bằng cách kiểm tra cột bên phải (hoặc hàng dưới cùng), bạn có thể thấy rằng có mối tương quan (dương) tốt với x 1x 2 nhưng ít tương quan rõ ràng với các biến khác. Bằng cách kiểm tra phần còn lại của ma trận này, bạn có thể thấy rằng các biến độc lập x 1 , ... , x 5 dường như hai bên không tương quan (các ngẫu nhiên δyx1x2x1,,x5δche dấu những phụ thuộc nhỏ bé mà chúng ta biết là có.) Không có dữ liệu đặc biệt - không có gì xa lạ hay có đòn bẩy cao. Biểu đồ cho thấy rằng tất cả sáu biến được phân phối một cách bình thường, nhân tiện: những dữ liệu này là bình thường và "vanilla đồng bằng" như người ta có thể muốn.

Trong hồi quy của so với x 1x 2 , các giá trị p về cơ bản là 0. Trong các hồi quy riêng của y so với x 3 , sau đó y so với x 4y so với x 5 , các giá trị p là 0,0024, 0,0083 và 0,00064 tương ứng: có nghĩa là chúng "rất có ý nghĩa". Nhưng trong hồi quy bội đầy đủ, các giá trị p tương ứng tăng lên lần lượt là .46, .36 và .52: không đáng kể chút nào. Lý do cho điều này là một khi y đã được hồi quy so với x 1xyx1x2yx3yx4yx5yx1 , những thứ duy nhất còn lại để "giải thích" là số tiền nhỏ của lỗi trong dư, mà sẽ xấp xỉ ε và lỗi này gần như hoàn toàn không liên quan đến x i còn lại. ("Hầu như" là chính xác: có một mối quan hệ thực sự nhỏ xuất phát từ thực tế là phần dư được tính một phần từ các giá trị của xx2εxTôi x 2 x i , i = 3 , 4 , 5 , có một số yếu mối quan hệ với x 1 x 2. Tuy nhiên, mối quan hệ còn lại này thực tế không thể phát hiện được, như chúng ta đã thấy.)x1x2xTôiTôi= =3,4,5x1x2

Số điều hòa của ma trận thiết kế chỉ là 2,17: rất thấp, không có dấu hiệu nào về tính đa hình cao. . Điều này hoàn thành mô phỏng: nó đã tái tạo thành công mọi khía cạnh của vấn đề.

Những hiểu biết quan trọng mà phân tích này cung cấp bao gồm

  1. giá trị p không cho chúng tôi biết bất cứ điều gì trực tiếp về cộng tuyến. Họ phụ thuộc mạnh mẽ vào số lượng dữ liệu.

  2. Mối quan hệ giữa các giá trị p trong nhiều hồi quy và giá trị p trong các hồi quy liên quan (liên quan đến các tập hợp con của biến độc lập) rất phức tạp và thường không thể đoán trước được.

Do đó, như những người khác đã lập luận, giá trị p không nên là hướng dẫn duy nhất của bạn (hoặc thậm chí là hướng dẫn chính của bạn) để lựa chọn mô hình.


Biên tập

Không cần thiết cho lớn đến 500 để các hiện tượng này xuất hiện. n500 Lấy cảm hứng từ thông tin bổ sung trong câu hỏi, sau đây là bộ dữ liệu được xây dựng theo kiểu tương tự với (trong trường hợp này là x j = 0,4 x 1 + 0,4 x 2n= =24 cho j = 3 , 4 , 5 ). Điều này tạo ra mối tương quan từ 0,38 đến 0,73 giữa x 1 - 2 x 3 - 5xj= =0,4x1+0,4x2+δj=3,4,5x12x35. Số điều kiện của ma trận thiết kế là 9,05: hơi cao, nhưng không khủng khiếp. (Một số quy tắc nói rằng các số điều kiện cao đến 10 là ok.) Giá trị p của các hồi quy riêng lẻ so với là 0,002, 0,015 và 0,008: có ý nghĩa rất cao. Do đó, một số đa cộng đồng có liên quan, nhưng nó không lớn đến mức người ta sẽ làm việc để thay đổi nó. Cái nhìn sâu sắc cơ bản vẫn như cũx3,x4,x5: ý nghĩa và tính đa hình là những thứ khác nhau; chỉ có những ràng buộc toán học nhẹ giữ trong số chúng; và có thể bao gồm hoặc loại trừ ngay cả một biến duy nhất có ảnh hưởng sâu sắc đến tất cả các giá trị p ngay cả khi không có vấn đề đa hình nghiêm trọng là một vấn đề.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

Cho rằng tôi đang làm việc để giải thích mối quan hệ giữa các biến này và tầm quan trọng của chúng trong việc dự đoán y, việc thiếu cộng tác có cho tôi biết về cơ bản hồi quy tuyến tính đa biến ban đầu nói với tôi không: chỉ có hai biến là quan trọng? Nếu các biến đã cho thấy sự cộng tác, thì điều đó có nghĩa là một số quan trọng, nhưng cung cấp thông tin tương tự? Xin vui lòng cho tôi biết nếu tôi hoàn toàn thiếu quan điểm - tôi không có nghĩa là một chuyên gia thống kê.
cryptic_star

Ồ, và tôi sẽ thêm nó vào bài viết gốc của mình, nhưng n của tôi là 24 (đối tượng của con người hoạt động, vì vậy nó khá cao). Dựa trên bài đăng của bạn, tôi có thể giả định đây là lý do tại sao những người đa cộng đồng đề nghị nhận thêm dữ liệu - để làm nổi bật sự khác biệt tốt hơn.
cryptic_star

Tôi cung cấp một ví dụ mới cho thấy hiện tượng của bạn có thể xảy ra ngay cả khi . Nó có thể dễ dàng được sửa đổi để tất cả các số liên quan là số nguyên dương: số đếm, nghĩa là. n=24
whuber

1
Nhận xét đầu tiên của bạn: collinearity cho thấy một số biến giải thích (IV) có thể là dư thừa, nhưng đây không phải là nhất thiết phải như vậy. Vấn đề là mối quan hệ giữa các IV và biến phụ thuộc (DV). Có thể một trong các IV phụ thuộc rất nhiều vào các IV khác, nhưng vẫn chứa thông tin hữu ích duy nhất liên quan đến DV. Đây là một khái niệm quan trọng: không có số lượng phân tích mối quan hệ giữa các IV một mình sẽ cho bạn biết các biến giải thích tốt nhất DV. Thiếu thông đồng - một tài sản duy nhất của IV - không tiết lộ bất cứ điều gì về DV.
whuber

9

Tôi hay tôi không có vấn đề về đa cộng đồng? Nếu tôi làm thì tôi nên tiến hành như thế nào?

Đó không phải là một hoặc một tình huống. Và tôi hoài nghi về hướng dẫn "4 hoặc 5". Đối với mỗi dự đoán của bạn, sai số chuẩn của hệ số là từ 2,2 đến 5,6 lần so với dự đoán nếu dự đoán không tương quan với các yếu tố khác. Và phần của một yếu tố dự đoán nhất định mà những người khác không thể giải thích được nằm trong khoảng từ 1 / 2.2 đến 1 / 5.6, hoặc 18% đến 45%. Nhìn chung, đó có vẻ là một số lượng khá lớn.

Nhưng hãy lùi lại một phút. Bạn có thực sự đang cố gắng dự đoán * Y *, trái ngược với việc cố gắng giải thích nó không? Nếu trước đây, thì tôi không cho rằng bạn cần quan tâm xem mức độ quan trọng của một biến đã cho có thay đổi khi những người khác có mặt trong mô hình hay không. Công việc của bạn thực sự dễ dàng hơn nhiều so với nếu cần giải thích thực sự.

Nếu giải thích là mục tiêu của bạn, bạn sẽ cần xem xét cách các biến này liên quan đến nhau - thứ gì đó đòi hỏi nhiều hơn thông tin thống kê. Rõ ràng họ chồng chéo trong cách chúng liên quan đến Y , và cộng tuyến này sẽ làm cho nó khó khăn để thiết lập, ví dụ, trình tự cấp bậc của họ về tầm quan trọng trong chiếm Y . Trong tình huống này, không có ai rõ ràng để bạn đi theo.

Trong mọi trường hợp, tôi hy vọng bạn đang xem xét các phương pháp xác định giá trị chéo.


Câu trả lời này, giống như của John, dường như nhầm lẫn các giá trị p thấp với tương quan cao. Hãy nhớ rằng: các lỗi tiêu chuẩn của các hệ số giảm khi lượng dữ liệu tăng ( caeteris paribus ), do đó, giá trị p thấp có thể đạt được với dữ liệu hầu như không có tương quan, cung cấp đủ các quan sát.
whuber

Nhầm lẫn giá trị p thấp với tương quan cao? Pas du chào!
rolando2

Sau đó, vui lòng giải thích làm thế nào một khái niệm giá trị p nghiêm ngặt ("sai số chuẩn của hệ số lớn hơn từ 2,2 đến 5,6 lần nếu dự đoán không tương thích với các yếu tố khác") dẫn đến kết luận "có vẻ khá đáng kể số lượng cộng tuyến, "liên quan chặt chẽ đến tương quan (các số đo của cộng tuyến là các thuộc tính của ma trận tương quan khi các biến được tiêu chuẩn hóa).
whuber

Tôi nhìn nó theo cách này. Khi VIF là 5,6, 82% phương sai trong dự báo đó có thể được tính bởi các yếu tố dự đoán khác. Tôi không thấy làm thế nào điều này có thể phụ thuộc vào N.
rolando2

1
Là một đối trọng với đánh giá bi quan này (vốn có một số biện minh trong các quy tắc ngón tay cái như yêu cầu số lần quan sát gấp 5-10 lần số biến), đáng chú ý là toàn bộ các lĩnh vực mô hình hóa và phân tích dữ liệu đã phát triển xung quanh các vấn đề có ít các quan sát và nhiều dự đoán, như DACE (thiết kế và phân tích các thí nghiệm máy tính). Xem ressource-actuarielles.net/EXT/ISFA/1226.nsf/ cho một bài báo bán nguyệt.
whuber

6

Bạn có đa thần. Phân tích ban đầu của bạn đã chứng minh rằng. Theo như nó là một vấn đề, đó là một câu hỏi khác dường như có nhiều câu trả lời trong trường hợp của bạn.

Có lẽ nếu bạn có vấn đề cơ bản tốt hơn thì rõ ràng phải làm gì? ...

Với tính đa hướng, các hệ số hồi quy của bạn là về các đóng góp duy nhất (gần với duy nhất) của từng biến cho mô hình của bạn. Nếu một số tương quan với nhau thì mỗi đóng góp duy nhất của một tương quan sẽ nhỏ hơn. Đó có lẽ là một phần lý do tại sao không có gì đáng kể khi tất cả chúng ở đó cùng nhau nhưng khi được sử dụng một mình thì chúng có thể.

Điều đầu tiên bạn có thể cần làm là xem xét sự tương quan giữa các biến của bạn có nghĩa là gì. Ví dụ, bạn có một loạt các biến chỉ đại diện cho cùng một thứ không? Bạn đã tình cờ đo lường những người dự đoán của bạn qua một thang điểm kém và có được mối tương quan ngẫu nhiên? Đừng cố gắng sửa hồi quy, hãy cố gắng hiểu các biến của bạn.

Hãy xem xét X1 và X2 có mối tương quan rất mạnh giữa chúng, giả sử r = 0,90. Nếu bạn đặt X1 vào mô hình và đó là một yếu tố dự đoán quan trọng thì một mô hình khác chỉ có X2 sẽ rất có ý nghĩa vì chúng gần như giống nhau. Nếu bạn đặt chúng trong mô hình cùng nhau thì ít nhất một trong số chúng phải chịu đựng vì hồi quy bội sẽ giải quyết được những đóng góp độc đáo của chúng. Cả hai có thể không quan trọng. Nhưng đó không phải là vấn đề, vấn đề là nhận ra lý do tại sao chúng chồng chéo lên nhau và thậm chí chúng có nói bất cứ điều gì khác biệt với nhau và liệu bạn có cần chúng hay không? Có thể một người thể hiện một ý tưởng có ý nghĩa hơn và liên quan nhiều hơn đến biến trả lời của bạn so với biến khác. Có thể bạn sẽ kết luận rằng chúng giống nhau với các mức độ biến đổi khác nhau.

Ngoài ra, khi xem xét các mô hình thuộc bất kỳ loại nào, nhưng đặc biệt là với các yếu tố dự đoán xen kẽ, giá trị p là một cách khủng khiếp để biết liệu một người dự đoán mới có đóng góp có ý nghĩa hay không (nếu đó là những gì bạn đang cố gắng làm ... không chắc bạn là gì Bạn đang cố gắng thực hiện bởi vì có vẻ như bạn chỉ đang cố gắng thực hiện hồi quy A) đơn giản hoặc B) đi ra theo cách bạn muốn ... không phải điều nào khả thi). Bạn có lẽ tốt nhất nên nhìn vào AIC để giúp bạn xác định những dự đoán nào bạn nên giữ và không đóng góp gì.


Làm thế nào để giá trị p thấp thể hiện tính đa hình? Hai khái niệm hoàn toàn khác nhau. Với đủ dữ liệu, bạn có thể có giá trị p thấp và hầu như không có cộng tuyến nào cả.
whuber

Đây chính xác là những gì tôi đang tranh luận, John: bạn đã kết luận trong câu đầu tiên của bạn rằng những gì OP mô tả ngụ ý "Bạn có tính đa hình". Nhưng đây chính xác là những gì OP muốn biết: "tôi hay tôi không gặp vấn đề về đa cộng đồng"? Tôi cho rằng câu trả lời đúng là "bạn chưa cung cấp cho chúng tôi đủ thông tin, nhưng có lẽ là không" bởi vì các hiện tượng được mô tả trong câu hỏi hoàn toàn phù hợp với các vấn đề được điều hòa tốt. Thật vậy, các VIF thấp được báo cáo bởi OP cho thấy khẳng định của bạn là sai.
whuber

Tôi đã không nói rằng bất cứ nơi nào. Có lẽ bạn có nghĩa là những gì tôi nói về phân tích ban đầu. Phân tích ban đầu là các hiệu ứng thay đổi rất nhiều tùy thuộc vào những hiệu ứng khác được thêm vào. Đó là do đa cộng tuyến (mặc dù nó không định lượng được nó). Tất nhiên ý nghĩa là một vấn đề khác nhau. Tôi thực sự không biết bạn đang làm gì?
Giăng

Xin lỗi Whuber vì đã cập nhật nhận xét, nhưng dù sao thì bạn cũng hoạt động tốt .... các độc giả, hai cái cuối cùng ở trên bị đảo ngược và đó là lỗi của tôi. Whuber, tôi chỉ tập trung vào từ "vấn đề". Multicollinearity là một cái gì đó bạn định lượng. Có một số. Nó cho thấy suy nghĩ khó khăn về các biến bất kể. Nó cũng gợi ý rằng lý do các yếu tố dự đoán phụ gia thay đổi khi được thêm hoặc loại bỏ là do tính đa hình đó. Tôi không có ấn tượng người hỏi thực sự muốn có câu trả lời về việc đó là một "vấn đề" tính toán.
Giăng

Có thể chúng ta diễn giải câu hỏi theo những cách khác nhau, John. Bởi vì tôi không muốn để lại vấn đề có thể bị nhầm lẫn bởi các bình luận của tôi ở đây, tôi đã thêm một câu trả lời để giải thích quan điểm của mình.
whuber

2

Cá nhân, tôi sử dụng các chỉ mục điều kiện và bảng giải thích phương sai để phân tích cộng tuyến.

Tôi cũng sẽ không sử dụng giá trị p làm tiêu chí cho việc xây dựng mô hình và khi so sánh các mô hình với 6 IV với các mô hình với 1, tôi sẽ xem xét các thay đổi về kích thước hiệu ứng của tham số cho cả hai biến.

Nhưng bạn chắc chắn có thể có kết quả mà bạn đề cập mà không cần thông đồng. Collinearity chỉ nói về các biến X và mối quan hệ của chúng. Nhưng hai biến có thể liên quan mạnh mẽ đến Y trong khi không liên quan mạnh với nhau.


1
Điều này có vẻ không trực quan với tôi, rằng hai biến có thể liên quan mạnh mẽ đến Y mà không liên quan mạnh mẽ với nhau. Có một ví dụ bạn có thể chỉ cho tôi, hoặc một lời giải thích dài hơn?
cryptic_star

@Peter - với 1- (1 / 5.6) = 82% phương sai trong dự đoán cuối cùng được giải thích bởi những người khác, tại sao bạn nói có thể không có sự cộng tác?
rolando2

3
Allie, đó là một câu hỏi hay. Lấy hai biến không liên quan x 2 , có phương sai tương đương và có dạng y = x 1 + x 2 . Bây giờ y liên quan chặt chẽ đến từng x 1x 2 mà không có x 1x 2 có bất kỳ mối quan hệ nào cả. x1x2y=x1+x2yx1x2x1x2
whuber

0

Về tính đa hình, có nhiều ngưỡng khác nhau được đề cập thường hội tụ quanh VIF là 10 tương ứng với giá trị R Square cơ bản là 0,90 giữa biến được kiểm tra so với các biến độc lập khác. Các VIF của các biến của bạn có vẻ có thể qua được và về mặt kỹ thuật bạn có thể giữ chúng trong một mô hình.

Tuy nhiên, tôi sẽ sử dụng phương pháp hồi quy từng bước để xem đâu là sự kết hợp tốt nhất của các biến và mức độ giải thích nhiều hơn (tăng dần trong R Square) mà bạn nhận được bằng cách thêm các biến. Điểm chuẩn phân xử phải là giá trị R Square được điều chỉnh để điều chỉnh giá trị R Square xuống dưới bằng cách xử phạt mô hình để thêm các biến.

Các biến của bạn có phần tương quan với nhau. Điều này là không thể tránh khỏi, nó chỉ là vấn đề bằng cấp. Với các VIF mà bạn đề cập, tôi nghi ngờ bằng trực giác rằng bạn sẽ nhận được phần lớn bit thông tin / giải thích từ tổ hợp 2 biến tốt nhất. Và, việc thêm các biến đó chỉ có thể thêm giá trị gia tăng biên.

Khi xem xét sự kết hợp của các biến được chọn theo quy trình hồi quy từng bước, tôi cũng sẽ xem xét các biến nào được chọn và nếu các dấu hệ số hồi quy của chúng phù hợp với tương quan của chúng với y. Nếu chúng không phải, đó có thể là do sự tương tác hợp pháp giữa các biến. Nhưng, nó cũng có thể là kết quả của việc quá mức mô hình và các hệ số hồi quy là giả. Chúng phản ánh sự phù hợp toán học, nhưng vô nghĩa về mặt nhân quả cơ bản.

Một cách khác để chọn các biến của bạn là quyết định theo quan điểm logic, biến nào là 2 hoặc 3 biến chính trong mô hình. Bạn bắt đầu với những thứ đó và sau đó kiểm tra xem bạn nhận được thêm bao nhiêu thông tin bằng cách thêm một biến. Kiểm tra Quảng trường R đã điều chỉnh, tính nhất quán của hệ số hồi quy so với hồi quy ban đầu và rõ ràng kiểm tra tất cả các mô hình với khoảng thời gian chờ. Khá sớm, nó sẽ hiển nhiên mô hình tốt nhất của bạn là gì.


4
Radj2

Nhiều vấn đề bạn phác thảo là phổ biến đối với mô hình hồi quy tuyến tính nói chung. Tôi không chắc chắn rằng các vấn đề kỹ thuật như vậy là lý do để loại bỏ tất cả các phương pháp hồi quy từng bước và hồi quy tuyến tính nói chung. Tôi không rõ tại sao hồi quy từng bước "đang lựa chọn dựa trên một biến ngẫu nhiên, điều này gây ra rất nhiều vấn đề." Stepwise tìm thấy sự phù hợp nhất, giống như bất kỳ mô hình nào. Điều tôi nghĩ là quan trọng hơn là đảm bảo rằng sự phù hợp toán học tương ứng với lý thuyết hoặc logic cơ bản của vấn đề bạn đang giải quyết.
Sympa

3
R2Radj2Fp

gung, tôi không chắc chúng ta đang nói về điều tương tự. Tôi đang sử dụng Stepwise Regression theo hai cách. Một là thủ công, bạn xây dựng một mô hình bằng cách sử dụng hồi quy tốt nhất. Và, bạn thêm vào nó bằng cách sử dụng biến tốt nhất thứ 2 giải thích rõ nhất lỗi của mô hình đầu tiên. Và, bạn tiếp tục cho đến khi điểm AIC của bạn xấu đi. Phương pháp thứ 2 tôi đã sử dụng là sử dụng phần mềm XLStat tự động hóa quy trình và được phát triển bởi Thierry Fahmy và nhóm của ông. Anh ấy có một tiến sĩ toán học cùng với những người khác trong nhóm của anh ấy. Và, tôi không tin họ sẽ rơi vào tất cả những cái bẫy mà bạn đề cập.
Sympa

2
Gaetan, tôi nghĩ điều mà @gung đang cố nói là các phương pháp từng bước có thể gây ra thiệt hại nghiêm trọng cho khung hồi quy thống kê ban đầu (hàm mất, giá trị p, v.v.). Xem phản hồi và bình luận của Frank Harrell tại đây . Hồi quy hình phạt, như được thảo luận trong một số chủ đề, có thể là một lựa chọn tốt. "(...) Phần mềm tự động hóa quy trình" nhắc nhở tôi về R fortune(224): không có troll ở đây, chỉ muốn nhấn mạnh rằng bạn không nhất thiết phải tin tưởng những gì phần mềm tự động cung cấp (hoặc cung cấp) cho bạn như một tùy chọn.
chl

0

Nếu các biến giải thích của bạn là dữ liệu đếm và không có lý khi cho rằng chúng được phân phối bình thường, bạn có thể chuyển đổi chúng thành các biến thể thông thường tiêu chuẩn bằng cách sử dụng scalelệnh R. Làm điều này có thể làm giảm sự cộng tác. Nhưng điều đó có lẽ sẽ không giải quyết được toàn bộ vấn đề.

Một loạt các lệnh R hữu ích để phân tích và xử lý cộng tuyến được tìm thấy trên blog của Florian Jaeger , bao gồm:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

Các z.chức năng chuyển đổi một vector vào một biến bình thường tiêu chuẩn. Các r.trở về chức năng chuẩn dư cho suy thoái một yếu tố dự báo chống lại khác. Bạn có thể sử dụng để phân chia một cách hiệu quả các mô hình lệch lạc vào khác nhau đợt để chỉ một số biến có quyền truy cập vào các đợt cao cấp nhất, sau đó các đợt tiếp theo sẽ được cung cấp cho các biến residualized. (Xin lỗi vì thuật ngữ quê nhà của tôi) Vì vậy, nếu một mô hình của mẫu

Y ~ A + B

bị đa thần kinh, sau đó bạn có thể chạy một trong hai

Y ~ A + r.(B)
Y ~ r.(A) + B

sao cho chỉ các phần dư của biến "bậc ba" (khi được hồi quy so với biến "bậc cao cấp") được trang bị cho mô hình. Bằng cách này, bạn được bảo vệ khỏi tính đa hình, nhưng có một bộ thông số phức tạp hơn để báo cáo.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.