Là đa thần thực sự là một vấn đề?


11

Tôi đang làm việc trên một số dự án mô hình dự đoán những ngày này: cố gắng tìm hiểu một mô hình và đưa ra dự đoán theo thời gian thực dựa trên mô hình mà tôi đã học ngoại tuyến.

Gần đây tôi đã bắt đầu sử dụng hồi quy sườn, bởi vì tôi đọc rằng chính quy hóa có thể giúp giảm ảnh hưởng của đa cộng đồng.

Tuy nhiên, tôi đọc blog này ngày hôm nay. Bây giờ tôi hoàn toàn bối rối. Theo blog này, tính đa hướng KHÔNG làm tổn thương sức mạnh dự đoán của một mô hình nhiều như vậy.

Vì vậy, cuối cùng, đa cộng đồng có phải là một vấn đề hay không?


2
đó là một vấn đề trong một số cài đặt (giả sử OLS), không phải là vấn đề trong các cài đặt khác (giả sử Cây quyết định hoặc với Chính quy hóa).
Haitao Du

6
@ hxd1011, tôi sẽ nói, không exaclty. Đó một vấn đề nếu chúng ta thực hiện mô hình giải thích, nhưng một số kỹ thuật tốt hơn so với các kỹ thuật khác trong việc giải quyết nó (OLS so với hồi quy sườn). Nó ít gây ra vấn đề cho dự đoán, như Rob J. Hyndman lưu ý trong bài đăng trên blog được trích dẫn.
Richard Hardy

1
Đó là một vấn đề lớn hơn nếu dự đoán của bạn được đo bằng lỗi. Với các yếu tố dự đoán được đo hoàn hảo (như các biến phân loại không có vấn đề đo lường), điều đó sẽ ít gây lo ngại hơn.
kjetil b halvorsen

1
Micronumerosity là vấn đề thực sự.
The Laconic

Câu trả lời:


12

Đó là một vấn đề đối với suy luận nguyên nhân - hay đúng hơn, nó chỉ ra những khó khăn trong suy luận nguyên nhân - nhưng đó không phải là vấn đề cụ thể để dự đoán / dự báo (trừ khi nó cực kỳ ngăn cản sự hội tụ mô hình hoặc dẫn đến ma trận đơn lẻ, và sau đó bạn sẽ không nhận được dự đoán nào). Điều này, tôi nghĩ, cũng là ý nghĩa của bài viết blog đó. Có vẻ như bạn có thể khăng khăng với câu trả lời có hoặc không khi câu trả lời là tùy thuộc. Đây là những gì nó phụ thuộc vào, và tại sao ít nhất có thể nói rằng tính đa hình (không hoàn hảo) không bao giờ là lý do để loại bỏ một biến từ một mô hình - bất kỳ vấn đề nào mà tính đa hướng cho thấy sẽ không biến mất vì bạn đã bỏ một biến và dừng lại nhìn thấy sự cộng tác

Các dự đoán có mối tương quan cao với nhau chỉ không làm tốt công việc cải thiện dự đoán của bạn nếu chúng không được cộng tác, nhưng vẫn tương quan riêng với biến kết quả; không ai đang làm nhiều việc hơn người khác đang làm và tự mình làm. Có lẽ chúng liên quan mật thiết với nhau vì chúng nắm bắt cơ bản cùng một cấu trúc cơ bản, trong trường hợp đó, không ai có thể thêm nhiều thứ khác lên trên lý do chính đáng, và không thể tách chúng ra khỏi bản chất để dự đoán dù sao mục đích, bằng cách điều khiển các đơn vị quan sát để có các giá trị khác nhau trên mỗi hai biến dự đoán để chúng hoạt động tốt hơn như các yếu tố dự đoán. Nhưng điều đó không có nghĩa là bao gồm cả hai trong số đó trong mô hình của bạn là xấu hoặc sai.

Khi nói đến suy luận nguyên nhân, đó là một vấn đề đơn giản chỉ vì nó ngăn chúng ta không thể nói, ít nhất là, những người dự đoán cộng tuyến đang thực hiện dự đoán, và do đó, có thể giải thích và, có lẽ là nguyên nhân. Với đủ các quan sát, cuối cùng bạn sẽ có thể xác định các tác động riêng biệt của các biến thậm chí rất cao (nhưng không bao giờ hoàn hảo). Đây là lý do tại sao Rob Franzese và UMich thích gọi tính đa hình là "micronumerosity". Luôn có một số cộng tác giữa các yếu tố dự đoán. Đó là một trong những lý do tại sao chúng ta thường chỉ cần nhiều quan sát. Đôi khi một số tiền không thể, cho nhu cầu suy luận nhân quả của chúng ta. Nhưng vấn đề là sự phức tạp của thế giới và những hoàn cảnh không may ngăn cản chúng ta quan sát nhiều tình huống khác nhau trong đó các yếu tố khác nhau khác nhau nhiều hơn trong mối quan hệ với nhau. Multicollinearity là triệu chứng của việc thiếu dữ liệu hữu ích và hồi quy đa biến là phương pháp chữa bệnh (không hoàn hảo). Tuy nhiên, rất nhiều người dường như nghĩ về tính đa hình như một cái gì đó họ đang làm sai với mô hình của họ, và như thể đó là một lý do để nghi ngờ những phát hiện họ có.


7

Đây không phải là vấn đề đối với mô hình dự đoán khi tất cả những gì bạn quan tâm là dự báo và không có gì khác.

Hãy xem xét mô hình đơn giản này: Giả sử

y=β+βxx+βzz+ε
z=αx

Chúng tôi có các hồi quy cộng tuyến hoàn hảo và một giải pháp OLS điển hình sẽ không tồn tại vì có một điểm kỳ dị.(XTX)1

Tuy nhiên, hãy cắm một phương trình vào một phương trình khác: trong đó

y=β+βxx+βzαx+ε=β+β2x+ε,
β2βx+βzα

Vì vậy, rõ ràng, chúng ta có thể ước tính bằng các phương pháp OLS thông thường, tức là có một giải pháp. Vấn đề duy nhất là nó không phải là duy nhất!β^2

Chúng tôi có thể chọn bất kỳ nào sẽ cung cấp cho chúng tôi : chúng tôi có số lượng cặp vô hạn tương ứng với một duy nhất giải pháp . Rõ ràng, bất kỳ cặp nào trong số các cặp này đều tốt như bất kỳ cặp nào khác để dự đoán . Hơn nữa, tất cả các cặp này đều tốt như hệ số duy nhất cho mục đích dự báo .β^z( β x, β z) beta 2 y β 2β^x=β2αβ^x(β^x,β^z)β^2y^β^2

Vấn đề duy nhất là suy luận. Nếu bạn muốn biết làm thế nào tác động phân tích điển hình của bạn của hệ số và phương sai của nó sẽ là vô nghĩa.yxyβ^x


2

Multicollinearity thường không phải là kịch bản tốt nhất để phân tích hồi quy. Cuộc sống của chúng ta sẽ dễ dàng hơn nhiều nếu tất cả các dự đoán là trực giao.

Đó là một vấn đề đối với việc giải thích mô hình (cố gắng hiểu dữ liệu):

  • Đa sắc thái ảnh hưởng đến phương sai của các ước lượng hệ số, và do đó độ chính xác của ước tính.
  • Vì vậy, sẽ khó từ chối một giả thuyết khống (vì các lỗi tiêu chuẩn cao hơn). Chúng tôi có vấn đề lỗi loại II.
  • Việc thêm hoặc xóa chỉ một vài quan sát mẫu có thể thay đổi đáng kể các hệ số ước tính
  • Các dấu hiệu của hệ số ước tính có thể trái ngược với những gì được mong đợi.

Hãy tưởng tượng nếu bạn phải viết báo cáo cho sếp về dữ liệu của bạn. Bạn xây dựng một mô hình đa cộng đồng gần như hoàn hảo và nói với sếp của bạn về mô hình đó. Bạn có thể nói " dự đoán đầu tiên của tôi có mối tương quan tích cực với phản hồi ... Tôi sẽ nói cho bạn biết thêm tại sao. Sếp của bạn rất vui, nhưng yêu cầu bạn thử lại mà không có một vài điểm dữ liệu. Hệ số của bạn trong mô hình mới của bạn bây giờ ... rất khác , hệ số cho người dự đoán đầu tiên của bạn bây giờ là âm! Sếp của bạn sẽ không tin tưởng bạn nữa! Mô hình của bạn không mạnh mẽ.

Multicollinearity vẫn là một vấn đề đối với sức mạnh dự đoán. Mô hình của bạn sẽ phù hợp hơn và ít có khả năng khái quát hóa cho dữ liệu ngoài mẫu. May mắn thay, bạn sẽ không bị ảnh hưởng và hệ số của bạn sẽ vẫn không thiên vị.R2


-1

Tôi tranh luận rằng nếu mối tương quan giữa một biến và một biến khác (hoặc tổ hợp biến tuyến tính) thay đổi giữa dữ liệu trong mẫu và ngoài mẫu, bạn có thể bắt đầu thấy tính đa hình ảnh hưởng đến độ chính xác của mẫu ngoài mẫu phỏng đoán. Multicollinearity chỉ cần thêm một giả định khác (tương quan nhất quán) phải được đáp ứng hợp lý cho mô hình của bạn để tiếp tục hoạt động tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.