Sự cần thiết của các giả định trong hồi quy tuyến tính là gì?


14

Trong hồi quy tuyến tính, chúng tôi đưa ra các giả định sau

  • Giá trị trung bình của phản hồi, E(Yi) , tại mỗi bộ giá trị của các yếu tố dự đoán, (x1i,x2i,) , là một hàm tuyến tính của các yếu tố dự đoán.
  • Các lỗi, , là Độc lập.εi
  • Các lỗi, , tại mỗi bộ giá trị của các yếu tố dự đoán, (x_ {1i}, x_ {2i}, Câu ) , thường được phân phối. ( x 1 i , x 2 i ,Mạnh)εi(x1i,x2i,)
  • Các lỗi, εi , tại mỗi bộ giá trị của các yếu tố dự đoán, (x_ {1i}, x_ {2i}, Câu )(x1i,x2i,) , có phương sai bằng nhau (ký hiệu là σ2 ).
  • Một trong những cách chúng ta có thể giải quyết hồi quy tuyến tính là thông qua các phương trình bình thường, chúng ta có thể viết là

    θ=(XTX)1XTY

    Từ quan điểm toán học, phương trình trên chỉ cần là không thể đảo ngược. Vậy, tại sao chúng ta cần những giả định này? Tôi đã hỏi một vài đồng nghiệp và họ đề cập rằng đó là để có được kết quả tốt và phương trình bình thường là một thuật toán để đạt được điều đó. Nhưng trong trường hợp đó, làm thế nào để những giả định này giúp đỡ? Làm thế nào để duy trì họ giúp đỡ trong việc có được một mô hình tốt hơn?XTX


    2
    Phân phối chuẩn là cần thiết để tính khoảng tin cậy hệ số bằng các công thức thông thường. Các công thức tính CI khác (tôi nghĩ đó là Trắng) cho phép phân phối không bình thường.
    keiv.fly

    Bạn không phải lúc nào cũng cần những giả định đó để mô hình hoạt động. Trong các mạng thần kinh, bạn có hồi quy tuyến tính bên trong và chúng giảm thiểu rmse giống như công thức bạn cung cấp, nhưng rất có thể không có giả định nào được giữ. Không phân phối bình thường, không có phương sai bằng nhau, không có hàm tuyến tính, thậm chí các lỗi có thể phụ thuộc.
    keiv.fly


    1
    @Alexis Các biến độc lập là iid chắc chắn không phải là giả định (và biến phụ thuộc là iid cũng không phải là giả định - hãy tưởng tượng nếu chúng ta cho rằng phản hồi là iid thì sẽ vô nghĩa khi làm bất cứ điều gì ngoài việc ước tính giá trị trung bình). Và "không có biến bị bỏ qua" thực sự không phải là một giả định bổ sung mặc dù tốt nhất là tránh bỏ sót các biến - giả định đầu tiên được liệt kê thực sự là điều quan tâm đến điều đó.
    Dason

    1
    @Dason Tôi nghĩ rằng liên kết của tôi cung cấp một ví dụ khá mạnh về "không có biến bị bỏ qua" là điều cần thiết để giải thích hợp lệ. Tôi cũng nghĩ rằng iid (có điều kiện dựa trên các yếu tố dự đoán, vâng) là cần thiết, với các bước đi ngẫu nhiên cung cấp một ví dụ tuyệt vời về việc ước tính không iid có thể thất bại (chỉ dùng đến ước tính giá trị trung bình).
    Alexis

    Câu trả lời:


    19

    Bạn đã đúng - bạn không cần phải thỏa mãn các giả định này để khớp một đường bình phương nhỏ nhất với các điểm. Bạn cần những giả định này để giải thích kết quả. Ví dụ: giả sử không có mối quan hệ giữa đầu vào Y , xác suất để có được hệ số β 1 ít nhất là lớn như những gì chúng ta thấy từ hồi quy?X1Yβ1


    17

    Hãy thử hình ảnh của bộ tứ Anscombe từ Wikipedia để có ý tưởng về một số vấn đề tiềm ẩn khi diễn giải hồi quy tuyến tính khi một số giả định rõ ràng là sai: hầu hết các thống kê mô tả cơ bản đều giống nhau ở cả bốn (và các giá trị riêng lẻ giống hệt nhau ở phía dưới bên phải) xTôi

    https://upload.wikidia.org/wikipedia/commons/thumb/e/ec/Anscombe%27s_quartet_3.svg/1280px-Anscombe%27s_quartet_3.svg.png


    Tôi đã thực hiện một minh họa sau Anscombe cho thấy những gì vi phạm giả định không có biến bị bỏ qua có thể trông như thế nào . Vẫn đang làm việc trên một minh họa giống như Anscombe về việc vi phạm giả định iid .
    Alexis

    3

    Bạn không cần những giả định đó để phù hợp với mô hình tuyến tính. Tuy nhiên, ước tính tham số của bạn có thể bị sai lệch hoặc không có phương sai tối thiểu. Vi phạm các giả định sẽ khiến bản thân bạn khó khăn hơn trong việc diễn giải kết quả hồi quy, ví dụ, xây dựng khoảng tin cậy.


    1

    Ok, câu trả lời cho đến nay đi như thế này: Nếu chúng ta vi phạm các giả định thì điều tồi tệ có thể xảy ra. Tôi tin rằng hướng thú vị là: Khi tất cả các giả định mà chúng ta cần (thực sự khác một chút so với những điều ở trên) được đáp ứng, tại sao và làm thế nào chúng ta có thể chắc chắn rằng hồi quy tuyến tính là mô hình tốt nhất?

    p(yTôi|xTôi)E[YTôi|XTôi= =xTôi]xTôi


    0

    Hai giả định chính là

    1. Độc lập của các quan sát
    2. Có nghĩa là không liên quan đến phương sai

    Xem Cuộc thảo luận trong cuốn sách của Julian Faraway .

    Nếu cả hai đều đúng, OLS có khả năng chống lại các vi phạm trong các giả định khác mà bạn đã liệt kê một cách đáng ngạc nhiên.

    Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
    Licensed under cc by-sa 3.0 with attribution required.