Tôi có suy nghĩ ngây thơ rằng hồi quy tuyến tính chỉ phù hợp khi người ta nghi ngờ rằng có mối quan hệ chức năng tuyến tính giữa các biến giải thích và biến trả lời. Nhưng không nhiều ứng dụng trong thế giới thực dường như đáp ứng tiêu chí này.
Đây không phải là một sự hiểu biết chính xác về "tuyến tính" trong "hồi quy tuyến tính" là gì.
yx
yx
Có một ví dụ với một yếu tố dự báo duy nhất ở đây , nhưng các mô hình đường cong thường được trang bị dưới dạng hồi quy bội, trong đó một số chức năng của một yếu tố dự báo (biến x, biến độc lập) có thể xảy ra trong hồi quy và điều này cho phép rất linh hoạt. Điều này bao gồm hồi quy đa thức, ví dụ. Xem một số thảo luận và ví dụ ở đây .
Tuy nhiên, nếu chúng ta cho phép thực tế là các yếu tố dự đoán có thể được biến đổi để phù hợp với các mối quan hệ cong, thì độ tuyến tính trong các tham số cũng tương ứng với độ tuyến tính trong các yếu tố dự đoán được chuyển đổi đó.
Ngoài ra, nhiều vấn đề gần với tuyến tính (ít nhất là trong phạm vi các giá trị được xem xét) hoặc ồn ào đến mức bất kỳ độ cong nhẹ nào đều không thể nhận thấy và một loạt các mô hình đơn giản cho mối quan hệ tăng hoặc giảm có thể xảy ra - và trong trường hợp đó, một lựa chọn tuyến tính có thể vừa đủ và đơn giản nhất để phù hợp và hiểu.
Những khía cạnh của một dự án mà một nhà thống kê có kinh nghiệm sẽ nghĩ về nếu họ ở trong đôi giày của tôi, tìm kiếm một câu hỏi + dữ liệu rất phù hợp cho hồi quy tuyến tính.
Lần duy nhất tôi có thể tìm kiếm một vấn đề để áp dụng hồi quy là khi tôi đang cố gắng tìm một ví dụ tốt cho việc giảng dạy. Khi thực sự ở vị trí làm công việc thống kê (thay vì giải thích hoặc dạy nó), tôi chọn phương pháp phù hợp với câu hỏi quan tâm (và đặc điểm của dữ liệu), thay vì chọn dữ liệu phù hợp với phương pháp.
Hãy tưởng tượng một thợ mộc, ví dụ. Người thợ mộc không nhặt một phát ngôn viên và nói "tôi có thể sử dụng cái này vào việc gì?". Thay vào đó, thợ mộc có một vấn đề cần giải quyết, và khi xem xét các đặc điểm của vấn đề ("tôi đang cố gắng làm gì?" Và "tôi đang sử dụng loại gỗ nào?", V.v ... phù hợp hơn những người khác. Đôi khi các công cụ có sẵn có thể giới hạn hoặc hướng dẫn các lựa chọn (nếu bạn không có người phát ngôn, bạn có thể phải thực hiện với một thứ khác ... hoặc bạn có thể phải đi mua một phát ngôn viên).
Tuy nhiên, giả sử rằng bạn có một thống kê bỏ túi giúp bạn và bạn đang cố gắng tìm một vấn đề phù hợp với hồi quy tuyến tính. Sau đó, họ có thể đề nghị bạn xem xét các giả định hồi quy khác nhau và khi chúng quan trọng. Tôi sẽ đề cập đến một vài điều.
E(y|g(x))g(x)gx∗=xE( y| x*) = Một + b x *
Nếu bạn có thể sử dụng nhiều hồi quy, thậm chí đó không phải là vấn đề chính, vì người ta có thể sử dụng (ví dụ) các hàm hồi quy khối để phù hợp với các mối quan hệ khá chung.
Tôi khuyên bạn nên tránh xa dữ liệu theo thời gian trừ khi bạn hiểu các vấn đề với hồi quy giả; gắn bó với các vấn đề cắt ngang.
xx
x
Nếu bạn quan tâm đến kiểm tra giả thuyết, khoảng tin cậy hoặc khoảng dự đoán, thì nhiều giả định hồi quy thông thường có thể có vấn đề (nhưng có những lựa chọn thay thế không đưa ra các giả định đó, và trong một số trường hợp, ít nhất một số giả định có thể không dù sao cũng đặc biệt quan trọng).
Vì vậy, một điều ít nhất là cố gắng nhận thức được là những giả định đó được tạo ra trong việc tạo ra các thủ tục suy luận mà bạn đang sử dụng và tầm quan trọng của chúng trong vấn đề cụ thể của bạn (ví dụ như khi thực hiện các bài kiểm tra giả thuyết thông thường, tính quy tắc là một giả định, nhưng trong các mẫu lớn, giả định đó có thể không quan trọng, mặt khác, giả định về phương sai không đổi có thể là vấn đề nhiều hơn).
Có một số bài viết thảo luận về các giả định của hồi quy, và một số bài viết thảo luận khi nào chúng cần được thực hiện, và chúng có thể quan trọng đến mức nào, và thậm chí là xem xét thứ tự nào.