Đối với các điều kiện không bình thường, đôi khi người ta sẽ sử dụng hồi quy mạnh , đặc biệt là sử dụng các liên kết đến các phương thức .
Để trình bày bối cảnh cho tính phi quy tắc, có thể giúp xem xét các giả định cho hồi quy OLS tuyến tính , đó là:
- Yếu ngoại sinh . Điều này về cơ bản có nghĩa là các biến dự đoán, x , có thể được coi là giá trị cố định, thay vì các biến ngẫu nhiên. Điều này có nghĩa là, ví dụ, các biến dự đoán được giả sử là không có lỗi, không bị nhiễm lỗi đo lường. Giả định này là giả định thường xuyên bị vi phạm nhất và dẫn đến các lỗi được liệt kê theo danh sách giả định này.
- Tuyến tính. Điều này có nghĩa là giá trị trung bình của biến trả lời là sự kết hợp tuyến tính của các tham số (hệ số hồi quy) và các biến dự đoán. Lưu ý rằng giả định này ít hạn chế hơn nhiều so với lúc đầu. Do các biến dự đoán được coi là giá trị cố định (xem ở trên), tuyến tính thực sự chỉ là một hạn chế đối với các tham số. Bản thân các biến dự đoán có thể được biến đổi tùy ý và trên thực tế, có thể thêm nhiều bản sao của cùng một biến dự báo cơ bản, mỗi biến được biến đổi khác nhau.
- Phương sai không đổi (hay còn gọi là homoscedasticity). Điều này có nghĩa là các giá trị khác nhau của biến trả lời có cùng phương sai trong các lỗi của chúng, bất kể giá trị của các biến dự đoán. Trong thực tế, giả định này không hợp lệ (nghĩa là các lỗi không đồng nhất) nếu biến phản ứng có thể thay đổi trên phạm vi rộng. Để kiểm tra phương sai lỗi không đồng nhất hoặc khi một mô hình phần dư vi phạm các giả định mô hình của tính đồng nhất (lỗi có thể thay đổi như nhau quanh 'đường phù hợp nhất' cho tất cả các điểm của x), thật thận trọng khi tìm kiếm "hiệu ứng quạt" giữa lỗi dư và giá trị dự đoán. Điều này có nghĩa là sẽ có một sự thay đổi có hệ thống trong phần dư tuyệt đối hoặc bình phương khi được vẽ dựa trên các biến dự đoán. Lỗi sẽ không được phân phối đều trên đường hồi quy. Sự không đồng nhất sẽ dẫn đến việc tính trung bình các phương sai có thể phân biệt xung quanh các điểm để có một phương sai duy nhất đại diện không chính xác cho tất cả các phương sai của đường. Trong thực tế, phần dư xuất hiện cụm và phân tán trên các ô dự đoán của chúng cho các giá trị lớn hơn và nhỏ hơn cho các điểm dọc theo đường hồi quy tuyến tính và lỗi bình phương trung bình cho mô hình sẽ sai.
- Độc lập của lỗi. Điều này giả định rằng các lỗi của các biến trả lời là không tương quan với nhau. (Độc lập thống kê thực tế là một điều kiện mạnh hơn so với việc thiếu tương quan và thường không cần thiết, mặc dù nó có thể được khai thác nếu nó được giữ. Điều này có thể được kiểm tra bằng phân tích cụm và hiệu chỉnh cho tương tác.) Một số phương pháp (ví dụ: khái quát bình phương tối thiểu) có khả năng xử lý các lỗi tương quan, mặc dù chúng thường yêu cầu nhiều dữ liệu hơn trừ khi một số loại chính quy được sử dụng để thiên vị mô hình theo hướng giả định lỗi không tương quan. Hồi quy tuyến tính Bayes là một cách chung để xử lý vấn đề này.
Mối quan hệ thống kê giữa các điều khoản lỗi và các biến hồi quy đóng vai trò quan trọng trong việc xác định liệu một thủ tục ước tính có các thuộc tính lấy mẫu mong muốn như không thiên vị và nhất quán hay không.
Sự sắp xếp hoặc phân phối xác suất của các biến dự đoán x có ảnh hưởng lớn đến độ chính xác của ước tính. Lấy mẫu và thiết kế các thí nghiệm là các trường con thống kê được phát triển cao cung cấp hướng dẫn để thu thập dữ liệu theo cách để đạt được ước tính chính xác.
Vì đây câu trả lời minh họa, mô phỏng Student's- phân phối trục lỗi từ một dòng dẫn đến đường hồi quy OLS với khoảng tin cậy cho độ dốc và đánh chặn mà gia tăng kích thước như các bậc tự do ( ) giảm. Với , Student's là phân phối Cauchy và khoảng tin cậy cho độ dốc trở thành .tydfdf=1t(−∞,+∞)
Việc gọi phân phối Cauchy là tùy ý đối với phần dư theo nghĩa là khi các lỗi tạo được phân phối Cauchy, phần dư OLS từ một dòng giả thông qua dữ liệu thậm chí còn kém tin cậy hơn, ví dụ như rác trong --- rác ra. Trong những trường hợp đó, người ta có thể sử dụng hồi quy hồi quy Theil-Sen . Theil-Sen chắc chắn mạnh hơn OLS đối với phần dư không bình thường, ví dụ, lỗi phân tán Cauchy sẽ không làm giảm khoảng tin cậy và không giống như OLS cũng là hồi quy bivariate, tuy nhiên trong trường hợp bivariate, nó vẫn bị sai lệch. Hồi quy Passing-Bablok có thể được phân chia nhiều hơn không thiên vị, nhưng không áp dụng cho các dốc hồi quy âm. Nó thường được sử dụng cho các nghiên cứu so sánh phương pháp. Nên nhắc đến hồi quy Demingở đây, không giống như các hồi quy Theil-Sen và Passing-Bablok, nó là một giải pháp thực tế cho vấn đề bivariate, nhưng thiếu sự mạnh mẽ của các hồi quy khác. Tính mạnh mẽ có thể được tăng lên bằng cách cắt bớt dữ liệu để bao gồm các giá trị trung tâm hơn, ví dụ, đồng thuận mẫu ngẫu nhiên (RANSAC) là một phương pháp lặp để ước tính các tham số của mô hình toán học từ một tập hợp dữ liệu được quan sát có chứa các ngoại lệ.
Thế thì hồi quy bivariate là gì? Việc thiếu kiểm tra về bản chất của các vấn đề là nguyên nhân thường gặp nhất đối với pha loãng hồi quy OLS và đã được trình bày độc đáo ở những nơi khác trên trang web này. Khái niệm về thiên vị OLS trong bối cảnh này không được công nhận rõ ràng, xem ví dụ Frost và Thompson như được trình bày bởi Longford et al. (2001), trong đó đề cập đến người đọc các phương thức khác, mở rộng mô hình hồi quy để thừa nhận tính biến thiên của biến , do đó không phát sinh sai lệch . Nói cách khác, đôi khi hồi quy trường hợp bivariate đôi khi không thể bỏ qua khi cả - vàx1 x y x y y 2 x y x y = f ( x )1xy-giá trị được phân phối ngẫu nhiên. Có thể kiểm tra nhu cầu hồi quy bivariate bằng cách khớp đường hồi quy OLS với phần dư từ hồi quy OLS của dữ liệu. Sau đó, nếu phần dư OLS có độ dốc khác không, thì vấn đề là bivariate và hồi quy OLS của dữ liệu sẽ có cường độ dốc quá nông và một mức chặn quá lớn để thể hiện mối quan hệ chức năng giữa và . Trong những trường hợp đó, công cụ ước tính tuyến tính ít lỗi nhất của giá trị thực sự vẫn là từ hồi quy OLS và giá trị R của nó sẽ ở giá trị tối đa có thể, nhưng đường hồi quy OLS sẽ không biểu thị hàm dòng thực tế có liên quan các vàxyy2xy biến ngẫu nhiên. Như một ví dụ ngược lại, khi xảy ra giữa các vấn đề khác trong chuỗi thời gian có giá trị tương đương, OLS của dữ liệu thô không phải lúc nào cũng không phù hợp, nó có thể biểu thị dòng tốt nhất , nhưng vẫn phải tuân theo biến đổi biến, ví dụ cho dữ liệu đếm, người ta sẽ lấy căn bậc hai của số đếm để chuyển đổi các lỗi cho lỗi phân phối Poisson sang các điều kiện bình thường hơn và người ta vẫn nên kiểm tra độ dốc khác không của số dư. xy=f(x)
- Longford, NT (2001). "Thư tín". Tạp chí của Hiệp hội Thống kê Hoàng gia, Sê-ri A. 164: 565. doi: 10.1111 / 1467-985x.00219