Như bạn nói, các mô hình tuyến tính thường đơn giản hơn các mô hình phi tuyến tính, có nghĩa là chúng chạy nhanh hơn (xây dựng và dự đoán), dễ giải thích và giải thích hơn, và thường đơn giản trong các phép đo lỗi. Vì vậy, mục tiêu là tìm hiểu xem các giả định của hồi quy tuyến tính có đúng với dữ liệu của bạn không (nếu bạn không hỗ trợ tuyến tính, thì chỉ cần đi với phi tuyến tính). Thông thường, bạn sẽ lặp lại biểu đồ một biến với tất cả các biến riêng lẻ, giữ tất cả các biến khác không đổi.
Mặc dù vậy, có lẽ quan trọng hơn, bạn muốn biết liệu bạn có thể áp dụng một số loại biến đổi, tương tác biến hoặc biến giả để di chuyển dữ liệu của bạn sang không gian tuyến tính hay không. Nếu bạn có thể xác thực các giả định hoặc nếu bạn biết rõ dữ liệu của mình để áp dụng các chuyển đổi hoặc sửa đổi được thông báo có động cơ hoặc thông minh, thì bạn muốn tiến hành chuyển đổi đó và sử dụng hồi quy tuyến tính. Khi bạn có phần dư, bạn có thể vẽ chúng so với các giá trị dự đoán hoặc các biến độc lập để quyết định thêm nếu bạn cần chuyển sang các phương pháp phi tuyến tính.
Có một sự phá vỡ tuyệt vời về các giả định của hồi quy tuyến tính ở đây tại Duke . Bốn giả định chính được liệt kê và mỗi giả định được chia thành các hiệu ứng trên mô hình, cách chẩn đoán nó trong dữ liệu và các cách tiềm năng để "sửa chữa" (nghĩa là chuyển đổi hoặc thêm vào) dữ liệu để giữ giả định. Dưới đây là một đoạn trích nhỏ từ đầu tóm tắt bốn giả định được đề cập, nhưng bạn nên đến đó và đọc các phân tích.
Có bốn giả định chính trong đó biện minh cho việc sử dụng mô hình hồi quy tuyến tính cho mục đích suy luận hoặc dự đoán:
(i) tính tuyến tính và tính gây nghiện của mối quan hệ giữa các biến phụ thuộc và độc lập:
(a) Giá trị kỳ vọng của biến phụ thuộc là hàm đường thẳng của từng biến độc lập, giữ các biến khác cố định.
(b) Độ dốc của đường đó không phụ thuộc vào giá trị của các biến khác.
(c) Ảnh hưởng của các biến độc lập khác nhau đến giá trị dự kiến của biến phụ thuộc là phụ gia.
(ii) tính độc lập thống kê của các lỗi (đặc biệt, không có mối tương quan giữa> lỗi liên tiếp trong trường hợp dữ liệu chuỗi thời gian)
(iii) tính đồng nhất (phương sai không đổi) của các lỗi
(a) so với thời gian (trong trường hợp dữ liệu chuỗi thời gian)
(b) so với dự đoán
(c) so với bất kỳ biến độc lập
(iv) tính quy phạm của phân phối lỗi.