Chỉ riêng R 2 không phải là một thước đo tốt về sự phù hợp, nhưng chúng ta đừng đi sâu vào vấn đề đó ở đây ngoại trừ việc quan sát rằngsự khôn ngoancó giá trị trong mô hình hóa.R2
Cuối cùng, lưu ý rằng các kỹ thuật tiêu chuẩn về phân tích dữ liệu khám phá (EDA) và hồi quy (nhưng không phải theo từng bước hoặc các quy trình tự động khác) đề xuất sử dụng mô hình tuyến tính trong biểu mẫu
f−−√=a+b∗c+a∗b∗c+constant+error
Sử dụng OLS, điều này đạt được trên 0,99. Bị kích động bởi một kết quả như vậy, người ta bị cám dỗ vuông cả hai bên và hồi quy f trên a , b ∗ c , a ∗ b ∗ c , và tất cả các hình vuông và sản phẩm của họ. Điều này ngay lập tức tạo ra một mô hìnhR2fab∗ca∗b∗c
f=a2+b∗c+constant+error
với MSE gốc dưới 34 và R 2 điều chỉnh là 0,9999R2 . Các hệ số ước tính của 1.0112 và 0.988 cho thấy dữ liệu có thể được tạo một cách giả tạo với công thức
f=a2+b∗c+50
cộng với một chút lỗi phân phối thông thường của SD xấp xỉ bằng 50.
Chỉnh sửa
Đáp lại gợi ý của @ knorv, tôi tiếp tục phân tích. Để làm như vậy, tôi đã sử dụng các kỹ thuật đã thành công cho đến nay, bắt đầu bằng việc kiểm tra ma trận phân tán của phần dư so với các biến ban đầu. Chắc chắn, có một dấu hiệu rõ ràng của sự tương quan giữa và dư (mặc dù OLS hồi quy của f đối với một , một 2 , và b * c đã không chỉ một là "quan trọng"). Tiếp tục trong tĩnh mạch này tôi khám phá tất cả các mối tương quan giữa các điều khoản bậc hai một 2 , ... , e 2 , một *afaa2b∗ca và phần dư mới và tìm thấy một mối quan hệ nhỏ nhưng có ý nghĩa cao với b 2 . "Rất có ý nghĩa" có nghĩa là tất cả việc rình mò này liên quan đến việc xem xét khoảng 20 biến số khác nhau, do đó, tiêu chí quan trọng của tôi đối với chuyến thám hiểm câu cá này là khoảng 0,05 / 20 = 0,0025: bất cứ điều gì ít nghiêm ngặt hơn đều có thể dễ dàng trở thành vật phẩm của việc thăm dò.a2,…,e2,a∗b,a∗c,…,d∗eb2
Điều này có một cái gì đó mang hương vị của một mô hình vật lý mà chúng ta mong đợi, và do đó tìm kiếm các mối quan hệ với các hệ số "thú vị" và "đơn giản". Vì vậy, ví dụ, khi thấy rằng hệ số ước tính của là -0,0092 (trong khoảng -0,005 đến -0,013 với độ tin cậy 95%), tôi đã chọn sử dụng -1/100 cho nó. Nếu đây là một số dữ liệu khác, chẳng hạn như các quan sát về một hệ thống xã hội hoặc chính trị, tôi sẽ không thực hiện các thay đổi như vậy mà chỉ sử dụng các ước tính OLS như hiện trạng.b2
Dù sao, một sự phù hợp được cải thiện được đưa ra bởi
f=a+a2+b∗c−b2/100+30.5+error
0
ab2
BTW, sử dụng hồi quy mạnh mẽ Tôi có thể phù hợp với mô hình
f=1.0103a2+0.99493b∗c−0.007b2+46.78+error
với SD dư là 27,4 và tất cả các phần dư trong khoảng từ -51 đến +47: về cơ bản là tốt như mức phù hợp trước đó nhưng với một biến ít hơn. Theo nghĩa đó thì khó hiểu hơn, nhưng ít khó hiểu hơn theo nghĩa là tôi đã không làm tròn các hệ số thành các giá trị "đẹp". Tuy nhiên, đây là hình thức tôi thường ưu tiên trong phân tích hồi quy mà không có bất kỳ lý thuyết nghiêm ngặt nào về các loại giá trị mà các hệ số nên có và các biến nào nên được đưa vào.
R2
FF
là "năng suất đốt cháy" vàAA
là lượng nhiên liệu, vàBB
là lượng oxy, bạn sẽ tìm kiếm một thuật ngữ tương tác củaAA
vàBB