Tôi đã đọc các mô hình tuyến tính trong sách giáo khoa của Faraway với R (phiên bản 1) vào cuối tuần trước. Faraway có một chương gọi là "Chiến lược thống kê và sự không chắc chắn của mô hình". Ông mô tả (trang 158) rằng ông đã tạo ra một số dữ liệu bằng cách sử dụng một mô hình rất phức tạp, sau đó ông yêu cầu sinh viên của mình mô hình hóa dữ liệu và so sánh kết quả dự đoán của sinh viên với kết quả đọc. Thật không may, hầu hết các sinh viên đã trang bị quá mức dữ liệu kiểm tra và đưa ra các giá trị dự đoán hoàn toàn không đúng. Để giải thích hiện tượng này, ông đã viết một cái gì đó rất ấn tượng với tôi:
"Lý do các mô hình rất khác nhau là do các sinh viên áp dụng các phương pháp khác nhau theo các thứ tự khác nhau. Một số đã lựa chọn biến trước khi chuyển đổi và ngược lại. Một số lặp lại một phương pháp sau khi mô hình được thay đổi và các phương pháp khác thì không. rằng một số các sinh viên được sử dụng và không thể tìm thấy bất cứ điều gì rõ ràng là sai với những gì họ đã làm. một sinh viên đã phạm sai lầm trong tính toán của mình dự đoán giá trị, nhưng chẳng có gì rõ ràng là sai trong thời gian còn lại. việc thực hiện theo sự phân công này không hiển thị bất kỳ mối quan hệ nào với điều đó trong các kỳ thi. "
Tôi được giáo dục rằng độ chính xác dự đoán mô hình là 'tiêu chí vàng' để chúng tôi chọn hiệu suất mô hình tốt nhất. Nếu tôi không nhầm thì đây cũng là phương pháp phổ biến được sử dụng trong các cuộc thi Kaggle. Nhưng ở đây Faraway đã quan sát một cái gì đó có bản chất khác, rằng hiệu suất dự đoán mô hình có thể không có gì để làmvới khả năng của các thống kê liên quan. Nói cách khác, việc chúng ta có thể xây dựng mô hình tốt nhất về khả năng dự đoán hay không không thực sự được quyết định bởi mức độ chúng ta có kinh nghiệm. Thay vào đó, nó được xác định bởi một "sự không chắc chắn mô hình" rất lớn (may mắn mù quáng?). Câu hỏi của tôi là: điều này có đúng trong phân tích dữ liệu thực tế không? Hay tôi đã nhầm lẫn với một cái gì đó rất cơ bản? Bởi vì nếu điều này là đúng, thì hàm ý của phân tích dữ liệu thực là rất lớn: không biết "mô hình thực" đằng sau dữ liệu, không có sự khác biệt cơ bản giữa công việc được thực hiện bởi các nhà thống kê có kinh nghiệm / thiếu kinh nghiệm: cả hai chỉ là những phỏng đoán hoang dã trước mặt các dữ liệu đào tạo có sẵn.