Việc chính quy hóa có thể hữu ích nếu chúng ta chỉ quan tâm đến việc ước tính (và diễn giải) các tham số mô hình, không phải trong dự báo hoặc dự đoán?
Tôi thấy việc chính quy hóa / xác thực chéo là cực kỳ hữu ích nếu mục tiêu của bạn là đưa ra dự báo tốt về dữ liệu mới. Nhưng nếu bạn đang làm kinh tế truyền thống và tất cả những gì bạn quan tâm là ước tính thì sao? Xác nhận chéo cũng có thể hữu ích trong bối cảnh đó? Khó khăn về khái niệm mà tôi đấu tranh là chúng ta thực sự có thể tính toán trên dữ liệu thử nghiệm, nhưng chúng ta không bao giờ có thể tính toán bởi vì định nghĩa thực sự không bao giờ được quan sát. (Giả sử như đã đưa ra giả định rằng thậm chí còn có một thực sự , tức là chúng ta biết họ mô hình mà dữ liệu được tạo.)L ( Y , Y ) L ( β , β ) β β
Giả sử tổn thất của bạn là . Bạn phải đối mặt với một sự đánh đổi sai lệch, phải không? Vì vậy, theo lý thuyết, bạn có thể tốt hơn nên thực hiện một số chính quy. Nhưng làm thế nào bạn có thể chọn tham số chính quy của bạn?
Tôi rất vui khi thấy một ví dụ số đơn giản của mô hình hồi quy tuyến tính, với các hệ số , trong đó hàm mất của nhà nghiên cứu là hoặc thậm chí chỉ . Trong thực tế, làm thế nào người ta có thể sử dụng xác nhận chéo để cải thiện tổn thất dự kiến trong các ví dụ đó?
Chỉnh sửa : DJohnson chỉ cho tôi https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , có liên quan đến câu hỏi này. Các tác giả viết rằng
Các kỹ thuật học máy ... cung cấp một cách có kỷ luật để dự đoán , trong đó (i) sử dụng chính dữ liệu để quyết định cách thực hiện sự đánh đổi sai lệch và (ii) cho phép tìm kiếm trên một tập hợp rất phong phú các biến và các dạng chức năng. Nhưng mọi thứ đều phải trả giá: người ta phải luôn nhớ rằng vì chúng được điều chỉnh cho nên chúng không (không có nhiều giả định khác) đưa ra những đảm bảo rất hữu ích cho .
Một bài báo khác có liên quan, một lần nữa nhờ vào DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Bài viết này giải quyết câu hỏi tôi đã đấu tranh ở trên:
Một ... thách thức cơ bản trong việc áp dụng các phương pháp học máy như cây hồi quy ngoài vấn đề suy luận nguyên nhân là các phương pháp chính quy hóa dựa trên xác nhận chéo thường dựa vào việc quan sát sự thật mặt đất, đó là kết quả thực tế trong một mẫu xác nhận chéo. Tuy nhiên, nếu mục tiêu của chúng tôi là giảm thiểu sai số bình phương trung bình của các hiệu ứng điều trị, chúng tôi gặp phải vấn đề [11] gọi là vấn đề cơ bản của suy luận nguyên nhân gây ra: hiệu ứng nhân quả không được quan sát thấy đối với bất kỳ đơn vị riêng lẻ nào và vì vậy chúng tôi không trực tiếp có một sự thật nền tảng. Chúng tôi giải quyết vấn đề này bằng cách đề xuất các phương pháp xây dựng các ước tính không thiên vị về sai số bình phương trung bình của hiệu quả nguyên nhân của điều trị.