Chính quy có thể hữu ích nếu chúng ta chỉ quan tâm đến mô hình hóa, không phải trong dự báo?


19

Việc chính quy hóa có thể hữu ích nếu chúng ta chỉ quan tâm đến việc ước tính (và diễn giải) các tham số mô hình, không phải trong dự báo hoặc dự đoán?

Tôi thấy việc chính quy hóa / xác thực chéo là cực kỳ hữu ích nếu mục tiêu của bạn là đưa ra dự báo tốt về dữ liệu mới. Nhưng nếu bạn đang làm kinh tế truyền thống và tất cả những gì bạn quan tâm là ước tính thì sao? Xác nhận chéo cũng có thể hữu ích trong bối cảnh đó? Khó khăn về khái niệm mà tôi đấu tranh là chúng ta thực sự có thể tính toán trên dữ liệu thử nghiệm, nhưng chúng ta không bao giờ có thể tính toán bởi vì định nghĩa thực sự không bao giờ được quan sát. (Giả sử như đã đưa ra giả định rằng thậm chí còn có một thực sự , tức là chúng ta biết họ mô hình mà dữ liệu được tạo.)L ( Y , Y ) L ( β , β ) β ββL(Y,Y^)L(β,β^)ββ

Giả sử tổn thất của bạn là L(β,β^)=ββ^ . Bạn phải đối mặt với một sự đánh đổi sai lệch, phải không? Vì vậy, theo lý thuyết, bạn có thể tốt hơn nên thực hiện một số chính quy. Nhưng làm thế nào bạn có thể chọn tham số chính quy của bạn?

Tôi rất vui khi thấy một ví dụ số đơn giản của mô hình hồi quy tuyến tính, với các hệ số β(β1,β2,,βk) , trong đó hàm mất của nhà nghiên cứu là ββ^ hoặc thậm chí chỉ (β1-β^1)2 . Trong thực tế, làm thế nào người ta có thể sử dụng xác nhận chéo để cải thiện tổn thất dự kiến ​​trong các ví dụ đó?


Chỉnh sửa : DJohnson chỉ cho tôi https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , có liên quan đến câu hỏi này. Các tác giả viết rằng

Các kỹ thuật học máy ... cung cấp một cách có kỷ luật để dự đoán Y^ , trong đó (i) sử dụng chính dữ liệu để quyết định cách thực hiện sự đánh đổi sai lệch và (ii) cho phép tìm kiếm trên một tập hợp rất phong phú các biến và các dạng chức năng. Nhưng mọi thứ đều phải trả giá: người ta phải luôn nhớ rằng vì chúng được điều chỉnh cho Y^ nên chúng không (không có nhiều giả định khác) đưa ra những đảm bảo rất hữu ích cho β^ .

Một bài báo khác có liên quan, một lần nữa nhờ vào DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Bài viết này giải quyết câu hỏi tôi đã đấu tranh ở trên:

Một ... thách thức cơ bản trong việc áp dụng các phương pháp học máy như cây hồi quy ngoài vấn đề suy luận nguyên nhân là các phương pháp chính quy hóa dựa trên xác nhận chéo thường dựa vào việc quan sát sự thật mặt đất, đó là kết quả thực tế trong một mẫu xác nhận chéo. Tuy nhiên, nếu mục tiêu của chúng tôi là giảm thiểu sai số bình phương trung bình của các hiệu ứng điều trị, chúng tôi gặp phải vấn đề [11] gọi là vấn đề cơ bản của suy luận nguyên nhân gây ra: hiệu ứng nhân quả không được quan sát thấy đối với bất kỳ đơn vị riêng lẻ nào và vì vậy chúng tôi không trực tiếp có một sự thật nền tảng. Chúng tôi giải quyết vấn đề này bằng cách đề xuất các phương pháp xây dựng các ước tính không thiên vị về sai số bình phương trung bình của hiệu quả nguyên nhân của điều trị.


2
Xác thực chéo là một phương pháp trong bộ công cụ khai thác dữ liệu và máy học. ML đang được sử dụng ngày càng nhiều trong Kinh tế - xem trang web của Susan Athey tại Stanford (cô ấy là một học giả quan tâm đến việc tích hợp các kỹ thuật ML vào kinh tế) hoặc bài báo này Các vấn đề chính sách dự đoán của Kleinberg, et al., Trong một phiên bản vô duyên ở đây: cs. cornell.edu/home/kleinber/aer15-prediction.pdf
Mike Hunter

9
Xin vui lòng, mọi người, định hướng: ML cho nhiều người gợi ý học máy và với nhiều người khác cho thấy khả năng tối đa. (Định nghĩa: bạn đang ở bên máy học của hàng rào nếu ML tự động dịch chính nó cho bạn dưới dạng học máy.)
Nick Cox

3
@Aksakal Kinh nghiệm của tôi là kinh tế lượng truyền thống, vì nó được dạy cho cả sinh viên đại học và sinh viên tốt nghiệp, về cơ bản không chú ý đến việc xác nhận chéo. Nhìn vào Hayashi, một cuốn sách giáo khoa cổ điển. Chắc chắn, có thể xác nhận chéo và đánh đổi sai lệch được đề cập trong một khóa học cụ thể về dự báo, nhưng không phải trong khóa học cốt lõi mà tất cả các sinh viên bắt đầu. Điều đó có đúng với bạn không?
Adrian

2
@Adrian Tôi thấy mọi người đang bỏ phiếu để đóng câu hỏi này là quá rộng. Có thể là như vậy, nhưng như tôi thấy, về cơ bản, bạn đang hỏi: "CV có thể hữu ích nếu chúng ta chỉ quan tâm đến mô hình, không phải trong dự báo?" - nếu tôi hiểu bạn một cách chính xác, câu hỏi của bạn có thể dễ dàng chỉnh sửa và đơn giản hóa, vì vậy nó rõ ràng hơn và chắc chắn không quá rộng (thậm chí thú vị!).
Tim

2
@Adrian nên đây là một câu hỏi rất thú vị! Tôi e rằng bạn đã làm cho nó quá phức tạp và tham chiếu đến kinh tế lượng không quan trọng ở đây (vì nó giống với các lĩnh vực khác sử dụng phương pháp thống kê). Tôi sẽ khuyến khích bạn chỉnh sửa câu hỏi của bạn để đơn giản hóa nó.
Tim

Câu trả lời:


2

Có, khi chúng tôi muốn ước tính phương sai thấp sai lệch. Tôi đặc biệt thích bài viết của gung ở đây Vấn đề nào làm phương pháp thu nhỏ giải quyết? Xin cho phép tôi dán hình của gung ở đây ...

nhập mô tả hình ảnh ở đây Nếu bạn kiểm tra cốt truyện được thực hiện, bạn sẽ rõ lý do tại sao chúng ta cần thường xuyên / thu hẹp. Lúc đầu, tôi cảm thấy kỳ lạ rằng tại sao chúng ta cần ước lượng sai lệch? Nhưng nhìn vào con số đó, tôi nhận ra, có một mô hình phương sai thấp có rất nhiều lợi thế: ví dụ, nó "ổn định" hơn trong sử dụng sản xuất.


Có, nhưng làm thế nào để chúng ta chọn tham số chính quy? Khi mục tiêu là để giảm thiểu lỗi dự đoán, chúng ta có thể sử dụng bộ xác thực. Làm thế nào chúng ta có thể sử dụng một bộ xác nhận nếu chúng ta không bao giờ quan sát các tham số mô hình thực sự?
Adrian

Xem trích dẫn về "vấn đề cơ bản của suy luận nguyên nhân" ở cuối câu hỏi của tôi.
Adrian

1

Xác thực chéo có thể hữu ích nếu chúng ta chỉ quan tâm đến việc mô hình hóa (tức là ước tính các tham số), không phải trong dự báo?

Vâng, nó có thể. Chẳng hạn, một ngày khác tôi đang sử dụng ước tính tầm quan trọng của tham số thông qua Cây quyết định. Mỗi lần tôi xây dựng một cây, tôi kiểm tra lỗi xác thực chéo. Tôi cố gắng giảm lỗi nhiều nhất có thể, sau đó tôi sẽ chuyển sang bước tiếp theo để ước tính tầm quan trọng của các tham số. Có thể là nếu cây đầu tiên mà bạn xây dựng rất xấu và bạn không kiểm tra lỗi, bạn sẽ có câu trả lời ít chính xác hơn (nếu không sai).

Lý do chính tôi tin là do nhiều số lượng biến kiểm soát mà mỗi kỹ thuật có. Ngay cả một thay đổi nhỏ trong một biến điều khiển sẽ cung cấp một kết quả khác.

Làm cách nào để cải thiện mô hình của bạn sau khi bạn kiểm tra lỗi xác thực chéo? Vâng, nó phụ thuộc vào mô hình của bạn. Hy vọng, sau khi thử một vài lần, bạn sẽ có được một số ý tưởng về các biến kiểm soát quan trọng nhất và có thể thao tác chúng để tìm ra một lỗi thấp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.