Chuyển vấn đề máy học sang khung hồi quy


12

Giả sử tôi có một bảng các biến giải thích Xit , với i=1...N , t=1...T , cũng như một vector của các biến phụ thuộc kết quả nhị phân YiT . Vì vậy, Y chỉ được quan sát tại thời điểm cuối cùng T và không phải ở bất kỳ thời điểm nào trước đó. Trường hợp tổng quát hoàn toàn là có nhiều Xijt cho j=1...K cho mỗi đơn vị i tại mỗi thời điểm t, nhưng hãy tập trung vào trường hợp K=1 cho ngắn gọn.

Các ứng dụng của các cặp "không cân bằng" (X,Y) với các biến giải thích tương quan theo thời gian là ví dụ (giá cổ phiếu hàng ngày, cổ tức hàng quý), (báo cáo thời tiết hàng ngày, cơn bão hàng năm) hoặc (tính năng vị trí cờ vua sau mỗi lần di chuyển, kết quả thắng / thua tại kết thúc trò chơi).

Tôi đang quan tâm trong (có thể là phi tuyến tính) hồi quy hệ số βt để thực hiện dự đoán của Yit , biết rằng trong dữ liệu huấn luyện, được đưa ra quan sát đầu tiên của Xit cho t<T , nó dẫn đến kết quả cuối cùng YiT

Y^it=f(k=1tXikβk),t=1...T

Đến từ nền tảng kinh tế lượng, tôi chưa thấy mô hình hồi quy được áp dụng cho dữ liệu đó. OTOH, tôi đã thấy các kỹ thuật máy học sau đây được áp dụng cho dữ liệu đó:

  1. làm học có giám sát trên toàn bộ tập dữ liệu, ví dụ như giảm thiểu

i,t12(Yitf(Xitβt))2

bằng cách đơn giản là ngoại suy / đưa quan sát đến tất cả các điểm trước đó theo thời gianY

YitYiT,t=1...T1

Điều này cảm thấy "sai" vì nó sẽ không tính đến mối tương quan thời gian giữa các thời điểm khác nhau.

  1. làm tăng cường học tập như thời gian-khác biệt với học tham số và chiết khấu tham số λ , và đệ quy giải quyết cho β t qua lan truyền ngược bắt đầu từ t = Tαλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

với gradient của f ( ) đối với với β .βY^f()β

Điều này có vẻ hơn "đúng" vì phải mất cấu trúc tạm thời vào tài khoản, nhưng các thông số λ là loại "ad hoc".αλ

Câu hỏi : có tài liệu về cách ánh xạ các kỹ thuật học tập được giám sát / củng cố ở trên vào khung hồi quy như được sử dụng trong thống kê / kinh tế lượng cổ điển không? Đặc biệt, tôi muốn để có thể ước lượng các tham số trong "một đi" (tức là cho tất cả các t = 1 ... T đồng thời) bằng cách thực hiện (phi tuyến) bình phương nhỏ nhất hoặc maximum-likelihood trên các mô hình như vậy nhưβtt=1...T

YiT=f(t=1TXitβt)+ϵi

Tôi cũng muốn được quan tâm để tìm hiểu liệu học tập khác biệt meta-thông số thời gian λ có thể được phục hồi từ một công thức tối đa-likelihood.αλ


Bạn có thể làm rõ công thức trong đoạn thứ ba? Bạn viết rằng bạn muốn dự đoán từ X i t , t < T , nhưng công thức sau đây cho thấy bạn muốn dự đoán Y i t . YiTXitt<TYit
NRH

@NRH trên thực tế, tôi chỉ quan sát , nhưng những gì tôi đã nhìn thấy trong các tài liệu về học có giám sát là họ quy cho các quan sát được Y i t là tương đương với Y i T và sau đó làm phù hợp để thực sự giải thích giả này Y i t từ X i t (điều này được thực hiện trong các ứng dụng chơi trò chơi, trong đó chức năng đánh giá cho từng vị trí được trang bị trên kết quả cuối cùng của trò chơi). Xin lỗi nếu điều này không rõ ràng từ công thức ban đầu của tôi. Trong mọi trường hợp, Y i tYiTYitYiTYitXitY^itsẽ là "kết quả" được dự đoán (trong các ứng dụng trò chơi) được đưa ra các sự kiện quan sát . Xit
TemplateRex

Tôi hiểu thiết lập và những gì bạn quan sát, nhưng công thức của bạn trong câu hỏi không rõ ràng. Bạn có muốn đào tạo một mô hình để dự đoán khi bạn viết bằng từ ngữ hay bạn muốn đào tạo một mô hình để dự đoán Y i t cho tất cả t như các công thức gợi ý? Có lẽ nó chỉ là một lỗi đánh máy. Khi bạn viết " Dự đoán của Y i Tạn ", bạn có nghĩa là " Dự đoán của Y i t ..."? YiTYittYiTYit
NRH

Không rõ tại sao bạn muốn làm điều này. Nếu bạn có thể giải thích ứng dụng thực tế thực tế, bạn có thể nhận được câu trả lời rõ ràng hơn. Nói chung, dự đoán tốt nhất cho mỗi khoảng thời gian sẽ chỉ là thực hiện hồi quy trên dữ liệu có sẵn X 1 , Vượt , X t riêng cho từng t. Không rõ ràng rằng một cách tiếp cận đồng thời có bất kỳ lợi ích. Tôi nghĩ bạn phải chỉ định mô hình thống kê cho tập dữ liệu của mình và sau đó có thể các lợi ích rõ ràng hơn. YTX1,,Xt
seanv507

@NRH, vâng, tôi muốn dự đoán từ X i t biết rằng nó dẫn đến kết quả Y i T trong dữ liệu đào tạo, để thực hiện các hành động tối ưu cho dữ liệu thử nghiệm mà tôi cũng quan sát X i t nhưng chưa quan sát kết quả. Sẽ cập nhật công thức của tôi. YitXitYiTXit
TemplateRex

Câu trả lời:


1

Mô tả vấn đề không hoàn toàn rõ ràng đối với tôi vì vậy tôi cố gắng đoán một số giả định. Nếu điều này không trả lời câu hỏi của bạn, ít nhất nó có thể giúp làm rõ các vấn đề hơn nữa.

Điều đầu tiên không rõ ràng với tôi là dữ liệu bạn muốn dựa trên dự đoán của mình. Nếu bạn muốn dự đoán dựa trên dữ liệu quan sát được cho đến khi t < T sau đó một cách tiếp cận đệ quy như trong phương pháp của bạn 2. không có ý nghĩa vì đây sẽ sử dụng dữ liệu trong tương lai, tức là X τ với τ > t .YTt<TXττ>t

Thứ hai, bạn không nói rõ các thuộc tính của dự đoán của bạn sẽ là gì. Nói chung, cung cấp thông tin X 1 , ... , X t lúc t < T các điều kiện mong đợi Y t = E [ Y T | X 1 , ... , X t ] là "dự báo tốt nhất" của Y T theo nghĩa L2. Trong trường hợp bạn thực sự muốn dự đoán điều kiện kỳ ​​vọng bình phương nhỏ nhất là phương pháp được lựa chọn để ước tính thực tế.YtX1,,Xtt<TYt=E[YTX1,,Xt]YT

Hơn nữa, tôi không hiểu nhận xét của bạn về các mối tương quan không được phản ánh bởi hồi quy dựa trên . Này kết hợp tất cả những gì bạn biết cho đến khi t bao gồm các mối tương quan giữa các quan sát của bạn.X1,,Xtt

Vì vậy, tóm tắt và diễn đạt điều này như một câu trả lời: Nếu bạn muốn đưa ra một dự đoán tối ưu theo nghĩa L2, chỉ dựa trên dữ liệu được quan sát cho đến khi bạn có thể sử dụng hồi quy bình phương tối thiểu.t<T


trong dữ liệu huấn luyện, tôi muốn sử dụng thực tế là một trao quan sát sẽ dẫn thống kê cho kết quả Y i T để dự đoán Y i t cho dữ liệu thử nghiệm mà tôi không quan sát Y i T cho đến khi sau đó. Nếu ví dụ bạn biết rằng sau 3 ngày gió có thể sẽ có mưa vào ngày 7, bạn muốn sử dụng thông tin đó để bảo mọi người mang ô sau cuối tuần sau một vài ngày gió trước đó. XitYiTY^itYiT
TemplateRex

0

Ưu điểm của sự khác biệt tạm thời là chúng cho phép bạn học hỏi từ các tập không hoàn chỉnh. Vì vậy, các chuỗi mà bạn chưa đến Y cuối cùng vẫn có thể được sử dụng để phù hợp với mô hình; ước tính tiếp theo được sử dụng thay thế. Hiệu quả tương tự như việc ẩn dữ liệu ẩn; ngầm định bạn đang đưa ra phần còn lại của chuỗi theo mô hình hiện tại của bạn.
Các mô hình khác biệt tạm thời thường được đào tạo bởi gốc dốc ngẫu nhiên . kiểm soát tốc độ học tập. Quá cao và phương pháp sẽ phân kỳ. Quá thấp và hội tụ đến mức tối ưu cục bộ sẽ rất chậm. Nhưng sự hội tụ phải luôn luôn là cùng một mô hình. Ở đây, γα
γkiểm soát nỗ lực tương đối được đưa ra cho các dự đoán tùy thuộc vào khoảng cách từ cuối chuỗi. Vì các chuỗi này có độ dài hữu hạn, bạn có thể đặt giá trị này thành , để đặt cùng trọng số cho tất cả các ước tính. γ=1


Điều này không thực sự trả lời câu hỏi: ví dụ như thế nào có thể γ thông số được thiết lập một cách tối ưu trong một khuôn khổ maximum-likelihood? αγ
TemplateRex

αγ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.