Các mô hình trạng thái ẩn so với các mô hình không trạng thái cho hồi quy chuỗi thời gian


8

Đây là một câu hỏi khá chung chung: giả sử tôi muốn xây dựng một mô hình để dự đoán quan sát tiếp theo dựa trên các quan sát trước đó ( có thể là một tham số để tối ưu hóa thực nghiệm). Vì vậy, về cơ bản chúng ta có một cửa sổ trượt của các tính năng đầu vào để dự đoán các quan sát tiếp theo.NNN

Tôi có thể sử dụng cách tiếp cận Mô hình Markov ẩn, tức là Baum-Welch để ước tính mô hình, sau đó Viterbi để dự đoán trạng thái hiện tại dựa trên các quan sát cuối cùng , sau đó dự đoán trạng thái tiếp theo có khả năng nhất dựa trên trạng thái hiện tại, sau đó dự đoán trạng thái tiếp theo quan sát bằng cách sử dụng trạng thái tiếp theo có khả năng nhất và các tham số HMM (hoặc các biến thể, chẳng hạn như tìm phân phối dự đoán của quan sát tiếp theo).N

Hoặc tôi có thể sử dụng một cách tiếp cận đơn giản hơn nhiều, sử dụng mô hình không trạng thái (có thể lấy đầu vào của các quan sát trước đó ), ví dụ SVM, hồi quy tuyến tính, spline, cây hồi quy, hàng xóm gần nhất, v.v. Các mô hình như vậy dựa trên việc giảm thiểu một số lỗi dự đoán trên tập huấn luyện và do đó, về mặt khái niệm, đơn giản hơn nhiều so với mô hình dựa trên trạng thái ẩn.N

Ai đó có thể chia sẻ kinh nghiệm của cô ấy / anh ấy trong việc đối phó với sự lựa chọn người mẫu như vậy không? Điều gì sẽ nói có lợi cho HMM và điều gì có lợi cho phương pháp hồi quy? Theo trực giác người ta nên lấy mô hình đơn giản hơn có thể để tránh phù hợp quá mức; điều này nói lên sự ủng hộ của cách tiếp cận không trạng thái ... Chúng ta cũng phải xem xét rằng cả hai cách tiếp cận đều có cùng một dữ liệu đầu vào để đào tạo (tôi nghĩ điều này ngụ ý rằng nếu chúng ta không kết hợp kiến ​​thức miền bổ sung trong mô hình hóa mô hình trạng thái ẩn, ví dụ sửa các trạng thái nhất định và xác suất chuyển tiếp, không có lý do tại sao một mô hình trạng thái ẩn sẽ hoạt động tốt hơn). Cuối cùng, người ta có thể chơi với cả hai cách tiếp cận và xem những gì hoạt động tốt hơn trên một bộ xác nhận, nhưng một số phương pháp phỏng đoán dựa trên kinh nghiệm thực tế cũng có thể hữu ích ...

Lưu ý: đối với tôi, điều quan trọng là chỉ dự đoán một số sự kiện nhất định; Tôi thích một mô hình dự đoán tốt một vài sự kiện "thú vị / hiếm" , hơn là một mô hình dự đoán các sự kiện "trung bình / thường xuyên" nhưng những sự kiện thú vị không tốt lắm. Có lẽ điều này có một hàm ý cho sự lựa chọn người mẫu. Cảm ơn.


Bạn có thể làm rõ lý do tại sao bạn tin rằng mô hình hồi quy nhất thiết là không trạng thái ? Các mô hình hồi quy tuyến tính động (trong đó các giá trị trước đó của dự báo được đưa vào phía bên phải của phương trình mô hình) dường như rất nhiều điều kiện trạng thái . Nhưng có lẽ tôi đang thiếu một cái gì đó.
Alexis

cảm ơn đã đọc câu hỏi Tôi có thể nói đó là một câu hỏi về ngữ nghĩa, tôi cũng đưa ra một ví dụ về mô hình hồi quy bao gồm các giá trị quan sát quá khứ ở phía bên phải của mô hình, một mô hình như vậy tất nhiên là động. Tuy nhiên, tôi đã đề cập nhiều hơn đến khái niệm biến ẩn / tiềm ẩn mà thông thường các kỹ thuật EM được sử dụng để tìm mô hình so với mô hình mà chúng ta không có các trạng thái ẩn như vậy (nghĩa là các trạng thái có thể quan sát được, chúng là các quan sát). Từ một quan điểm thực tế và thực tế, có thể nói những gì làm việc tốt hơn và khi nào?
Mannaggia

Tôi đã bỏ lỡ thực tế là bạn coi các giá trị trong quá khứ của dự đoán là đầu vào. Các mô hình đó tương đương với một mô hình trạng thái ẩn (về nguyên tắc chúng sẽ chỉ bao gồm nhiều hơn N quan sát, thay thế phương trình cho các dự đoán trong quá khứ)? câu hỏi là nhiều hơn nếu chúng ta quan sát trạng thái và mô hình hóa nó hoặc nếu chúng ta suy ra trạng thái đưa ra một giả định của mô hình. Tôi quan tâm nhiều hơn đến khía cạnh thực tế, tuy nhiên, không phải là toán học. Tức là bạn có thể cho biết trong điều kiện nào thì cách này hay cách tiếp cận khác hoạt động tốt hơn không (tôi nghĩ không có định lý nào có thể đưa ra câu trả lời cho câu hỏi này)
Mannaggia

1
Có lẽ câu hỏi trước đó là một nửa câu hỏi được trình bày ở đây.
Meadowlark Bradsher

Câu trả lời:


1

Tóm lại, tôi nghĩ rằng họ đang làm việc trong mô hình học tập khác nhau.

Mô hình không gian trạng thái (mô hình trạng thái ẩn) và mô hình không trạng thái khác mà bạn đề cập sẽ khám phá mối quan hệ cơ bản của chuỗi thời gian của bạn trong mô hình học tập khác nhau: (1) ước tính khả năng tối đa, (2) suy luận của Bayes, (3) theo kinh nghiệm giảm thiểu rủi ro.

Trong mô hình không gian nhà nước,

Đặt làm trạng thái ẩn, làm vật quan sát, (giả sử không có kiểm soát)y t t > 0xtytt>0

Bạn giả sử mối quan hệ sau đây cho mô hình:

P(x0) làm ưu tiên

t 1P(xt|xt1) cho như cách trạng thái của bạn thay đổi (trong HMM, đây là ma trận chuyển tiếp)t1

t 1 x tP(yt|xt) cho như cách bạn quan sát (trong HMM, đó có thể là các bản phân phối bình thường có điều kiện trên )t1xt

và chỉ phụ thuộc vào .x tytxt

Khi bạn sử dụng Baum-Welch để ước tính các tham số, trên thực tế bạn đang tìm kiếm ước tính khả năng tối đa của HMM. Nếu bạn sử dụng bộ lọc Kalman, bạn đang giải quyết một trường hợp đặc biệt về vấn đề bộ lọc Bayes (thực tế là một ứng dụng của định lý Bayes ở bước cập nhật):

Bước dự đoán:

P(xt|y1:t1)=P(xt|xt1)P(xt1|y1:t1)dxt1

Bước cập nhật:

P(xt|y1:t)=P(yt|xt)P(xt|y1:t1)P(yt|xt)P(xt|y1:t1)dxt

Trong bộ lọc Kalman, vì chúng tôi giả sử thống kê nhiễu là Gaussian và mối quan hệ của và là tuyến tính. Do đó, bạn có thể viết và chỉ đơn giản là (mean + variance là đủ để phân phối bình thường) và thuật toán hoạt động như các công thức ma trận .P ( y t |P(xt|xt1)P(yt|xt)P(xt|y1:t1)P(xt|y1:t)xt

Mặt khác, đối với mô hình không trạng thái khác mà bạn đã đề cập, như SVM, splines, cây hồi quy, hàng xóm gần nhất. Họ đang cố gắng khám phá mối quan hệ cơ bản của bằng cách giảm thiểu rủi ro theo kinh nghiệm.({y0,y1,...,yt1},yt)

Để ước tính khả năng tối đa, trước tiên bạn cần tham số phân phối xác suất cơ bản (như HMM, bạn có ma trận chuyển tiếp, có thể quan sát được là cho một số )j(μj,σj)j

Để áp dụng định lý Bayes, trước tiên bạn cần phải "sửa" một tiên nghiệm theo nghĩa . Nếu , thì mọi suy luận đều dẫn đến vì .PP(A)P ( A ) = 0 0 P ( A | B ) = P ( B | A ) P ( A )P(A)0P(A)=00P(A|B)=P(B|A)P(A)P(B)

Để giảm thiểu rủi ro theo kinh nghiệm, tính nhất quán phổ quát được đảm bảo cho bất kỳ phân phối xác suất cơ bản nào nếu kích thước VC của quy tắc học tập không tăng quá nhanh vì số lượng dữ liệu có sẵnn

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.