Khi đào tạo một mô hình được tham số hóa (ví dụ để tối đa hóa khả năng) thông qua việc giảm độ dốc ngẫu nhiên trên một số tập dữ liệu, người ta thường cho rằng các mẫu đào tạo được rút ra từ phân phối dữ liệu đào tạo. Vì vậy, nếu mục tiêu là mô hình phân phối chung , thì mỗi mẫu đào tạo nên được rút ra từ phân phối đó.
Nếu mục tiêu thay vào đó là mô hình phân phối có điều kiện , thì yêu cầu iid thay đổi như thế nào, nếu có?
- Chúng ta vẫn phải rút từng mẫu iid từ phân phối chung chứ?
- Chúng ta có nên vẽ iid từ , sau đó vẽ iid từ không?
- Chúng ta có thể vẽ không iid từ (ví dụ: tương quan theo thời gian), sau đó vẽ iid từ không?
Bạn có thể nhận xét về tính hợp lệ của ba cách tiếp cận này đối với việc giảm độ dốc ngẫu nhiên không? (Hoặc giúp tôi viết lại câu hỏi nếu cần.)
Tôi muốn làm số 3 nếu có thể. Ứng dụng của tôi là học tăng cường, trong đó tôi đang sử dụng mô hình có điều kiện tham số hóa làm chính sách kiểm soát. Chuỗi các trạng thái có mối tương quan cao, nhưng các hành động được lấy mẫu iid từ một chính sách ngẫu nhiên có điều kiện dựa trên trạng thái. Các mẫu kết quả (hoặc một tập hợp con của chúng) được sử dụng để huấn luyện chính sách. (Nói cách khác, hãy tưởng tượng việc chạy một chính sách kiểm soát trong một thời gian dài trong một số môi trường, thu thập một tập hợp dữ liệu của các mẫu trạng thái / hành động. Sau đó, mặc dù các trạng thái được tương quan theo thời gian, các hành động được tạo độc lập, dựa trên trạng thái.) Điều này hơi giống với tình huống trong bài báo này .
Tôi đã tìm thấy một bài báo, Ryabko, 2006, " Nhận dạng mẫu cho dữ liệu độc lập có điều kiện ", lúc đầu có vẻ phù hợp; tuy nhiên, tình huống được đảo ngược với những gì tôi cần, trong đó (nhãn / danh mục / hành động) có thể được rút ra không phải là iid từ và (đối tượng / mẫu / trạng thái) được rút ra từ .
Cập nhật: Hai bài báo ( ở đây và ở đây ) được đề cập trong bài báo Ryabko dường như có liên quan ở đây. Họ cho rằng đến từ một quá trình tùy ý (ví dụ không phải iid, có thể là không cố định). Chúng cho thấy các công cụ ước tính lân cận và hạt nhân gần nhất phù hợp trong trường hợp này. Nhưng tôi quan tâm nhiều hơn đến việc ước tính dựa trên độ dốc dốc ngẫu nhiên có hợp lệ trong tình huống này hay không.