Một mô hình của P (Y | X) có thể được đào tạo thông qua việc giảm độ dốc ngẫu nhiên từ các mẫu không iid của P (X) và mẫu iid của P (Y | X) không?


10

Khi đào tạo một mô hình được tham số hóa (ví dụ để tối đa hóa khả năng) thông qua việc giảm độ dốc ngẫu nhiên trên một số tập dữ liệu, người ta thường cho rằng các mẫu đào tạo được rút ra từ phân phối dữ liệu đào tạo. Vì vậy, nếu mục tiêu là mô hình phân phối chung , thì mỗi mẫu đào tạo nên được rút ra từ phân phối đó.P(X,Y)(xi,yi)

Nếu mục tiêu thay vào đó là mô hình phân phối có điều kiện , thì yêu cầu iid thay đổi như thế nào, nếu có?P(Y|X)

  1. Chúng ta vẫn phải rút từng mẫu iid từ phân phối chung chứ?(xi,yi)
  2. Chúng ta có nên vẽ iid từ , sau đó vẽ iid từ không?xiP(X)yiP(Y|X)
  3. Chúng ta có thể vẽ không iid từ (ví dụ: tương quan theo thời gian), sau đó vẽ iid từ không?xiP(X)yiP(Y|X)

Bạn có thể nhận xét về tính hợp lệ của ba cách tiếp cận này đối với việc giảm độ dốc ngẫu nhiên không? (Hoặc giúp tôi viết lại câu hỏi nếu cần.)

Tôi muốn làm số 3 nếu có thể. Ứng dụng của tôi là học tăng cường, trong đó tôi đang sử dụng mô hình có điều kiện tham số hóa làm chính sách kiểm soát. Chuỗi các trạng thái có mối tương quan cao, nhưng các hành động được lấy mẫu iid từ một chính sách ngẫu nhiên có điều kiện dựa trên trạng thái. Các mẫu kết quả (hoặc một tập hợp con của chúng) được sử dụng để huấn luyện chính sách. (Nói cách khác, hãy tưởng tượng việc chạy một chính sách kiểm soát trong một thời gian dài trong một số môi trường, thu thập một tập hợp dữ liệu của các mẫu trạng thái / hành động. Sau đó, mặc dù các trạng thái được tương quan theo thời gian, các hành động được tạo độc lập, dựa trên trạng thái.) Điều này hơi giống với tình huống trong bài báo này .xiyi(xi,yi)

Tôi đã tìm thấy một bài báo, Ryabko, 2006, " Nhận dạng mẫu cho dữ liệu độc lập có điều kiện ", lúc đầu có vẻ phù hợp; tuy nhiên, tình huống được đảo ngược với những gì tôi cần, trong đó (nhãn / danh mục / hành động) có thể được rút ra không phải là iid từ và (đối tượng / mẫu / trạng thái) được rút ra từ .yiP(Y)xiP(X|Y)

Cập nhật: Hai bài báo ( ở đâyở đây ) được đề cập trong bài báo Ryabko dường như có liên quan ở đây. Họ cho rằng đến từ một quá trình tùy ý (ví dụ không phải iid, có thể là không cố định). Chúng cho thấy các công cụ ước tính lân cận và hạt nhân gần nhất phù hợp trong trường hợp này. Nhưng tôi quan tâm nhiều hơn đến việc ước tính dựa trên độ dốc dốc ngẫu nhiên có hợp lệ trong tình huống này hay không.xi


1
Có thể tôi đang thiếu một cái gì đó và tôi chưa đọc bài báo này, nhưng: bạn đang vẽ non-iid từ và sau đó lấy mẫu iid từ . Ryabko (2006) đang vẽ non-iid từ và sau đó lấy mẫu iid từ . Chúng có vẻ giống nhau để đổi tên. Có điều gì đó khác biệt cơ bản về các đối tượng và làm cho điều này không giống nhau không? xiP(X)yiP(YX)yiP(Y)xiP(XY)xy
Dougal

@Dougal: Sự khác biệt là các mô hình phân phối có điều kiện, như các trường ngẫu nhiên có điều kiện, đối xử với và ("đầu vào" và "đầu ra") khác nhau ... chúng chỉ mô hình một hướng ( chứ không phải ). XYP(Y|X)P(X|Y)
Tyler Streeter

2
Tôi sẽ xem xét sự tương tự sau đây trong trường hợp này. Giả sử và là hai chuỗi thời gian tương quan (tương quan theo thời gian). Chúng tôi muốn tìm ra một hàm , tương đương với việc tìm . Nếu , là phần dư, là IID (do đó đứng yên và không tương quan) thì thủ tục ước tính hội tụ không có sai lệch. Về cơ bản xử lý chuỗi thời gian theo thứ tự thời gian hoặc bất kỳ thứ tự ngẫu nhiên nào không nên quan trọng trong thủ tục MLE miễn là khả năng có điều kiện được chỉ định chính xác và phần dư là IID. YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc 17/11/13

Câu trả lời:


1

Tôi nghĩ bạn có thể làm 2 hoặc 3. Tuy nhiên, vấn đề với 3 là trong việc cho phép phân phối tùy ý cho X, bạn bao gồm các phân phối có tất cả hoặc gần như toàn bộ xác suất tập trung là một khoảng nhỏ trong không gian x. Điều này sẽ ảnh hưởng đến ước tính tổng thể của P (Y | X) vì bạn sẽ có ít hoặc không có dữ liệu cho các giá trị nhất định của X.


Vì vậy, bạn đang nói rằng với cách tiếp cận # 3, tôi sẽ nhận được một kết quả không thiên vị với phương sai có khả năng cao?
Tyler Streeter

Nếu không có dữ liệu tại hoặc gần một điểm x thì bạn thậm chí không thể ước tính P (Y | X = x ) và nếu chỉ có một vài điểm thì phương sai của ước tính sẽ lớn. 11
Michael R. Chernick

Vâng, điều đó có nghĩa là phương sai có thể lớn. Tôi đoán mối quan tâm chính của tôi là liệu P (Y | X) ước tính sẽ bị sai lệch.
Tyler Streeter

Chúng tôi đã không thảo luận về một ước tính điểm. Nếu bạn có ước tính không thiên vị cho P (X), P (Y) và P (X | Y) và cắm chúng vào công thức P (Y | X) = P (X | Y) P (Y) / P (X) bạn sẽ có được một ước tính thiên vị.
Michael R. Chernick

Tôi nên nhấn mạnh rằng tôi đang nói về việc ước tính P (Y | X) thông qua việc giảm độ dốc ngẫu nhiên, trong trường hợp đó, thứ tự của các mẫu đào tạo có thể ảnh hưởng đến tốc độ hoặc liệu nó có hội tụ đúng mô hình hay không. Tôi không chỉ sử dụng trung bình mẫu, trong đó thứ tự của các mẫu không quan trọng.
Tyler Streeter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.