Dự đoán chuỗi giả ngẫu nhiên


9

Tuyên bố miễn trừ trách nhiệm: Tôi là một nhà sinh vật học, rất xin lỗi vì (có lẽ) câu hỏi cơ bản được đặt ra theo cách thô thiển như vậy.

Tôi không chắc là tôi nên hỏi câu hỏi này ở đây hay trên DS / SC, nhưng CS là lớn nhất trong ba, vì vậy hãy đi. (Sau khi tôi đăng, tôi nhận ra rằng Xác thực chéo có thể là nơi tốt hơn cho nó, nhưng than ôi).

Hãy tưởng tượng có một tác nhân, người đưa ra quyết định nhị phân. Và một môi trường, đối với mỗi quyết định của đại lý ("thử nghiệm"), có thể thưởng cho đại lý hoặc không. Các tiêu chí để thưởng cho các quyết định của đại lý là không đơn giản. Trong các tiêu chí chung là ngẫu nhiên, nhưng chúng có giới hạn, ví dụ, môi trường không bao giờ thưởng quá 3 lần cho cùng một quyết định và không bao giờ thay thế quyết định khen thưởng quá 4 lần liên tiếp.

Trình tự các tiêu chí có thể trông giống như thế này sau đó

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

nhưng không bao giờ

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

bởi vì tiêu chí khen thưởng không thể lặp lại quá 3 lần.

Trong những điều kiện này, khá dễ dàng để xây dựng chiến lược mà người quan sát lý tưởng nên thực hiện để tối đa hóa phần thưởng. Một cái gì đó dọc theo dòng

  1. quyết định ngẫu nhiên
  2. nếu bạn phát hiện ra rằng tiêu chí được lặp lại 3 lần - quyết định ngược lại so với tiêu chí cuối cùng
  3. nếu bạn phát hiện các tiêu chí đó xen kẽ 4 lần, hãy quyết định theo tiêu chí cuối cùng

Bây giờ, phần khó khăn. Bây giờ tiêu chí cho mỗi thử nghiệm không chỉ phụ thuộc vào lịch sử của các tiêu chí trước đó, mà còn phụ thuộc vào lịch sử của các quyết định của đại lý, ví dụ: nếu đại lý thay thế hơn 8 trong số 10 thử nghiệm gần đây, hãy thưởng cho quyết định tương tự như đại lý đưa ra lần trước (như nếu không khuyến khích tác nhân xen kẽ) và nếu tác nhân lặp lại quyết định tương tự đối với hơn 8 trong số 10 thử nghiệm gần đây, tức là anh ta bị thiên vị, hãy đưa ra tiêu chí ngược lại với sự thiên vị. Ưu tiên của lịch sử các tiêu chí so với lịch sử của các quyết định được xác định trước, do đó không bao giờ có sự mơ hồ.

Chuỗi các quyết định (d) và tiêu chí (c) bây giờ có thể trông như thế này

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions  

Tôi không thấy bất kỳ cách đơn giản nào để phát minh chiến lược tối đa hóa cho các đại lý. Nhưng tôi chắc chắn phải có một, và một số loại thuật toán học máy thông minh sẽ có thể xác định được nó.

Câu hỏi của tôi không phải là quá nhiều về cách giải quyết vấn đề này (mặc dù tôi sẽ rất vui nếu bạn đề xuất một giải pháp), nhưng nhiều hơn những loại vấn đề này được gọi như thế nào? Tôi có thể đọc về nó ở đâu? Có một giải pháp trừu tượng hoặc chỉ mô phỏng có thể giúp đỡ? Nói chung, làm thế nào tôi, như một nhà sinh học, có thể tiếp cận loại vấn đề này?


2
xem ví dụ phân tích chuỗi thời gian tự phát . nó sẽ giúp ích nếu bạn chi tiết hơn về dữ liệu đầu vào. có phải từ sinh học? có kỹ thuật std cho các vấn đề std. ANN tái phát (lưới thần kinh nhân tạo) cũng xử lý việc này. cũng có thể ghé qua Trò chuyện Khoa học Máy tính
vzn

2
Các mô hình Markov ẩn có thể là một công cụ hữu ích.
Raphael

1
Bạn có thể muốn đọc lên Người theo dõi và các biến thể khác - onlineprediction.net/?n=Main.FollowTheLeader
MotiN

2
Tôi nghĩ những gì bạn đang đề cập gần với những gì mọi người trong ML gọi là Học tăng cường .
Kaveh

1
ps: Bạn có thể muốn thử đăng bài trên Xác thực chéo nếu bạn không nhận được câu trả lời ở đây sau một thời gian.
Kaveh

Câu trả lời:


1

Bạn có thể tiếp cận vấn đề này bằng cách sử dụng Học tăng cường.

Một cuốn sách kinh điển cho điều này là Sutton và Barto:

Bản nháp của phiên bản thứ hai có sẵn miễn phí: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

Để thực hiện vấn đề của bạn Markovian, hãy xác định mỗi trạng thái là một vectơ của mười quyết định cuối cùng. Hành động của bạn sẽ là 1 hoặc 0.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.