Tôi bị thu hút bởi khái niệm Mô hình Markrop Entropy tối đa (MEMM) và tôi đang nghĩ đến việc sử dụng nó cho một trình ghi thẻ Part of Speech (POS). Hiện tại, tôi đang sử dụng trình phân loại Maximum Entropy (ME) thông thường để gắn thẻ cho từng từ riêng lẻ. Điều này sử dụng một số tính năng, bao gồm hai thẻ trước.
MEMM sử dụng thuật toán Viterbi để tìm đường dẫn tối ưu thông qua Chuỗi Markov (nghĩa là để tìm một bộ thẻ tối ưu hoàn chỉnh cho câu thay vì tối ưu riêng cho từng từ). Đọc về nó, điều này dường như có một sự thanh lịch và đơn giản tuyệt vời. Tuy nhiên, mỗi giai đoạn chỉ dựa vào "kết quả" của giai đoạn trước (tức là theo Chuỗi Markov).
Tuy nhiên, mô hình ME của tôi sử dụng hai giai đoạn trước (nghĩa là các thẻ cho hai từ trước). Có vẻ như tôi có hai cách tiếp cận có thể:
Như với cách triển khai Viterbi thông thường, hãy sử dụng một tập hợp các đường dẫn được lưu trữ theo một giai đoạn (trước đó). Trình phân loại ME của tôi sẽ sử dụng giai đoạn này và giai đoạn 'đóng băng' trước đó (đóng băng vào đường dẫn đang xem xét) để tạo ra chức năng chuyển.
Hoặc tôi viết thuật toán để theo dõi hai giai đoạn. Điều này phức tạp hơn và sẽ không còn là Mô hình Markov thực sự bởi vì mỗi hàm truyền (tức là từ Mô hình ME) sẽ phụ thuộc vào hai giai đoạn trước chứ không phải một giai đoạn.
Tôi nhận ra rằng thứ hai sẽ chính xác hơn, mặc dù nó sẽ phức tạp hơn.
Tôi vẫn chưa tìm thấy bất kỳ ví dụ nào về điều này trong quá trình tìm kiếm tài liệu của tôi. Nó đã được thử chưa? Có phải cách tiếp cận hai giai đoạn đã cải thiện độ chính xác tổng thể?