Đây là câu hỏi tương đối cũ, nhưng tôi sẽ thêm 5 xu của mình cho những người (giống như tôi) tình cờ tìm thấy thứ gì đó liên quan.
Một cách tiếp cận khác để đối phó với xác suất phát thải bằng không là "đóng từ vựng". Một ý tưởng là định nghĩa các từ "hiếm" trong tập huấn luyện - những từ xuất hiện ít hơn số lần được xác định trước và thay thế chúng bằng "các lớp từ" trước khi mô hình được đào tạo. Khi áp dụng một mô hình cho một chuỗi từ mới, tất cả các từ không nhìn thấy trong tập huấn luyện cũng được chuyển đổi thành "các lớp từ" (thực sự coi chúng là "hiếm"). Nó đảm bảo rằng đối với một mô hình sẽ không có từ nào không nhìn thấy.
Các quy tắc để tạo ra "các lớp từ" từ các từ phải được chọn thủ công (đó là một nhược điểm). Chẳng hạn, trong một bài viết đầu tiên (có lẽ) khi phương pháp này được sử dụng (Bikel, DM, Schwartz, R. & Weischedel, RM Machine Learning (1999) 34: 211.; Https://link.springer.com/article/ 10.1023 / A: 1007558221122 ; http://curtis.ml.cmu.edu/w/cifts/index.php/Bikel_et_al_MLJ_1999 ) một ví dụ về các lớp là:
Word Feature | Example Text | Intuition
-----------------------|------------------------|-----------------------------------------
twoDigitNum | 90 | Two-digit year
fourDigitNum | 1990 | Four digit year
containsDigitAndAlpha | A8956-67 | Product code
containsDigitAndDash | 09-96 | Date
containsDigitAndSlash | 11/9/89 | Date
containsDigitAndComma | 23,000.00 | Monetary amount
containsDigitAndPeriod | 1.00 Monetary | amount, percentage
otherNum | 456789 | Other number
allCaps | BBN | Organization
capPeriod | M. | Person name initial
firstWord | first word of sentence | No useful capitalization information
initCap | Sally | Capitalized word
lowerCase | can | Uncapitalized word
other | , | Punctuation marks, all other words
Một ví dụ về câu được gắn thẻ được xử lý trước từ tập huấn luyện (từ các bài giảng của Michael Collins):
"Lợi nhuận / NA tăng vọt / NA tại / NA Boeing / SC Co./CC, / NA dễ dàng / NA đứng đầu / NA dự báo / NA trên / NA Wall / SL Street / CL, / NA như / NA CEO / NA CEO / NA Alan / SP Mulally / CP đã công bố / NA đầu tiên / NA quý / kết quả NA / NA ./NA "
được chuyển đổi (với một số bộ thẻ giả định và "từ hiếm") thành (từ thay thế như được in đậm )
" Firstword / NA tăng vọt / NA tại / NA initCap / SC Co./CC, / NA dễ dàng / NA chữ thường / NA dự báo / NA trên / NA initCap / SL Street / CL, / NA là / NA của họ / NA CEO / NA Alan / SP initCap / CP đã công bố / NA đầu tiên / NA kết quả / NA kết quả / NA ./NA "
Vẫn có thể trong tập huấn luyện không nhìn thấy tất cả các cặp "thẻ -> lớp từ / từ", điều này khiến cho một từ hoặc lớp từ nhất định được gắn thẻ với các thẻ đó. Nhưng điều đó không ngăn cản những từ đó được gắn thẻ với các thẻ khác - không giống như khi có một từ không được nhìn thấy trong tập huấn luyện.