Tính toán giá trị xác suất phát xạ cho Mô hình Markov ẩn (HMM)

8

Tôi mới sử dụng HMM và vẫn đang học. Tôi hiện đang sử dụng HMM để gắn thẻ một phần của bài phát biểu. Để thực hiện thuật toán viterbi, tôi cần xác suất chuyển tiếp ( $a_{i,j} \newcommand{\Count}{\text{Count}}$ ) và xác suất phát xạ ( $b_i(o)$ ).

Tôi đang tạo ra các giá trị cho các xác suất này bằng phương pháp học có giám sát nơi tôi đưa ra một câu và gắn thẻ. Tôi tính xác suất phát thải là:

b_{i} (o) = \frac{Count (i \to o)}{Count (i)}

$b_i(o) = \frac{\Count(i \to o)}{\Count(i)}$

Trong đó $\Count(i)$ là số lần thẻ $i$ xảy ra trong tập huấn luyện và $\Count(i \to o)$ là số lần mà từ quan sát $o$ ánh xạ tới thẻ $i$ .

Nhưng khi sử dụng được đào tạo này $b_i(o)$ để gắn thẻ, có thể có các biến quan sát trong câu đã cho không bao giờ xuất hiện khi tìm giá trị cho $b_i$ . Trong trường hợp như vậy, làm thế nào để bạn ước tính một giá trị cho $b_i$ cho trường hợp đó?

— Ramesh-X
nguồn

Cách bạn đang tính toán xác suất phát thải, đó có phải là cách duy nhất không? Tôi đang cố gắng giải quyết một trường hợp tương tự cho một bài tập.

5

Đối với những loại câu hỏi này, có thể sử dụng Laplace Smoothing . Nói chung Laplace Smoothing có thể được viết là:

If y \in {\begin{matrix} 1, 2, . . ., k \end{matrix}} then, P (y = j) = \frac{\sum_{i = 1}^{m} L {\begin{matrix} y^{i} = j \end{matrix}} + 1}{m + k}

$\text{If } y \in \begin{Bmatrix} 1,2,...,k\end{Bmatrix} \text{then,}\\ P(y=j)=\frac{\sum_{i=1}^{m} L\begin{Bmatrix} y^{i}=j \end{Bmatrix} + 1}{m+k}$

Ở đây $L$ là khả năng.

Vì vậy, trong trường hợp này, các giá trị xác suất phát xạ ( ) có thể được viết lại thành: $b_i(o)$

b_{i} (o) = \frac{\Count (i \to o) + 1}{\Count (i) + n}

$b_i(o) = \frac{\Count(i \to o) + 1}{\Count(i) + n}$

Trong đó là số lượng thẻ có sẵn sau khi hệ thống được đào tạo. $n$

— Ramesh-X
nguồn

không nên nlà số lượng từ duy nhất, không phải số lượng thẻ? Đó là cách duy nhất xác suất cộng thêm lên tới 1

— hLk

1

Đây là câu hỏi tương đối cũ, nhưng tôi sẽ thêm 5 xu của mình cho những người (giống như tôi) tình cờ tìm thấy thứ gì đó liên quan.

Một cách tiếp cận khác để đối phó với xác suất phát thải bằng không là "đóng từ vựng". Một ý tưởng là định nghĩa các từ "hiếm" trong tập huấn luyện - những từ xuất hiện ít hơn số lần được xác định trước và thay thế chúng bằng "các lớp từ" trước khi mô hình được đào tạo. Khi áp dụng một mô hình cho một chuỗi từ mới, tất cả các từ không nhìn thấy trong tập huấn luyện cũng được chuyển đổi thành "các lớp từ" (thực sự coi chúng là "hiếm"). Nó đảm bảo rằng đối với một mô hình sẽ không có từ nào không nhìn thấy.

Các quy tắc để tạo ra "các lớp từ" từ các từ phải được chọn thủ công (đó là một nhược điểm). Chẳng hạn, trong một bài viết đầu tiên (có lẽ) khi phương pháp này được sử dụng (Bikel, DM, Schwartz, R. & Weischedel, RM Machine Learning (1999) 34: 211.; Https://link.springer.com/article/ 10.1023 / A: 1007558221122 ; http://curtis.ml.cmu.edu/w/cifts/index.php/Bikel_et_al_MLJ_1999 ) một ví dụ về các lớp là:

Word Feature           | Example Text           | Intuition
-----------------------|------------------------|-----------------------------------------
twoDigitNum            | 90                     | Two-digit year
fourDigitNum           | 1990                   | Four digit year
containsDigitAndAlpha  | A8956-67               | Product code
containsDigitAndDash   | 09-96                  | Date
containsDigitAndSlash  | 11/9/89                | Date
containsDigitAndComma  | 23,000.00              | Monetary amount
containsDigitAndPeriod | 1.00 Monetary          | amount, percentage
otherNum               | 456789                 | Other number
allCaps                | BBN                    | Organization
capPeriod              | M.                     | Person name initial
firstWord              | first word of sentence | No useful capitalization information
initCap                | Sally                  | Capitalized word
lowerCase              | can                    | Uncapitalized word
other                  | ,                      | Punctuation marks, all other words

Một ví dụ về câu được gắn thẻ được xử lý trước từ tập huấn luyện (từ các bài giảng của Michael Collins):

"Lợi nhuận / NA tăng vọt / NA tại / NA Boeing / SC Co./CC, / NA dễ dàng / NA đứng đầu / NA dự báo / NA trên / NA Wall / SL Street / CL, / NA như / NA CEO / NA CEO / NA Alan / SP Mulally / CP đã công bố / NA đầu tiên / NA quý / kết quả NA / NA ./NA "

được chuyển đổi (với một số bộ thẻ giả định và "từ hiếm") thành (từ thay thế như được in đậm )

" Firstword / NA tăng vọt / NA tại / NA initCap / SC Co./CC, / NA dễ dàng / NA chữ thường / NA dự báo / NA trên / NA initCap / SL Street / CL, / NA là / NA của họ / NA CEO / NA Alan / SP initCap / CP đã công bố / NA đầu tiên / NA kết quả / NA kết quả / NA ./NA "

Vẫn có thể trong tập huấn luyện không nhìn thấy tất cả các cặp "thẻ -> lớp từ / từ", điều này khiến cho một từ hoặc lớp từ nhất định được gắn thẻ với các thẻ đó. Nhưng điều đó không ngăn cản những từ đó được gắn thẻ với các thẻ khác - không giống như khi có một từ không được nhìn thấy trong tập huấn luyện.

— chiêm tinh gia
nguồn