Ban đầu tôi đã hỏi điều này trên stack stack và được chuyển đến trang web này, vì vậy ở đây:
Tôi đang thực hiện một số phương pháp tổng hợp tài liệu dựa trên lựa chọn / trích xuất nội dung và tôi bối rối về những gì sách giáo khoa của tôi gọi là "tỷ lệ khả năng đăng nhập". Cuốn sách Xử lý ngôn ngữ và ngôn ngữ của Jurafsky & Martin mô tả ngắn gọn về nó như sau:
LLR cho một từ, thường được gọi là lambda (w), là tỷ lệ giữa xác suất quan sát w trong cả đầu vào và trong kho văn bản giả định xác suất bằng nhau trong cả hai xác suất và xác suất quan sát w trong cả hai đều cho rằng xác suất khác nhau đối với w trong đầu vào và kho văn bản nền.
Phá vỡ điều đó, chúng ta có tử số: "xác suất quan sát w trong cả đầu vào và trong kho nền giả sử xác suất bằng nhau trong cả hai khối" - Làm cách nào để tính xác suất sử dụng ở đây?
và mẫu số: "xác suất quan sát w trong cả hai giả định xác suất khác nhau cho w trong đầu vào và kho văn bản nền". - điều này có đơn giản như xác suất của từ xuất hiện trong đầu vào nhân với xác suất của từ xuất hiện trong kho văn bản không? Ví dụ:
(đếm (từ, đầu vào) / tổng số từ trong đầu vào) * (đếm (từ, văn bản) / tổng số từ trong kho)
Tôi đã xem qua một tài liệu tham khảo cuốn sách của mình, Phương pháp chính xác cho thống kê bất ngờ và trùng hợp (Dunning 1993), nhưng tôi cảm thấy khó khăn khi liên quan đến vấn đề tính toán giá trị LLR cho các từ riêng lẻ trong tóm tắt dựa trên trích xuất. Bất kỳ làm rõ ở đây sẽ được thực sự đánh giá cao.