Tỷ lệ khả năng đăng nhập trong tóm tắt tài liệu


9

Ban đầu tôi đã hỏi điều này trên stack stack và được chuyển đến trang web này, vì vậy ở đây:

Tôi đang thực hiện một số phương pháp tổng hợp tài liệu dựa trên lựa chọn / trích xuất nội dung và tôi bối rối về những gì sách giáo khoa của tôi gọi là "tỷ lệ khả năng đăng nhập". Cuốn sách Xử lý ngôn ngữ và ngôn ngữ của Jurafsky & Martin mô tả ngắn gọn về nó như sau:

LLR cho một từ, thường được gọi là lambda (w), là tỷ lệ giữa xác suất quan sát w trong cả đầu vào và trong kho văn bản giả định xác suất bằng nhau trong cả hai xác suất và xác suất quan sát w trong cả hai đều cho rằng xác suất khác nhau đối với w trong đầu vào và kho văn bản nền.

Phá vỡ điều đó, chúng ta có tử số: "xác suất quan sát w trong cả đầu vào và trong kho nền giả sử xác suất bằng nhau trong cả hai khối" - Làm cách nào để tính xác suất sử dụng ở đây?

và mẫu số: "xác suất quan sát w trong cả hai giả định xác suất khác nhau cho w trong đầu vào và kho văn bản nền". - điều này có đơn giản như xác suất của từ xuất hiện trong đầu vào nhân với xác suất của từ xuất hiện trong kho văn bản không? Ví dụ:

(đếm (từ, đầu vào) / tổng số từ trong đầu vào) * (đếm (từ, văn bản) / tổng số từ trong kho)

Tôi đã xem qua một tài liệu tham khảo cuốn sách của mình, Phương pháp chính xác cho thống kê bất ngờ và trùng hợp (Dunning 1993), nhưng tôi cảm thấy khó khăn khi liên quan đến vấn đề tính toán giá trị LLR cho các từ riêng lẻ trong tóm tắt dựa trên trích xuất. Bất kỳ làm rõ ở đây sẽ được thực sự đánh giá cao.


1
Bạn có thể cho chúng tôi biết sách giáo khoa là gì?
onestop

Xử lý lời nói và ngôn ngữ của Jurafsky & Martin
Richard

Câu trả lời:


1

Với kiến ​​thức hạn hẹp của mình, tôi nghĩ:

  1. "xác suất quan sát w trong đầu vào" yêu cầu phân phối để tính giá trị
  2. "Xác suất quan sát w ở cả đầu vào và trong kho nền giả sử xác suất bằng nhau ở cả hai khối" có nghĩa là "khả năng quan sát w ... với điều kiện xác suất cho w bằng nhau ở cả hai xác".

Đây là công thức của tôi cho nó:


Xây dựng vấn đề một chút:

  1. Giả thuyết 1: P (w trong đầu vào) = P (w trong nền) = p
  2. Giả thuyết 2: P (w trong đầu vào) = p1 và P (w trong nền) = p2 và p1 p2

Phần quan trọng là bạn sẽ cần phải đảm nhận một phân phối ở đây. Đơn giản, chúng tôi giả sử phân phối Binomial để tạo w trong một văn bản. Dựa vào mẫu, chúng ta có thể sử dụng ước tính khả năng tối đa để tính giá trị cho p, p1 và p2, và đây là:

  1. p = (Count-of-w-in-input + Count-of-w-in-background) / (input-size + background-size) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

Chúng tôi muốn biết giả thuyết nào có nhiều khả năng. Do đó, chúng tôi tính toán khả năng của từng giả thuyết và so sánh với nhau (về cơ bản là tỷ lệ khả năng thực hiện).

Vì chúng tôi giả sử phân phối nhị thức , chúng tôi có thể tính toán khả năng có c1 và c2.

Đối với giả thuyết 1:

L (c1) = Xác suất quan sát w trong đầu vào = khả năng đạt được c1 khi có từ N1 giả sử xác suất p (hoặc, nói cách khác, chọn w cho c1 lần trong số N1 lần) là b (N1, c1 , p) - vui lòng xem công thức xác suất nhị thức tại đây

L (c2) = Xác suất quan sát w trong nền = khả năng đạt được c2 khi có từ N2 giả sử xác suất p là b (N2, c2, p)

Đối với giả thuyết 2, chúng ta có thể sử dụng p1 và p2 thay thế.

Bây giờ chúng tôi muốn biết giả thuyết nào có nhiều khả năng; chúng ta sẽ cần một số cách so sánh một giá trị đầu ra từ mỗi giả thuyết.

Nhưng mỗi giả thuyết có 2 giá trị, L (c1) và L (c2). Làm thế nào chúng ta có thể so sánh giả thuyết nào có nhiều khả năng? --- Chúng tôi chọn nhân chúng với nhau để đạt được đầu ra có giá trị duy nhất. (vì nó tương tự như hình học, tôi đoán vậy)


trong các mục của bạn, p, p1 và p2 là ước tính của p, p1 và p2, phải không?
Tây An

Vâng đúng rồi. Nói theo thống kê, chúng là ước tính khả năng tối đa được cung cấp cho dữ liệu mẫu và phân phối nhị thức.
Tanin

Cảm ơn đã chỉ ra nó, btw. Tôi đã cải thiện câu trả lời.
Tanin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.