Tại n làm gì n-gram trở nên phản tác dụng?

13

Khi thực hiện xử lý ngôn ngữ tự nhiên, người ta có thể lấy một kho văn bản và đánh giá xác suất của từ tiếp theo xảy ra trong một chuỗi n. n thường được chọn là 2 hoặc 3 (bigram và trigram).

Có một điểm đã biết mà việc theo dõi dữ liệu cho chuỗi thứ n trở nên phản tác dụng, dựa vào lượng thời gian cần thiết để phân loại một xác chết cụ thể một lần ở cấp độ đó? Hoặc đưa ra lượng thời gian cần thiết để tra cứu xác suất từ một từ điển (cấu trúc dữ liệu)?

text-mining natural-language

— jonsca
nguồn

liên quan đến chủ đề khác này về lời nguyền của chiều

— Antoine

2

Có một điểm đã biết mà việc theo dõi dữ liệu cho chuỗi thứ n trở nên phản tác dụng, dựa vào lượng thời gian cần thiết để phân loại một xác chết cụ thể một lần ở cấp độ đó?

Bạn nên tìm kiếm sự bối rối so với các bảng hoặc ô kích thước n-gram .

Ví dụ:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

http://images.my Shared.ru/17/1041315/slide_16.jpg :

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

Sự bối rối phụ thuộc vào mô hình ngôn ngữ, kích thước n-gram và tập dữ liệu của bạn. Như thường lệ, có một sự đánh đổi giữa chất lượng của mô hình ngôn ngữ và thời gian chạy. Các mô hình ngôn ngữ tốt nhất hiện nay dựa trên các mạng thần kinh, do đó, việc lựa chọn kích thước n-gram sẽ ít gặp vấn đề hơn (nhưng sau đó bạn cần chọn (các) kích thước bộ lọc nếu bạn sử dụng CNN, trong số các siêu đường kính khác).

— Franck Dernoncourt
nguồn

12

Biện pháp "phản tác dụng" của bạn có thể tùy ý - ví dụ. với nhiều bộ nhớ nhanh, nó có thể được xử lý nhanh hơn (hợp lý hơn).

Sau khi nói điều đó, sự tăng trưởng theo cấp số nhân đi vào nó và từ những quan sát của riêng tôi, nó dường như ở khoảng 3-4. (Tôi chưa thấy nghiên cứu cụ thể nào).

Trigram có lợi thế hơn bigram nhưng nó nhỏ. Tôi chưa bao giờ thực hiện 4 gram nhưng sự cải thiện sẽ ít hơn nhiều. Có lẽ là một thứ tự giảm cường độ tương tự. Ví dụ. nếu bát quái cải thiện 10% so với bigram, thì ước tính hợp lý cho 4 gram có thể là cải thiện 1% so với bát quái.

$10,000$ $10000^2$ $10000^3$ $10000^4$

Bạn sẽ cần một khối lượng lớn để bù đắp cho hiệu ứng pha loãng, nhưng Luật của Zipf nói rằng một khối lượng lớn cũng sẽ có những từ thậm chí còn độc đáo hơn ...

Tôi suy đoán rằng đây là lý do tại sao chúng ta thấy rất nhiều mô hình bigram và trigram, triển khai và trình diễn; nhưng không có ví dụ 4 gram làm việc đầy đủ.

— thắng
nguồn

2

Một bản tóm tắt tốt. Các trang 48-53 ("diatribe hoài nghi lan man dài") của bài viết sau đây cung cấp thêm chi tiết về điều đó (bài báo bao gồm một số kết quả cho n-gram bậc cao) nghiên

— cứu.microsoft.com / ~ joshuago / longcombine.pdf

2

Liên kết đã chết. Đây là tài liệu tham khảo đầy đủ và liên kết đến phiên bản arXiv: Joshua T. Goodman (2001). Một chút tiến bộ trong mô hình hóa ngôn ngữ: Phiên bản mở rộng. Nghiên cứu của Microsoft: Redmond, WA (Hoa Kỳ). Báo cáo kỹ thuật MSR-TR-2001-72.

— scozy 10/03/2015