NLP - Gazetteer có phải là một kẻ lừa dối?


16

Trong NLP, có khái niệm Gazetteercó thể khá hữu ích để tạo chú thích. Trong khả năng hiểu biết của tôi:

Một công báo bao gồm một tập hợp các danh sách chứa tên của các thực thể như thành phố, tổ chức, các ngày trong tuần, v.v. Những danh sách này được sử dụng để xuất hiện các tên này trong văn bản, ví dụ như cho nhiệm vụ nhận dạng thực thể được đặt tên.

Vì vậy, nó về cơ bản là một tra cứu. Đây không phải là một mánh gian lận sao? Nếu chúng ta sử dụng một Gazetteerđể phát hiện các thực thể được đặt tên, thì sẽ không có nhiều Natural Language Processingchuyện xảy ra. Lý tưởng nhất, tôi muốn phát hiện các thực thể được đặt tên bằng cách sử dụng các NLPkỹ thuật. Nếu không, làm thế nào là tốt hơn so với một trình so khớp mô hình regex?


2
Tôi sẽ không gọi đó là gian lận mỗi lần ... trừ khi bạn được thiết kế đặc biệt để sử dụng giải pháp tra cứu không phải từ điển. Tôi cũng sẽ không gọi nó là NLP truyền thống, mặc dù bạn không bao giờ nên bỏ qua số dặm đáng kể mà bạn có thể thoát khỏi một giải pháp đơn giản cho một vấn đề.
Kyle.

1
Bạn có thể có thể sử dụng nó để đào tạo một nhận dạng thực thể có tên. Công báo của bạn sẽ làm gì về các thực thể không có trong kho của nó?
Emre

tôi đã hy vọng rằng bằng cách sử dụng chính xác các thẻ pos và danh từ chunking tôi sẽ không bao giờ cần một công báo. điều đó có thể không?
AbtPst

2
Trong công nghiệp không có thứ gọi là gian lận. :-) Nhưng dù sao, nếu bạn muốn có một "cách tiếp cận chung", bạn cần bắt đầu với một số dữ liệu chú thích bằng tay, ví dụ như hạt giống, để tìm hiểu bối cảnh trong đó các NE xuất hiện, để tìm hiểu thêm các NE.
Adam Bittlingmayer

Câu trả lời:


15

Gazetteer hoặc bất kỳ tùy chọn nào khác về tính năng kích thước cố định có vẻ là một cách tiếp cận rất phổ biến trong các bài báo học thuật , khi bạn gặp vấn đề về kích thước hữu hạn, ví dụ NER trong một tập đoàn cố định, hoặc gắn thẻ POS hoặc bất cứ điều gì khác. Tôi sẽ không coi đó là gian lận trừ khi tính năng duy nhất bạn sẽ sử dụng là kết hợp Gazetteer.

Tuy nhiên, khi bạn đào tạo bất kỳ loại mô hình NLP nào dựa trên từ điển trong khi đào tạo, bạn có thể nhận được hiệu suất thế giới thực thấp hơn so với thử nghiệm ban đầu của bạn sẽ báo cáo, trừ khi bạn có thể đưa tất cả các đối tượng quan tâm vào công báo (và tại sao sau đó bạn cần mô hình đó?) bởi vì mô hình được đào tạo của bạn sẽ dựa vào tính năng tại một số điểm và trong trường hợp các tính năng khác sẽ quá yếu hoặc không được mô tả, các đối tượng quan tâm mới sẽ không được nhận ra.

Nếu bạn sử dụng Gazetteer trong các mô hình của mình, bạn nên chắc chắn rằng tính năng đó có tính năng truy cập để cho phép mô hình tự cân bằng, do đó, từ điển đơn giản sẽ không phải là tính năng duy nhất của lớp tích cực (và quan trọng hơn là, công báo viên nên không chỉ phù hợp với các ví dụ tích cực, mà cả những ví dụ tiêu cực).

Ví dụ: giả sử bạn có một bộ đầy đủ các biến thể vô hạn của tất cả các tên người, điều này làm cho người nói chung NER không liên quan, nhưng bây giờ bạn cố gắng quyết định xem đối tượng được đề cập trong văn bản có khả năng hát hay không. Bạn sẽ dựa vào các tính năng đưa vào bộ công cụ Person của bạn, điều này sẽ cung cấp cho bạn rất nhiều thông tin sai lệch; sau đó, bạn sẽ thêm một tính năng trung tâm của " Là chủ đề của động từ hát ", và điều đó có thể sẽ mang đến cho bạn những thông tin sai lệch từ tất cả các loại đối tượng như chim, bụng của bạn khi bạn đói và một người say rượu nghĩanh ta có thể hát (nhưng hãy trung thực, anh ta không thể) - nhưng tính năng trung tâm động từ đó sẽ cân bằng với công báo viên của bạn để gán lớp 'Ca sĩ' tích cực cho người chứ không phải động vật hoặc bất kỳ đối tượng nào khác. Mặc dù vậy, nó không giải quyết được trường hợp người biểu diễn say rượu.


4

Sử dụng danh sách các thực thể có một vài nhược điểm:

  • Danh sách đã đóng
  • Danh sách này không nhạy cảm với bối cảnh. Bạn cần bối cảnh để khác biệt giữa "một ngôi nhà trắng" và "ngôi nhà trắng".
  • Xây dựng danh sách đòi hỏi nhiều lao động
  • Danh sách cũng có thể chứa lỗi.
  • Nó cảm thấy như gian lận (hoặc trong danh sách không có thông tin chi tiết NLP được sử dụng).

Bạn có thể đối phó với những nhược điểm này bằng cách đi theo hướng @emre đề xuất và sử dụng danh sách để tìm hiểu phân loại.

Ví dụ: bạn có thể sử dụng mã thông báo gần thực thể và tìm hiểu quy tắc như "Tôi sống ở X" là chỉ báo về địa điểm và "Tôi đã nói chuyện với X" là chỉ báo của một người. Bạn có thể chơi trò chơi này vài vòng bằng cách tăng danh sách của mình bằng các lần truy cập của quy tắc và sử dụng danh sách mới để tìm hiểu thêm quy tắc.

Xin lưu ý rằng trong việc học này, bạn sẽ giới thiệu ồn ào vào dữ liệu vì vậy trong hầu hết các trường hợp, việc học tập nên được tiến thẳng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.