Gazetteer hoặc bất kỳ tùy chọn nào khác về tính năng kích thước cố định có vẻ là một cách tiếp cận rất phổ biến trong các bài báo học thuật , khi bạn gặp vấn đề về kích thước hữu hạn, ví dụ NER trong một tập đoàn cố định, hoặc gắn thẻ POS hoặc bất cứ điều gì khác. Tôi sẽ không coi đó là gian lận trừ khi tính năng duy nhất bạn sẽ sử dụng là kết hợp Gazetteer.
Tuy nhiên, khi bạn đào tạo bất kỳ loại mô hình NLP nào dựa trên từ điển trong khi đào tạo, bạn có thể nhận được hiệu suất thế giới thực thấp hơn so với thử nghiệm ban đầu của bạn sẽ báo cáo, trừ khi bạn có thể đưa tất cả các đối tượng quan tâm vào công báo (và tại sao sau đó bạn cần mô hình đó?) bởi vì mô hình được đào tạo của bạn sẽ dựa vào tính năng tại một số điểm và trong trường hợp các tính năng khác sẽ quá yếu hoặc không được mô tả, các đối tượng quan tâm mới sẽ không được nhận ra.
Nếu bạn sử dụng Gazetteer trong các mô hình của mình, bạn nên chắc chắn rằng tính năng đó có tính năng truy cập để cho phép mô hình tự cân bằng, do đó, từ điển đơn giản sẽ không phải là tính năng duy nhất của lớp tích cực (và quan trọng hơn là, công báo viên nên không chỉ phù hợp với các ví dụ tích cực, mà cả những ví dụ tiêu cực).
Ví dụ: giả sử bạn có một bộ đầy đủ các biến thể vô hạn của tất cả các tên người, điều này làm cho người nói chung NER không liên quan, nhưng bây giờ bạn cố gắng quyết định xem đối tượng được đề cập trong văn bản có khả năng hát hay không. Bạn sẽ dựa vào các tính năng đưa vào bộ công cụ Person của bạn, điều này sẽ cung cấp cho bạn rất nhiều thông tin sai lệch; sau đó, bạn sẽ thêm một tính năng trung tâm của " Là chủ đề của động từ hát ", và điều đó có thể sẽ mang đến cho bạn những thông tin sai lệch từ tất cả các loại đối tượng như chim, bụng của bạn khi bạn đói và một người say rượu nghĩanh ta có thể hát (nhưng hãy trung thực, anh ta không thể) - nhưng tính năng trung tâm động từ đó sẽ cân bằng với công báo viên của bạn để gán lớp 'Ca sĩ' tích cực cho người chứ không phải động vật hoặc bất kỳ đối tượng nào khác. Mặc dù vậy, nó không giải quyết được trường hợp người biểu diễn say rượu.