NLP - tại sao không phải là một từ dừng?


18

Tôi đang cố gắng loại bỏ các từ dừng trước khi thực hiện mô hình chủ đề. Tôi nhận thấy rằng một số từ phủ định (không, cũng không, không bao giờ, không, v.v.) thường được coi là từ dừng. Ví dụ: NLTK, spacy và sklearn bao gồm "không" trong danh sách từ dừng của họ. Tuy nhiên, nếu chúng ta loại bỏ "không" khỏi những câu dưới đây thì chúng sẽ mất đi ý nghĩa quan trọng và điều đó sẽ không chính xác cho mô hình chủ đề hoặc phân tích tình cảm.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Bất cứ ai có thể giải thích tại sao những từ phủ định này thường được coi là từ dừng?


2
Nếu bạn đang thực hiện phân tích ngữ nghĩa các câu, rõ ràng các kết nối logic rất quan trọng: (1) nếu không (2). Nếu bạn có ý định mô hình hóa logic của những câu này, hãy để chúng ra khỏi túi dừng. Chúng thường được ném vào đó bởi vì từ quan điểm khai thác dữ liệu, sự hiện diện của 'không' trong một tài liệu sẽ không cho chúng ta biết nhiều về chủ đề để giúp chúng ta phân biệt nó với các tài liệu khác; nó không đủ hiếm. Có lẽ có những lý do khác để bỏ qua chúng trong các nhiệm vụ nlp.
Hồ Nam Rostomyan

Câu trả lời:


20

Các từ dừng thường được coi là "những từ phổ biến nhất trong ngôn ngữ". Tuy nhiên, các định nghĩa khác dựa trên các nhiệm vụ khác nhau là có thể.

Rõ ràng có ý nghĩa khi coi 'không' là một từ dừng nếu nhiệm vụ của bạn dựa trên tần số từ (ví dụ: phân tích idf tf bit để phân loại tài liệu).

Nếu bạn quan tâm đến bối cảnh (ví dụ phân tích tình cảm ) của văn bản, có thể có ý nghĩa đối xử với các từ phủ định khác nhau. Phủ định thay đổi cái gọi là hóa trị của một văn bản. Điều này cần phải được điều trị cẩn thận và thường không tầm thường. Một ví dụ sẽ là văn bản phủ định Twitter. Một lời giải thích về cách tiếp cận được đưa ra trong bài viết này .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.