Tôi đang cố gắng loại bỏ các từ dừng trước khi thực hiện mô hình chủ đề. Tôi nhận thấy rằng một số từ phủ định (không, cũng không, không bao giờ, không, v.v.) thường được coi là từ dừng. Ví dụ: NLTK, spacy và sklearn bao gồm "không" trong danh sách từ dừng của họ. Tuy nhiên, nếu chúng ta loại bỏ "không" khỏi những câu dưới đây thì chúng sẽ mất đi ý nghĩa quan trọng và điều đó sẽ không chính xác cho mô hình chủ đề hoặc phân tích tình cảm.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
Bất cứ ai có thể giải thích tại sao những từ phủ định này thường được coi là từ dừng?