Tôi đang tìm kiếm một số gợi ý về cách sắp xếp một danh sách các từ khóa. Có ai đó biết / ai đó có thể đề xuất một phương pháp tốt để trích xuất danh sách từ khóa từ chính bộ dữ liệu để tiền xử lý và lọc không?
Dữ liệu:
một lượng lớn văn bản đầu vào của con người có độ dài thay đổi (searchterms và toàn bộ câu (tối đa 200 ký tự)) trong vài năm. Văn bản chứa rất nhiều thư rác (như đầu vào máy từ bot, từ đơn, tìm kiếm ngu ngốc, tìm kiếm sản phẩm ...) và chỉ một vài% có vẻ hữu ích. Tôi nhận ra rằng đôi khi (chỉ rất hiếm khi) mọi người tìm kiếm phía tôi bằng cách hỏi những câu hỏi thực sự hay. Những câu hỏi này rất hay, đến nỗi tôi nghĩ rằng đáng để tìm hiểu sâu hơn về chúng để xem cách mọi người tìm kiếm theo thời gian và những chủ đề mà mọi người đã quan tâm khi sử dụng trang web của tôi.
Vấn đề của tôi:
là tôi đang thực sự vật lộn với quá trình tiền xử lý (tức là bỏ thư rác). Tôi đã thử một số danh sách từ trên web (NLTK, v.v.), nhưng chúng không thực sự giúp ích cho nhu cầu của tôi về bộ dữ liệu này.
Cảm ơn ý kiến và thảo luận của bạn!
stop words
. Stop-wrods là danh sách của hầu hết các từ thông dụng trong một số ngôn ngữ, ví dụ I
, the
, a
và vân vân. Bạn sẽ chỉ loại bỏ những từ này khỏi văn bản của bạn trước khi bắt đầu đào tạo thuật toán của bạn để thử xác định văn bản nào là thư rác hay không. Nó không giúp bạn xác định văn bản nào là thư rác hay không, nó có thể cải thiện thuật toán học tập của bạn.