Liên quan đến việc sử dụng mô hình bigram (N-gram) để xây dựng vector tính năng cho tài liệu văn bản

10

Một cách tiếp cận truyền thống về xây dựng tính năng để khai thác văn bản là cách tiếp cận theo từ và có thể được tăng cường bằng cách sử dụng tf-idf để thiết lập vectơ đặc trưng mô tả tài liệu văn bản đã cho. Hiện tại, tôi đang cố gắng sử dụng mô hình ngôn ngữ bi-gram hoặc (N-gram) để xây dựng vectơ đặc trưng, nhưng không biết làm thế nào để làm điều đó? Chúng ta có thể làm theo cách tiếp cận của các từ, nghĩa là tính toán tần số theo thuật ngữ bi-gram thay vì từ và tăng cường sử dụng sơ đồ trọng số tf-idf không?

— người dùng3125
nguồn

4

Đúng. Tuy nhiên, điều đó sẽ tạo ra nhiều tính năng hơn: có thể rất quan trọng khi áp dụng một số tính năng bị cắt (ví dụ loại bỏ các tính năng như bi-gram hoặc các từ xuất hiện dưới 5 lần trong tập dữ liệu của bạn) để không khiến bộ phân loại của bạn quá ồn ào đặc trưng.

— yêu tinh
nguồn

Cảm ơn. Bạn có nghĩa là ý tưởng chung của tôi về tính toán từng giá trị tính năng theo thuật ngữ bigram (N-gram) là chính xác? Nói cách khác, không có sự khác biệt lớn trong việc tính toán các giá trị tính năng giữa mô hình bag-of-words và N-gram. Cảm ơn bạn đã làm rõ.

— user3125

Có, bạn có thể sử dụng cả tất cả các bigram + unigram (từ) trong một túi lớn các tính năng (miễn là bạn cắt ít thường xuyên nhất với một số mức giới hạn).

— ogrisel

3

Số lượng bigram có thể được giảm bằng cách chỉ chọn những người có thông tin lẫn nhau tích cực.

Chúng tôi đã làm điều này để tạo ra một túi đại diện bigram tại đường đua khai thác XML của INEX, http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp .

Những gì chúng tôi đã không cố gắng là sử dụng thông tin lẫn nhau giữa các điều khoản trong trọng số bi-gram. Xem https://en.wikipedia.org/wiki/Pointwise_mutual_inatures , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf và http: //www.nltk. org / howto / collocations.html để giải thích rõ hơn về thông tin lẫn nhau theo chiều cho các bigram.

Xem /programming/20018730/computing-pointwise-mutual-inif-of-a-text-document-USE-python và /programming/22118350/python-sentiment-analysis -sử dụng-điểm-thông tin lẫn nhau cho các câu hỏi khác liên quan đến điều này.

— Chris de Vries
nguồn

liên kết chết :-( ...

— Đổi mới

1

@Renaud Liên kết đã được cập nhật :-)

— Chris de Vries

0

Sử dụng các phép chiếu ngẫu nhiên để giảm tính chiều của dữ liệu có thể tỏ ra hữu ích để giảm dung lượng cần thiết để lưu trữ các tính năng, https://en.wikipedia.org/wiki/Random_projection . Nó chia tỷ lệ rất tốt và mọi ví dụ có thể được chiếu vào không gian chiều thấp hơn một cách độc lập và không có bất kỳ phương pháp tối ưu hóa trực tiếp nào như PCA, SVD, Sammon Maps, NMF, v.v.

— Chris de Vries
nguồn