Gần đây tôi đã đọc bốn cuốn sách trong lĩnh vực này:
Feldman, R. và James Sanger, J. (2006). Cẩm nang khai thác văn bản: Phương pháp nâng cao trong phân tích dữ liệu phi cấu trúc. Nhà xuất bản Đại học Cambridge.
Điều này tập trung vào các ví dụ thực tế, phần mềm và khai thác văn bản ứng dụng. Nó đưa ra nhiều ví dụ về sử dụng thực tế khai thác văn bản. Nó có thể được quan tâm nếu bạn muốn đọc về các ứng dụng thương mại của các công cụ khai thác văn bản.
Srivastava, AN và Sahami, M. (2009). Khai thác văn bản: Phân loại, phân cụm và ứng dụng. Chapman & Hội trường / CRC.
Đó là một loạt các tài liệu nghiên cứu được sử dụng làm ví dụ về việc sử dụng các công cụ khai thác văn bản khác nhau. Nó là quá tập trung như cho thử nghiệm giới thiệu.
Weiss, SM, Indurkhya, N., Zhang, T. và Damerau, F. (2005). Khai thác văn bản: Phương pháp dự đoán để phân tích thông tin phi cấu trúc.
Mùa xuân.
Văn bản rất giới thiệu mô tả một số vấn đề chung.
Manning, C. (1999). Cơ sở của xử lý ngôn ngữ tự nhiên thống kê. Báo chí MIT.
Đây là cuốn sách hay nhất mà tôi đã đọc về chủ đề này. Nó được viết tốt, rõ ràng, đi sâu vào lý thuyết nhưng theo cách thân thiện với thực tiễn. Bắt đầu với phần giới thiệu chung, nhưng hơn là xem xét một số phương pháp và thuật toán được sử dụng phổ biến nhất. Nếu bạn chỉ phải chọn một cuốn sách duy nhất, tôi sẽ giới thiệu cuốn sách này.
Bạn cũng có thể dễ dàng tìm thấy nhiều sách về xử lý ngôn ngữ tự nhiên và khai thác văn bản tập trung vào sử dụng R ( thư viện tm ) hoặc Python ( thư viện nltk ).