Sách hay về khai thác văn bản?


11

Xin chào Tôi muốn biết nếu có một số cuốn sách hay về khai thác và phân loại văn bản với một số nghiên cứu điển hình?. Nếu không một số giấy tờ / tạp chí có thể truy cập công khai sẽ làm. Nếu họ minh họa ví dụ của họ với R thậm chí tốt hơn. Tôi không tìm kiếm hướng dẫn từng bước nhưng một cái gì đó minh họa những ưu và nhược điểm của các cách tiếp cận khai thác văn bản khác nhau đối với các loại vấn đề khác nhau.

Câu trả lời:


5

Hãy xem http://lintool.github.com/MapReduceAlerskym/MapReduce-book-final.pdf Xử lý văn bản chuyên sâu dữ liệu với MapReduce - cuốn sách này khá hàn lâm nhưng bao gồm một số kỹ thuật xử lý văn bản thường được sử dụng và cách chúng có thể được liệt kê trên tập dữ liệu lớn sử dụng bản đồ giảm.

www.rtexttools.com Đây là gói R tuyệt vời giúp bạn áp dụng một loạt các thuật toán phân loại (bao gồm một số phương pháp tập hợp) cho phân tích văn bản. và


4
Để làm cho câu trả lời này khép kín, bạn có phiền khi cung cấp một bản tóm tắt ngắn gọn về mỗi liên kết không?
chl

4

Gần đây tôi đã đọc bốn cuốn sách trong lĩnh vực này:

Feldman, R. và James Sanger, J. (2006). Cẩm nang khai thác văn bản: Phương pháp nâng cao trong phân tích dữ liệu phi cấu trúc. Nhà xuất bản Đại học Cambridge.

Điều này tập trung vào các ví dụ thực tế, phần mềm và khai thác văn bản ứng dụng. Nó đưa ra nhiều ví dụ về sử dụng thực tế khai thác văn bản. Nó có thể được quan tâm nếu bạn muốn đọc về các ứng dụng thương mại của các công cụ khai thác văn bản.

Srivastava, AN và Sahami, M. (2009). Khai thác văn bản: Phân loại, phân cụm và ứng dụng. Chapman & Hội trường / CRC.

Đó là một loạt các tài liệu nghiên cứu được sử dụng làm ví dụ về việc sử dụng các công cụ khai thác văn bản khác nhau. Nó là quá tập trung như cho thử nghiệm giới thiệu.

Weiss, SM, Indurkhya, N., Zhang, T. và Damerau, F. (2005). Khai thác văn bản: Phương pháp dự đoán để phân tích thông tin phi cấu trúc. Mùa xuân.

Văn bản rất giới thiệu mô tả một số vấn đề chung.

Manning, C. (1999). Cơ sở của xử lý ngôn ngữ tự nhiên thống kê. Báo chí MIT.

Đây là cuốn sách hay nhất mà tôi đã đọc về chủ đề này. Nó được viết tốt, rõ ràng, đi sâu vào lý thuyết nhưng theo cách thân thiện với thực tiễn. Bắt đầu với phần giới thiệu chung, nhưng hơn là xem xét một số phương pháp và thuật toán được sử dụng phổ biến nhất. Nếu bạn chỉ phải chọn một cuốn sách duy nhất, tôi sẽ giới thiệu cuốn sách này.

Bạn cũng có thể dễ dàng tìm thấy nhiều sách về xử lý ngôn ngữ tự nhiên và khai thác văn bản tập trung vào sử dụng R ( thư viện tm ) hoặc Python ( thư viện nltk ).


2

Điều này có thể không chính xác cho những gì bạn đang tìm kiếm, nhưng Làm chủ các biểu thức chính quy của Jeffrey Friedl là một nguồn tuyệt vời để học cách sử dụng các biểu thức thông thường để phân tích văn bản. Anh ta không thảo luận về các kỹ thuật mô hình, nhưng, được trang bị nhiều tính từ việc áp dụng các biểu thức chính quy, bạn có thể áp dụng nhiều cách tiếp cận mô hình chuẩn.


2

Một cuốn sách tôi quay lại nhiều lần cho các ý tưởng là Khai thác văn bản: Phương pháp dự đoán ... của Sholom Weiss. Nó có rất nhiều ý tưởng để tiếp cận các vấn đề mà tôi thấy hữu ích vì đôi khi việc khai thác văn bản là thử những thứ khác nhau - Từ điển toàn cầu so với địa phương, số tính năng cần giữ, v.v. Tôi thấy cuốn sách này là một trình tạo ý tưởng tốt. Nó cũng có trường hợp nghiên cứu.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.