Trích xuất hầu hết các phần thông tin của văn bản từ các tài liệu


16

Có bất kỳ bài viết hoặc thảo luận về trích xuất một phần của văn bản chứa hầu hết thông tin về tài liệu hiện tại.

Ví dụ, tôi có một kho tài liệu lớn từ cùng một tên miền. Có những phần của văn bản chứa thông tin chính mà tài liệu đơn nói về. Tôi muốn trích xuất một số phần đó và sử dụng chúng như một bản tóm tắt của văn bản. Có tài liệu hữu ích nào về cách đạt được điều gì đó như thế này không.

Sẽ thực sự hữu ích nếu ai đó có thể chỉ cho tôi đi đúng hướng những gì tôi nên tìm kiếm hoặc đọc để hiểu rõ hơn về công việc có thể đã được thực hiện trong lĩnh vực xử lý ngôn ngữ tự nhiên này.

Câu trả lời:


23

Những gì bạn mô tả thường đạt được bằng cách sử dụng kết hợp đơn giản TF-IDFtóm tắt khai thác .

Tóm lại, TF-IDF cho bạn biết tầm quan trọng tương đối của từng từ trong mỗi tài liệu, so với phần còn lại của văn bản của bạn. Tại thời điểm này, bạn có một số điểm cho mỗi từ trong mỗi tài liệu gần đúng với "tầm quan trọng" của nó. Sau đó, bạn có thể sử dụng các điểm số từ riêng lẻ này để tính điểm tổng hợp cho mỗi câu bằng cách tính tổng điểm của từng từ trong mỗi câu. Cuối cùng, chỉ cần lấy các câu ghi điểm N hàng đầu từ mỗi tài liệu làm tóm tắt.

Đầu năm nay, tôi đã kết hợp một Sổ tay iPython mà đỉnh cao là việc thực hiện điều này trong Python bằng NLTK và Scikit-learn: A Smattering of NLP in Python .


2
Vâng, đó có thể là nó. Tôi cũng có thể thêm trọng lượng bổ sung cho một số từ, mà tôi đã biết đó là thông tin. Cảm ơn sự giúp đỡ của bạn và các liên kết hữu ích.
MaticDiba

Vì vậy, tôi có thể sử dụng điều này trên pdf? :)
Adam

Có, bạn có thể sử dụng điều này trên văn bản trong PDF, giả sử bạn đã trích xuất văn bản đơn giản từ PDF bằng cách sử dụng một cái gì đó như pdftotext.
Charlie Greenbacker

1

Có rất nhiều kỹ thuật trích xuất từ ​​khóa phụ thuộc vào các yếu tố như:

  1. Chất lượng ngữ pháp của văn bản
  2. Độ dài của văn bản
  3. Cho dù bạn đang tìm kiếm một từ khóa duy nhất hoặc từ khóa phrasal, vv

Nhưng nói chung, nếu bạn có một văn bản dài và bạn muốn trích xuất từ ​​khóa tự động từ đó, tôi khuyên bạn nên xem qua các bài viết sau:

  1. TextRank

  2. RAKE [Trích xuất từ ​​khóa tự động nhanh chóng]

  3. Topica

Ngoài ra để trích xuất các từ khóa tùy chỉnh (đặc biệt) không thông qua các kỹ thuật trên, hãy xem bài viết dưới đây:

Trích xuất từ ​​khóa tùy chỉnh bằng cách sử dụng thẻ NLTK POS trong python

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.