Trích xuất từ ​​khóa / cụm từ từ Văn bản bằng thư viện Deep Learning


20

Có lẽ điều này là quá rộng, nhưng tôi đang tìm kiếm tài liệu tham khảo về cách sử dụng học sâu trong một nhiệm vụ tóm tắt văn bản.

Tôi đã thực hiện tóm tắt văn bản bằng cách sử dụng các cách tiếp cận tần số từ tiêu chuẩn và xếp hạng câu, nhưng tôi muốn khám phá khả năng sử dụng các kỹ thuật học sâu cho nhiệm vụ này. Tôi cũng đã trải qua một số triển khai được đưa ra trên wildml.com bằng cách sử dụng Mạng thần kinh chuyển đổi (CNN) để phân tích tình cảm; Tôi muốn biết làm thế nào người ta có thể sử dụng các thư viện như TensorFlow hoặc Theano để tóm tắt văn bản và trích xuất từ ​​khóa. Đã khoảng một tuần kể từ khi tôi bắt đầu thử nghiệm với mạng lưới thần kinh, và tôi thực sự vui mừng khi thấy hiệu suất của các thư viện này so với cách tiếp cận trước đây của tôi đối với vấn đề này.

Tôi đặc biệt tìm kiếm một số bài báo và dự án github thú vị liên quan đến tóm tắt văn bản bằng cách sử dụng các khung này. Bất cứ ai có thể cung cấp cho tôi một số tài liệu tham khảo?

Câu trả lời:


15

Các Blog Google Research nên hữu ích trong bối cảnh TensorFlow .

Trong bài viết trên, có một tài liệu tham khảo về bộ dữ liệu Gigaword tiếng Anh được chú thích thường xuyên được sử dụng để tóm tắt văn bản.

Bài báo năm 2014 của Sutskever và cộng sự có tiêu đề Sequence to Sequence Learning with Neural Networks có thể là một khởi đầu có ý nghĩa trên hành trình của bạn vì hóa ra đối với các văn bản ngắn hơn, tóm tắt có thể được học từ đầu đến cuối với kỹ thuật học sâu.

Cuối cùng, đây là một kho lưu trữ Github tuyệt vời thể hiện tóm tắt văn bản trong khi sử dụng TensorFlow.


16

Đây là một lĩnh vực nghiên cứu mở và nó chắc chắn phụ thuộc vào cách bạn đóng khung vấn đề. Nếu bạn đang nói về tóm tắt nhiều tài liệu thì vấn đề hơi khác so với khi bạn nói về tóm tắt tài liệu đơn.

Đó là giá trị ngắn gọn xem xét các tài liệu.

Liên kết được cung cấp bởi u / Hiệp hội các nhà khoa học dữ liệu là rất tốt và nó hữu ích cho nhiệm vụ tóm tắt trừu tượng trên một tài liệu duy nhất. Cũng có công việc được thực hiện trên các tóm tắt khai thác , trong đó xác định các câu quan trọng để trích xuất.

Rush et. al có một bài viết hay về tóm tắt trừu tượng với Chú ý , dựa trên học tập sâu.

Để tóm tắt khai thác, bạn có thể sử dụng LSTM để xây dựng trình phân loại của mình và sử dụng các thư viện TensorFlow / Torch tiêu chuẩn nhưng dường như không có bất kỳ ấn phẩm hiện tại nào về việc sử dụng phương pháp học sâu cho phương pháp này.

Dưới đây là một số repos GitHub bổ sung:


Cảm ơn @franciscojavierarceo tôi sẽ xem xét các giấy tờ nêu trên.
shanky_thebearer

4

Âm thanh như thế này là tóm tắt khai thác hơn nếu bạn đang tìm kiếm từ khóa. Dưới đây là một vài bài báo có thể có triển khai:

Tóm tắt thần kinh bằng cách trích xuất các câu và từ

Tóm tắt khai thác sử dụng Deep Learning

Mạng thần kinh chuyển đổi được giám sát bán giám sát để phân loại văn bản thông qua việc nhúng vùng

Ngoài ra, SpaCy (không liên kết) có một blog tốt về kiến ​​trúc chung của các tác vụ trích xuất văn bản.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.