Bài viết sau đây có một chút toán học, mà tôi hy vọng sẽ giúp giải thích vấn đề tốt hơn. Thật không may, có vẻ như trang SE này không hỗ trợ LaTex:
Tôi1 ≤ i ≤ nzTôi∈ { 0 , 1 }zTôi= 1zTôi= 0 khi và chỉ khi cả hai câu được chọn. Chúng tôi cũng sẽ xác định tầm quan trọng của từng câu w i đối với câu i và thuật ngữ tương tác w i , j giữa câu i và j .zTôizj= 1wTôiTôiwtôi , jTôij
xTôiTôiwTôi= w ( xTôi)wtôi , j= w ( xTôi, xj)
maximize zis.t. ∑iwizi−wi,jzizjzi=0 or 1
Điều này cố gắng tối đa hóa tổng trọng lượng của các câu được bảo hiểm và cố gắng giảm thiểu số lượng trùng lặp. Đây là một vấn đề lập trình số nguyên tương tự như việc tìm tập độc lập trọng số thấp nhất trong biểu đồ và nhiều kỹ thuật tồn tại để giải quyết các vấn đề đó.
wwi=w(xi)i
wi,j=w(xi,xj)
Để cải thiện thiết kế, trước tiên, chúng tôi có thể thực hiện trích xuất cụm từ khóa, tức là xác định các cụm từ chính trong văn bản và chọn xác định vấn đề trên theo nghĩa thay vì cố gắng chọn câu. Đó là một vấn đề tương tự như những gì Google làm để tóm tắt các bài báo trong kết quả tìm kiếm của họ, nhưng tôi không biết chi tiết về cách tiếp cận của họ. Chúng ta cũng có thể chia các câu thành các khái niệm và cố gắng thiết lập ý nghĩa ngữ nghĩa của các câu (Ponzo và Fila là người P1 và P2, trung tâm mua sắm là nơi P, P1 và P2 đã đến nơi P vào thời điểm T (ngày ). Phương thức vận chuyển đi bộ .... và như vậy). Để làm điều này, chúng ta sẽ cần sử dụng một bản thể luận ngữ nghĩa hoặc các cơ sở dữ liệu tri thức thông thường khác. Tuy nhiên, tất cả các phần của vấn đề phân loại ngữ nghĩa cuối cùng này đều mở và tôi chưa thấy ai đạt được tiến bộ thỏa đáng về nó.
wiwi,j
Tôi hy vọng câu trả lời này đã giải thích các vấn đề cơ bản cần được giải quyết để đạt được tiến bộ hướng tới các hệ thống tóm tắt tốt. Đây là một lĩnh vực nghiên cứu tích cực và bạn sẽ tìm thấy những bài báo gần đây nhất thông qua Google Scholar, nhưng trước tiên hãy đọc trang Wikipedia để tìm hiểu các thuật ngữ có liên quan