Xác định các sự kiện liên quan đến ngày trong một đoạn


13

Có một cách tiếp cận thuật toán để xác định rằng ngày được đưa ra trong một đoạn có tương quan với các sự kiện (cụm từ) cụ thể trong đoạn văn không?

Ví dụ, xem xét đoạn văn sau:

Vào tháng 6 năm 1970, nhà lãnh đạo vĩ đại đã tuyên thệ. Nhưng chỉ sau tháng 5/1972, sau cái chết của Bộ trưởng Bộ Ngoại giao, ông mới nắm quyền cai trị đất nước. Trong khi ông được hưởng sự ủng hộ phổ biến cho đến giữa năm 1980, ảnh hưởng của ông bắt đầu giảm sau đó.

Có một thuật toán (xác định hoặc ngẫu nhiên) # có thể tạo ra 2-tuple (ngày, sự kiện), trong đó sự kiện được ngụ ý, theo đoạn văn, đã xảy ra vào ngày ? Trong trường hợp trên:

  • (Tháng 6 năm 1970, nhà lãnh đạo vĩ đại đã tuyên thệ)
  • (Tháng 5 năm 1972, tiếp quản dây cương)

    hoặc tốt hơn

  • (Tháng 5 năm 1972, nhà lãnh đạo vĩ đại nắm quyền cai trị)
  • (1980, bị ảnh hưởng)

Ngoài ra


2
Vấn đề này dường như chứa ba giai đoạn: 1) ngày trích xuất, 2) sự kiện trích xuất và 3) tương quan cả hai tập dữ liệu. 1) chắc chắn là có thể thực hiện được và tôi có thể tưởng tượng các heuristic đàng hoàng cho 3), nhưng làm thế nào để bạn mong đợi giải quyết 2)?
Raphael

1
@Raphael Rất vui khi đọc lại câu hỏi của tôi!
kiểm tra123

Vâng, làm bạn có một số thông tin liên quan đến 2), ví dụ như một tập hạn chế các sự kiện thú vị (tức là từ)? Bạn có muốn trích xuất tất cả các cặp danh từ / động từ miễn là chúng có một ngày không?
Raphael

Bạn có muốn trích xuất khung thời gian không? Trong ví dụ của bạn, hãy xem xét (<= May 1972, death of the Minister of State)hoặc (<= Mid-1980, [the great leader] enjoyed popular support).
Raphael

@Raphael Xin lỗi vì đã trả lời (rất) muộn. Về 2) Không. Tôi đang cố gắng cho một cách tiếp cận tổng quát.
kiểm tra123

Câu trả lời:


4

Nói chung, vấn đề xác định ngày và các dấu thời gian khác trong văn bản được gọi là vấn đề trích xuất các tham chiếu tạm thời . Tìm kiếm được liên kết sẽ đưa bạn đến các giấy tờ liên quan đến điều này.


Không biết rằng vấn đề có tên. Sẽ tìm kiếm thêm về điều đó và xem nếu tôi có thể tìm thấy một cái gì đó đáng giá. :)
kiểm tra123

2

Vì bạn yêu cầu một cách tiếp cận thuật toán, tôi sẽ cứng đầu như một thuật toán. Tôi rất tiếc khi xử lý câu hỏi này như thế này, nhưng vì nó dường như không phải là một vấn đề lý thuyết phức tạp, tôi sẽ tổng hợp các cách tiếp cận có thể.

Câu hỏi: bạn có thể cho tôi một định nghĩa thuật toán về một ngày và sự kiện cụ thể không?

Nếu bạn có thể: Vì định nghĩa của bạn là thuật toán, nên đây có thể là một loại ngữ pháp chính thức và vấn đề của bạn sẽ là điều chỉnh ngữ pháp đó để nắm bắt mọi trường hợp bạn cần xem xét. (Tôi quan tâm nếu bạn có thể cho tôi một định nghĩa chính xác không phải là một ngữ pháp chính thức)

Nếu bạn không thể: thì ít nhất bạn có thể đưa ra các ví dụ. Được rồi. Cách tốt nhất - và chỉ tôi có thể nghĩ đến - là các thuật toán học máy, mà bạn sẽ phải đào tạo để nhận ra ngày của bạn và sau đó là các sự kiện của bạn. (Sử dụng một tập hợp các câu được chú thích bằng tay) Tuy nhiên, điều này khá khó hiểu so với một số regrec làm bằng tay lớn có thể sẽ thực hiện công việc. Nếu bạn thực sự, thực sự muốn làm điều đó tôi nghĩ rằng hiệu quả nhất sẽ là loại regex được đưa ra như một tham số cho thuật toán học tập nhưng tốt hơn bạn nên hỏi các chuyên gia về máy học.

Chúc may mắn với điều này, thật dễ dàng hơn nhiều khi chỉ nói về nó (trong cả hai trường hợp).


1
Điều đó nói rằng, tôi nghĩ rằng kết hợp ngày và sự kiện chắc chắn sẽ cần một số mô hình ngẫu nhiên.
Raphael

Ngày ở hầu hết các định dạng tôi có thể chụp bằng regrec. Với một số logic lập trình, tôi có thể trích xuất các câu xung quanh ngày. Vấn đề sau đó là tôi cần một mô hình hoặc phân phối xác suất mà khi một mẫu câu cụ thể, ví dụ: Con mèo đã ăn chuột vào ngày 25 tháng 8. [<article> <danh từ> <động từ> <article> <danh từ> <giới từ> <ngày>], sau đó xuất hiện một tập hợp (phụ) của mẫu, Con mèo ăn chuột (trong trường hợp của chúng tôi), tương quan với ngày y (ngày 25 tháng 8) với xác suất z.
kiểm tra123

@jmad Nếu bạn không phiền, bạn có thể điều chỉnh định dạng bài đăng của mình không? Sử dụng kiểu trích dẫn cho một trích dẫn (hoặc tự trích dẫn?) Là khá khó hiểu.
uli
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.