Có rất nhiều tài liệu văn bản (bằng ngôn ngữ tự nhiên, không có cấu trúc), những cách có thể để chú thích chúng với một số dữ liệu meta ngữ nghĩa là gì? Ví dụ, hãy xem xét một tài liệu ngắn:
I saw the company's manager last day.
Để có thể trích xuất thông tin từ nó, nó phải được chú thích với dữ liệu bổ sung để ít mơ hồ hơn. Quá trình tìm kiếm dữ liệu meta như vậy không phải là vấn đề, vì vậy giả sử nó được thực hiện thủ công. Câu hỏi đặt ra là làm thế nào để lưu trữ những dữ liệu này theo cách phân tích sâu hơn về nó có thể được thực hiện thuận tiện / hiệu quả hơn?
Một cách tiếp cận có thể là sử dụng các thẻ XML (xem bên dưới), nhưng có vẻ quá dài dòng và có thể có các cách tiếp cận / hướng dẫn tốt hơn để lưu trữ dữ liệu meta như vậy trên các tài liệu văn bản.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.