Mối quan hệ và sự khác biệt giữa truy xuất thông tin và khai thác thông tin?


11

Từ Wikipedia

Truy xuất thông tin là hoạt động thu nhận tài nguyên thông tin liên quan đến nhu cầu thông tin từ bộ sưu tập tài nguyên thông tin. Tìm kiếm có thể dựa trên siêu dữ liệu hoặc lập chỉ mục toàn văn.

Từ Wikipedia

Khai thác thông tin (IE) là nhiệm vụ tự động trích xuất thông tin có cấu trúc từ các tài liệu có thể đọc được bằng máy có cấu trúc và / hoặc bán cấu trúc. Trong hầu hết các trường hợp, hoạt động này liên quan đến việc xử lý văn bản ngôn ngữ của con người bằng phương pháp xử lý ngôn ngữ tự nhiên (NLP). Các hoạt động gần đây trong xử lý tài liệu đa phương tiện như chú thích tự động và trích xuất nội dung ra khỏi hình ảnh / âm thanh / video có thể được xem là trích xuất thông tin.

Các mối quan hệ và sự khác biệt giữa lấy thông tin và khai thác thông tin là gì?

Cảm ơn!

Câu trả lời:


9

Truy vấn thông tin được dựa trên một truy vấn - bạn chỉ định những thông tin nào bạn cần và nó sẽ được trả về ở dạng dễ hiểu của con người.

Khai thác thông tin là về cấu trúc thông tin phi cấu trúc - được cung cấp một số nguồn tất cả thông tin (có liên quan) được cấu trúc theo một hình thức sẽ dễ dàng xử lý. Điều này sẽ không cần thiết ở dạng dễ hiểu của con người - nó chỉ có thể được sử dụng cho các chương trình máy tính.

Một số nguồn:


7

http://gate.ac.uk/ie/ mang đến sự khác biệt rất hay, súc tích:

Khai thác thông tin không phải là truy xuất thông tin: Khai thác thông tin khác với các kỹ thuật truyền thống ở chỗ nó không phục hồi từ bộ sưu tập một tập hợp các tài liệu có liên quan đến truy vấn, dựa trên tìm kiếm từ khóa (có thể được tăng cường bởi từ điển đồng nghĩa). Thay vào đó, mục tiêu là trích xuất từ ​​các tài liệu (có thể bằng nhiều ngôn ngữ) các sự kiện nổi bật về các loại sự kiện, thực thể hoặc mối quan hệ được quy định trước. Những sự thật này sau đó thường được nhập tự động vào cơ sở dữ liệu, sau đó có thể được sử dụng để phân tích dữ liệu theo xu hướng, để đưa ra một bản tóm tắt ngôn ngữ tự nhiên hoặc đơn giản là để phục vụ cho truy cập trực tuyến.

Để đặt nó theo hình ảnh:

Thông tin truy xuất được bộ tài liệu liên quan:

nhập mô tả hình ảnh ở đây

Khai thác thông tin lấy sự thật từ các tài liệu:

nhập mô tả hình ảnh ở đây


2

Từ quan điểm mô hình hóa, truy xuất thông tin là một lĩnh vực sâu rộng dựa trên một số ngành, bao gồm thống kê, toán học, ngôn ngữ học, trí tuệ nhân tạo và bây giờ là khoa học dữ liệu. Trong thực tế, các mô hình này được áp dụng đối với văn bản trong khối để khám phá các mẫu trong dữ liệu. Các mô hình IR không chỉ trùng lặp trong cách sử dụng, chúng có thể "hợp tác" với các mô hình khác như mô hình k-mean hoặc k-lân cận gần nhất, sau đó các mô hình khác có thể được áp dụng từ điểm thuận lợi của ngôn ngữ học tính toán như LDA / LDI và mô hình chủ đề Sau đó, trò chơi kết thúc là một số loại hình ảnh thông tin của khám phá này - sau khi xếp hạng, phân cụm và tổng hợp công việc. Truy xuất thông tin có thể là một môn học khó hiểu, nhưng nỗ lực nghiêm túc, được đánh giá rất cao, sẽ mở ra một lĩnh vực để hiểu sâu hơn về từng mô hình và sự tương tác giữa các mô hình. Tôi trích dẫn "Các bài giảng tổng hợp về các khái niệm thông tin, truy xuất và dịch vụ" là nơi tốt nhất để đào sâu vào một nền tảng cho IR.

Mặc dù tôi không tách biệt hoàn toàn IR và khai thác thông tin, có lẽ là một tập hợp con của IE, trích xuất mức khái niệm, áp dụng các mẫu IR cùng với các quy tắc suy luận dựa trên AI để trích xuất các bản thể luận liên quan. Bản chất đồ họa của các mối quan hệ này đang được tăng cường với mô hình hóa bản thể trong OWL và RDF, và với cơ sở dữ liệu đồ thị, cho phép tập hợp mô hình mối quan hệ ít nghiêm ngặt hoặc nghiêm ngặt hơn, và cho phép có nhiều mối quan hệ hơn, thay vì được kiểm soát. Khả năng phát triển khai thác thông tin một cách linh hoạt giữ cho "kỷ luật" của nó rất thú vị đối với các nhà nghiên cứu.

Cả IR và IE đều diễn ra trong "các thực thể quan trọng" của riêng chúng ta - một số được gọi là "bản thể động" - một số là Palantir-- chúng ta cần các mô hình, mô hình, mô phỏng và trực quan hóa của các thực thể quan trọng đó để kinh doanh bộ mặt của các nguồn thông tin mới và thay đổi thông tin hiện có. Các mô hình khái niệm, quan hệ, xác định, mô hình và bản thể phải linh hoạt và trực quan hóa của chúng như nhau. Việc nâng mạnh các công cụ AI như Watson trong các lĩnh vực khai thác và suy luận thông tin đã tạo điểm nhấn trên IE và các lĩnh vực IR thẳng thắn. Ngoài ra, sự phổ biến của xử lý ngôn ngữ tự nhiên và học máy đang thu hút sự chú ý đến các mô hình và công cụ IR và IE. Tác động của các mô hình IR đối với tìm kiếm và SEO, và đối với mô hình web ngữ nghĩa là một trong những "


1

Truy xuất thông tin là về việc trả lại thông tin có liên quan cho một truy vấn hoặc lĩnh vực quan tâm cụ thể. Lưu ý rằng thông tin này cũng có thể ở dạng tài liệu chung, chắc chắn các công cụ tìm kiếm là một ví dụ đáng chú ý về nhiệm vụ đó. Tôi muốn nói rằng các thực thể quan trọng nhất có thể nhận ra để truy xuất thông tin là tập hợp tài liệu / thông tin ban đầu và truy vấn chỉ định "những gì cần tìm kiếm".

Mặt khác, việc trích xuất thông tin liên quan nhiều hơn đến việc trích xuất (hoặc suy ra) kiến ​​thức chung (hoặc quan hệ) từ một bộ tài liệu hoặc thông tin. Lưu ý rằng ở đây tất cả nội dung của các tài liệu có thể được coi là toàn bộ dữ liệu từ đó trích xuất kiến ​​thức. Tất nhiên cũng trong trường hợp này, bằng cách nào đó bạn có thể chỉ định những gì bạn muốn trích xuất, nhưng nó liên quan nhiều đến các thuộc tính / quan hệ hơn là các chủ đề / chủ đề cụ thể. Các thuộc tính là miền cụ thể hơn, trong khi quan hệ nói chung bao gồm các kịch bản chung hơn.

Một lần nữa, với các công cụ tìm kiếm, bạn đang yêu cầu lấy các trang web có khả năng chứa thông tin về chủ đề cụ thể đó. Đây là một ví dụ về truy xuất thông tin .

Để trích xuất thông tin , thay vào đó, bạn có thể yêu cầu trích xuất tất cả tên của các thành phố hoặc địa chỉ email, xuất hiện trong một kho tài liệu. Bạn thậm chí có thể đi chung chung hơn nhiều, yêu cầu đơn giản để trích xuất kiến ​​thức. Như bạn có thể thấy điều này thực sự chung chung, nhưng nó có thể được thực hiện, ví dụ, bằng cách lấy các bộ ba của đối tượng hình thức hành động-đối tượng cho mỗi câu hợp lệ của một văn bản (điều này phù hợp nhất cho các văn bản ngôn ngữ tự nhiên).

Nếu bạn quan tâm những chủ đề này (và các chủ đề khác) sẽ được giải thích chi tiết trong chương Xử lý ngôn ngữ tự nhiên của cuốn sách Arti ficial Intelligence: A Modern Access .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.