Lucene hoạt động như thế nào

Question 1

Tôi muốn biết cách tìm kiếm lucene hoạt động nhanh như vậy. Tôi không thể tìm thấy bất kỳ tài liệu hữu ích nào trên web. Nếu bạn có bất cứ điều gì (thiếu mã nguồn lucene) để đọc, hãy cho tôi biết.

Trong trường hợp của tôi, một truy vấn tìm kiếm văn bản sử dụng tìm kiếm văn bản mysql5 có chỉ mục mất khoảng 18 phút. Một tìm kiếm lucene cho cùng một truy vấn mất chưa đầy một giây.

Question 2

Lucene là một chỉ mục toàn văn được đảo ngược. Điều này có nghĩa là nó lấy tất cả các tài liệu, chia chúng thành các từ và sau đó xây dựng một chỉ mục cho mỗi từ . Vì chỉ mục là một chuỗi khớp chính xác, không có thứ tự, nó có thể cực kỳ nhanh. Theo giả thuyết, một chỉ mục không có thứ tự SQL trên một varchartrường có thể nhanh như vậy và trên thực tế, tôi nghĩ bạn sẽ thấy các cơ sở dữ liệu lớn có thể thực hiện một truy vấn bình đẳng chuỗi đơn giản rất nhanh trong trường hợp đó.

Lucene không phải tối ưu hóa để xử lý giao dịch. Khi bạn thêm một tài liệu, nó không cần đảm bảo rằng các truy vấn sẽ thấy nó ngay lập tức . Và nó không cần tối ưu hóa để cập nhật các tài liệu hiện có.

Tuy nhiên, vào cuối ngày, nếu bạn thực sự muốn biết, bạn cần phải đọc nguồn. Xét cho cùng, cả hai thứ bạn tham khảo đều là mã nguồn mở.

Question 3

Lucene tạo ra một chỉ số lớn. Chỉ mục chứa id từ, số tài liệu có từ đó và vị trí của từ trong các tài liệu đó. Vì vậy, khi bạn đưa ra một truy vấn từ đơn, nó chỉ tìm kiếm chỉ mục (độ phức tạp thời gian O (1)). Sau đó, kết quả được xếp hạng bằng cách sử dụng các thuật toán khác nhau. Đối với truy vấn nhiều từ, chỉ cần lấy phần giao nhau của tập hợp các tệp có các từ hiện diện. Vì vậy, Lucene rất nhanh.

Để biết thêm thông tin, hãy đọc bài viết này của các nhà phát triển Google- http://infolab.stanford.edu/~backrub/google.html

Question 4

Nói một cách ngắn gọn: lập chỉ mục.

Lucene tạo một chỉ mục cho tài liệu của bạn để cho phép nó tìm kiếm nhanh hơn nhiều.

Đó là sự khác biệt giống nhau giữa cấu trúc dữ liệu danh sách O (N) và cấu trúc dữ liệu bảng băm O (1). Danh sách phải đi qua toàn bộ bộ sưu tập để tìm những gì bạn muốn. Bảng băm có một chỉ mục cho phép nó tìm ra chính xác vị trí của mục mong muốn và chỉ cần tìm nạp nó.

Cập nhật:

Tôi không chắc ý bạn là "Tìm kiếm chỉ mục Lucene nhanh hơn nhiều so với tìm kiếm chỉ mục mysql."

Tôi đoán là bạn đang sử dụng MySQL "WHERE tài liệu LIKE '% cụm từ%'" để tìm kiếm tài liệu. Nếu điều đó đúng, thì MySQL phải thực hiện quét bảng trên mọi hàng, hàng này sẽ là O (N).

Lucene có thể phân tích tài liệu thành các mã thông báo, nhóm chúng thành n-gam theo hướng của bạn và tính toán các chỉ số cho từng mã thông báo đó. Đó là O (1) để tìm một từ trong tài liệu Lucene được lập chỉ mục.

Question 5

Lucene hoạt động với Tần suất kỳ hạn và Tần suất tài liệu nghịch đảo . Nó tạo ra một chỉ mục ánh xạ từng từ với tài liệu và đó là số lượng tần suất không là gì ngoài chỉ mục nghịch đảo trên tài liệu.

Ví dụ :

Tập tin 1: Bộ nhớ Truy cập Ngẫu nhiên là bộ nhớ chính.

Tệp 2: Đĩa cứng là bộ nhớ phụ.

Lucene tạo ra một chỉ mục ngược giống như

Tệp 1:

Điều khoản: Ngẫu nhiên

Tần suất: 1

Chức vụ: 0

Thuật ngữ: Bộ nhớ

Tần số: 2

Chức vụ: 3

Chức vụ: 6

Vì vậy, nó có thể tìm kiếm và lấy nội dung đã tìm kiếm một cách nhanh chóng. Khi có quá nhiều kết quả phù hợp cho truy vấn tìm kiếm, nó sẽ xuất ra kết quả dựa trên trọng số. Hãy xem xét truy vấn tìm kiếm "Bộ nhớ chính" nó tìm kiếm tất cả 4 từ riêng lẻ và kết quả sẽ như thế nào,

Chủ yếu

Tệp 1: Tần suất - 1

Ký ức

Tệp 1: Tần suất - 2

Tệp 2: Tần suất - 1

Kết quả sẽ là File1 theo sau là File2 . Để không bị quá tải bởi các từ phổ biến nhất như 'và', 'hoặc', 'nó sẽ xem xét tần suất nghịch đảo của tài liệu (nghĩa là' nó làm giảm trọng lượng của từ phổ biến nhất trong bộ tài liệu).