Công cụ tìm kiếm tự lưu trữ lý tưởng là gì? [đóng cửa]


11

Tôi có một trang web nội bộ (mạng nội bộ) bao gồm một số blog và diễn đàn, hàng trăm trang tĩnh, rất nhiều tệp PDF và một số loại tài liệu khác. Nó đã được dán lại một cách lỏng lẻo trong vài năm qua và bây giờ công việc của tôi là duy trì nó.

Tôi đang tìm kiếm một công cụ tìm kiếm mà tôi có thể lưu trữ bản thân một cách lý tưởng:

  1. Cho phép tìm kiếm trực tiếp cơ sở dữ liệu Blog / Diễn đàn nếu được cung cấp thông tin và bảng cơ sở dữ liệu để tìm kiếm.

  2. Xử lý hầu hết các tài liệu văn bản (PDF / DOC / ODF)

  3. Là nguồn mở hoặc cho phép truy cập vào mã nguồn sau khi mua

Nó không quan trọng với tôi ngôn ngữ hoặc nền tảng được viết bằng gì. Thông thường, tôi chỉ sử dụng tìm kiếm trang web của Google, nhưng đó không phải là một tùy chọn cho mạng nội bộ.

Câu trả lời:




2

SearchBlox dựa trên Lucene có thể đáp ứng nhu cầu của bạn. Nó là miễn phí và đi kèm với một trình thu thập thông tin.


miễn phí cho 25 nghìn url, không nhiều cho mạng nội bộ
cweiske

@cweiske Hãy xem Ambar, nó dựa trên ElasticSearch và miễn phí. github.com/RD17/ambar
Ilya P

0

Thông thường, tôi chỉ sử dụng tìm kiếm trang web của Google, nhưng đó không phải là một tùy chọn cho mạng nội bộ.

Thực tế, có công cụ tìm kiếm Google tương đương với tìm kiếm trang web của Google cho mạng nội bộ. Tuy nhiên, đây không phải là nguồn mở (dù vậy, tìm kiếm trang web google cũng không phải, trong trường hợp bạn không nhận thấy.)


Tôi nhìn nó. Tôi thực sự muốn một cái gì đó mà tôi có thể có quyền truy cập vào mã. Nó cũng hơi nặng trong bộ phận ngân sách.
Tim Post

Ngoài Công cụ Tìm kiếm Google, còn có một sản phẩm tương tự của "Thunderstone" có khả năng cạnh tranh. Tôi đã sử dụng cả hai trong quá khứ. Mặc dù nó có thể không hiệu quả với bạn, nhưng tôi nghĩ tôi sẽ đăng cho những người khác vấp phải câu hỏi.
chữ số1001
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.