Tôi có một thư mục con mà tôi muốn ẩn khỏi trình thu thập dữ liệu web của công cụ tìm kiếm.
Một cách để làm điều này là sử dụng một robots.txt
trong thư mục gốc của máy chủ (cách tiêu chuẩn). Tuy nhiên, bất kỳ ai biết URL trang web và có một số kiến thức web cơ bản đều có thể truy cập nội dung robot.txt và có thể phát hiện các thư mục không được phép.
Tôi nghĩ một cách để tránh điều này, nhưng tôi không chắc liệu nó có hoạt động không.
Đặt X
tên của thư mục con mà tôi muốn loại trừ. Một cách để ngăn chặn Trình thu thập dữ liệu Web lập chỉ mục X
thư mục và đồng thời để giúp ai đó khó xác định X
thư mục hơn từ thư mục gốc robots.txt
, là thêm thư mục robots.txt
trong X
thư mục thay vì thư mục gốc.
Nếu tôi làm theo giải pháp này, tôi có các câu hỏi sau:
- Trình thu thập dữ liệu web sẽ tìm thấy
robots.txt
trong thư mục con? (cho rằng, mộtrobots.txt
đã tồn tại và trong thư mục gốc) Nếu
robots.txt
trongX
thư mục con, tôi nên sử dụng đường dẫn tương đối hay tuyệt đối?:User-agent: * Disallow: /X/
hoặc là
User-agent: * Disallow: /