Tôi muốn ẩn tệp XML sơ đồ trang web của mình khỏi tất cả nhưng cho phép truy cập từ các công cụ tìm kiếm.
Cách để làm điều đó là gì?
Tôi muốn che giấu độ sâu của nội dung trang web khỏi các đối thủ cạnh tranh.
Tôi muốn ẩn tệp XML sơ đồ trang web của mình khỏi tất cả nhưng cho phép truy cập từ các công cụ tìm kiếm.
Cách để làm điều đó là gì?
Tôi muốn che giấu độ sâu của nội dung trang web khỏi các đối thủ cạnh tranh.
Câu trả lời:
Bước đầu tiên sẽ là phát hiện Tác nhân người dùng của các bot bạn muốn cho phép và cung cấp một tệp khác nếu đó không phải là Tác nhân người dùng mà bạn muốn cho phép.
Ví dụ: bạn có thể có hai phiên bản robots.txt
, một có và một không có tham chiếu đến sơ đồ trang web, vì vậy các đối thủ cạnh tranh của bạn sẽ không tìm thấy sơ đồ trang web nếu họ nhìn vào bên trong bạn robots.txt
.
Sau đó, bạn có thể phát hiện các lượt truy cập vào URL sơ đồ trang web của mình và chỉ phục vụ sơ đồ trang web khi UA chính xác. Nếu bạn phục vụ một trang 404 chung khác, đối thủ của bạn thậm chí có thể không biết sơ đồ trang web của bạn tồn tại.
Tuy nhiên, tất cả các biện pháp được mô tả cho đến thời điểm này chỉ đơn thuần là bảo mật thông qua che khuất. Một tác nhân người dùng có thể dễ dàng bị giả mạo.
Do đó, Google khuyến nghị rằng, để phát hiện GoogleBot thực, bạn:
googlebot.com.
.Tóm lại:
Microsoft khuyên nên sử dụng quy trình tương tự để phát hiện trình thu thập thông tin của họ.
Thủ thuật này hoạt động cho Yahoo! cũng.
Đối với DuckDuckGo, bạn có thể sử dụng danh sách địa chỉ IP này
Bạn không cần sử dụng lỗi 404 nếu bạn sử dụng tính năng phát hiện nhện dựa trên tra cứu DNS.
Mục đích của việc sử dụng trang lỗi 404 là để che giấu rằng sơ đồ trang web của bạn hoàn toàn tồn tại. Tuy nhiên, nếu bạn đang sử dụng kỹ thuật nâng cao hơn, không chỉ dựa vào User-Agent
tiêu đề, thì không thể phá vỡ nó để bạn có thể sử dụng mã lỗi khác một cách an toàn, chẳng hạn như 403 Forbidden
mã lỗi chính xác để sử dụng ở đây.
Vấn đề là nếu bạn (hoàn toàn đúng) muốn nội dung của bạn được lập chỉ mục bởi các công cụ tìm kiếm, bất kỳ ai thực hiện trang web: tìm kiếm trong một trong các công cụ tìm kiếm sẽ có thể xem URL nào được lập chỉ mục.
Nếu bạn muốn "ẩn" sơ đồ trang web của mình, bạn có thể đặt nó trên một URL có tên "bí mật" để mọi người có thể tìm kiếm nó, nhưng xem như là cách tốt nhất để đưa sơ đồ trang web vào robot.txt gửi và tải nó lên một trong các hồ sơ công cụ quản trị trang web của công cụ tìm kiếm, như những người khác đã nói, thật khó để biết lý do tại sao bạn cần phải làm điều này.
Giải pháp xảo quyệt là tạo ra hai sơ đồ trang web. Thứ nhất là vì lợi ích của đối thủ, thứ hai là vì lợi ích của các công cụ tìm kiếm ưa thích của bạn. Theo cách nói của quân đội, sơ đồ trang web đầu tiên này là một điểm yếu.
'Điểm yếu' chứa cấu trúc trang web cơ bản của bạn, trang chủ, liên hệ với chúng tôi, về chúng tôi, các danh mục chính. Nó trông giống như thỏa thuận thực sự và sẽ hoạt động tốt trong các công cụ tìm kiếm tối nghĩa mà bạn không quan tâm. Nó cũng sẽ không có ích cho đối thủ cạnh tranh của bạn. Cho phép nó được lập chỉ mục để họ tìm thấy nó, đặt cho nó một cái tên rõ ràng như sitemap.xml.
Bây giờ tạo sơ đồ trang web thực sự của bạn với mã. Đặt tên cho nó như 'sản phẩm-thông tin-sitemap.xml' để nó là một tên hợp lý nhưng thực tế không dễ đoán hơn mật khẩu của bạn.
Trong cấu hình apache của bạn cho thư mục sơ đồ trang web, hãy đặt một cái gì đó để sơ đồ trang web thứ hai này có thể được truy cập bởi các công cụ tìm kiếm nhưng không được lập chỉ mục:
<IfModule mod_rewrite.c>
<Files product-information-sitemap.xml>
Header set X-Robots-Tag "noindex"
</Files>
</IfModule>
Bây giờ tạo mã để cập nhật, xem xét sơ đồ trang web thứ ba cho hình ảnh. Hạ cấp nó theo yêu cầu để tạo ra 'điểm yếu'. Cũng chú ý đến tem thời gian, Google cũng chú ý đến những dấu ấn đó và điều này rất quan trọng nếu sơ đồ trang web của bạn là một cái lớn.
Bây giờ, hãy tạo một công việc 'cron' để gửi sơ đồ trang web sản phẩm của bạn tới Google một cách thường xuyên. Trong mục crontab của bạn, hãy thêm một cái gì đó như thế này để gửi sơ đồ trang web thực sự của bạn mỗi tuần:
0 0 * * 0 wget www.google.com/webmasters/tools/ping?sitemap=http%3A%2F%2Fwww.example.com%2Fsitemaps%2Fproduct-information-sitemap.xml
Lưu ý rằng URL là URL được mã hóa.
Bạn cũng có thể gzip sơ đồ trang web của mình nếu kích thước là một vấn đề mặc dù máy chủ web của bạn sẽ phục vụ được nén đó nếu bạn đã bật.
Robot.txt của bạn không phải là điều gì đặc biệt, chỉ cần nó không xuất hiện trong sơ đồ trang web của bạn thì mọi chuyện sẽ ổn. Thực sự không cần phải gửi các tệp robot.txt khác nhau dựa trên các chuỗi tác nhân người dùng hoặc bất cứ điều gì quá phức tạp. Chỉ cần lấy nội dung quý giá của bạn vào một tệp bổ sung, không được quảng cáo và gửi nó cho Google trong một công việc định kỳ (thay vì chờ bot). Đơn giản.
Tôi không thấy lý do tại sao cấu trúc của một trang web có thể gây ra sự cố cho bạn với đối thủ cạnh tranh?
Điểm của sơ đồ trang web là để các trang được lập chỉ mục, vì vậy mọi người có thể tìm thấy chúng dễ dàng hơn, đến một điểm, phải tiết lộ cách trang web của bạn được tổ chức như:
/news/
chứa các bài báo của bạn/forum/
là nơi tất cả các cuộc thảo luận diễn đànNhững người sẽ được lập chỉ mục, để có được lưu lượng truy cập nhiều hơn và trình bày thông tin.
Các thư mục mà bạn không muốn có chỉ mục giống như
Sau đó, nếu đó là trường hợp, thì những cái đó không nên có trong sơ đồ trang web của bạn. Ngoài ra, bạn cũng có thể loại trừ những người khỏi việc lập chỉ mục.
Nếu bạn có IPaddresses của các bot bạn muốn cho phép:
<Limit GET POST PUT>
order deny,allow
deny from all
allow from 192.168.1.1 # IP 1
allow from 192.168.1.2 # IP 3
allow from 192.168.1.3 # IP 2
</LIMIT>
Nếu bạn muốn nó dựa trên chuỗi tác nhân người dùng:
Order Allow,Deny
allow from env=good_bot_1
allow from env=good_bot_2
Một cách bạn có thể thử: Trong phiên thu thập thông tin thông thường, các bot của Google truy cập tệp robots.txt và sau đó chuyển đến tệp sơ đồ trang web. Nhấn vào một cookie cho tất cả các phần của tệp robots.txt và chỉ cho phép truy cập vào sơ đồ trang web cho những người có cookie. Sẽ có vấn đề khi các bot của Google không chấp nhận cookie. Vì vậy, làm ngược lại. Nhấn vào cookie khi người dùng truy cập một trang khác ngoài tệp robots.txt và từ chối quyền truy cập vào sơ đồ trang web cho những người có cookie. Ngoài ra, đặt tên xáo trộn cho sơ đồ trang web của bạn, một cái gì đó thay đổi theo thời gian và làm cho nó không thể đoán được. Nếu đối thủ của bạn có cookie được kích hoạt trong trình duyệt của họ, họ sẽ cực kỳ khó truy cập vào sơ đồ trang web trừ khi họ đi theo con đường chính xác mà công cụ tìm kiếm đang theo.
Tôi đưa ra một giả định rằng tôi hiểu chính xác yêu cầu của bạn để tôi thể hiện sự can đảm để trả lời.
cung cấp một liên kết hình ảnh đến sơ đồ trang web của bạn ngay trước </html>
thẻ của bạn . Sử dụng tệp gif 1px trong suốt:
<a href="sitemap.xml"><img src="transparent.gif" alt="" height="1" width="1" /></a>
Trong trang có liên kết của sơ đồ trang web của bạn, hãy đặt thẻ meta liên quan của bạn:
<meta name="robots" content="{index or noindex},follow">
kiểm tra trạng thái trực quan khi bạn nhấn Ctrl+ Ađể chọn tất cả trang. Liên kết 1px có hiển thị, có rủi ro cho bạn không?
Nếu bạn nói có, có thể là một lựa chọn khác là:
<a href="sitemap.xml"> </a>
Bằng cách này, một người dùng bình thường không chú ý sẽ không nhận thấy liên kết của bạn. Công cụ tìm kiếm sẽ nhận thức được nó. Nhưng xin lưu ý rằng bản chất vốn có của câu hỏi của bạn liên quan đến việc không thể thực hiện được.
Tôi nói không thể bởi vì nếu một người dùng tìm kiếm trong Google chẳng hạn với các điều khoản này
* site:www.yoursite.com
cả thế giới có thể thấy tất cả các liên kết của bạn nếu họ không cảm thấy mệt mỏi khi nhấp vào next
liên kết.
Tôi hy vọng những điều này sẽ giúp.