Cách ẩn Sơ đồ trang web XML của tôi khỏi các đối thủ cạnh tranh nhưng không phải từ các công cụ tìm kiếm


10

Tôi muốn ẩn tệp XML sơ đồ trang web của mình khỏi tất cả nhưng cho phép truy cập từ các công cụ tìm kiếm.

Cách để làm điều đó là gì?

Tôi muốn che giấu độ sâu của nội dung trang web khỏi các đối thủ cạnh tranh.


1
Nếu trang web và các trang của nó không được bảo vệ bằng người dùng và mật khẩu, bất kỳ cơ quan nào cũng có thể duyệt chúng, họ chỉ cần theo liên kết trên trang web của riêng bạn.
PatomaS

Tôi có thể kiểm tra IP của Google bot và cho phép và từ chối cho người khác. Mặc dù chúng tôi không thể có được danh sách IP đầy đủ của Googlebot.
AgA

Câu trả lời:


8

Bước đầu tiên sẽ là phát hiện Tác nhân người dùng của các bot bạn muốn cho phép và cung cấp một tệp khác nếu đó không phải là Tác nhân người dùng mà bạn muốn cho phép.

Ví dụ: bạn có thể có hai phiên bản robots.txt, một có và một không có tham chiếu đến sơ đồ trang web, vì vậy các đối thủ cạnh tranh của bạn sẽ không tìm thấy sơ đồ trang web nếu họ nhìn vào bên trong bạn robots.txt.

Sau đó, bạn có thể phát hiện các lượt truy cập vào URL sơ đồ trang web của mình và chỉ phục vụ sơ đồ trang web khi UA chính xác. Nếu bạn phục vụ một trang 404 chung khác, đối thủ của bạn thậm chí có thể không biết sơ đồ trang web của bạn tồn tại.

Tuy nhiên, tất cả các biện pháp được mô tả cho đến thời điểm này chỉ đơn thuần là bảo mật thông qua che khuất. Một tác nhân người dùng có thể dễ dàng bị giả mạo.

Do đó, Google khuyến nghị rằng, để phát hiện GoogleBot thực, bạn:

  1. Thực hiện tra cứu DNS ngược cho địa chỉ IP tự xưng là GoogleBot.
  2. Kiểm tra xem máy chủ là tên miền phụ của googlebot.com..
  3. Thực hiện tra cứu DNS bình thường cho tên miền phụ.
  4. Kiểm tra xem tên miền phụ trỏ đến địa chỉ IP của bot thu thập dữ liệu trang web của bạn.

Tóm lại:

Biểu đồ luồng (khi hiển thị sơ đồ trang web)

Microsoft khuyên nên sử dụng quy trình tương tự để phát hiện trình thu thập thông tin của họ.

Thủ thuật này hoạt động cho Yahoo! cũng.

Đối với DuckDuckGo, bạn có thể sử dụng danh sách địa chỉ IP này

Ghi chú

Bạn không cần sử dụng lỗi 404 nếu bạn sử dụng tính năng phát hiện nhện dựa trên tra cứu DNS.

Mục đích của việc sử dụng trang lỗi 404 là để che giấu rằng sơ đồ trang web của bạn hoàn toàn tồn tại. Tuy nhiên, nếu bạn đang sử dụng kỹ thuật nâng cao hơn, không chỉ dựa vào User-Agenttiêu đề, thì không thể phá vỡ nó để bạn có thể sử dụng mã lỗi khác một cách an toàn, chẳng hạn như 403 Forbiddenmã lỗi chính xác để sử dụng ở đây.


6

Vấn đề là nếu bạn (hoàn toàn đúng) muốn nội dung của bạn được lập chỉ mục bởi các công cụ tìm kiếm, bất kỳ ai thực hiện trang web: tìm kiếm trong một trong các công cụ tìm kiếm sẽ có thể xem URL nào được lập chỉ mục.

Nếu bạn muốn "ẩn" sơ đồ trang web của mình, bạn có thể đặt nó trên một URL có tên "bí mật" để mọi người có thể tìm kiếm nó, nhưng xem như là cách tốt nhất để đưa sơ đồ trang web vào robot.txt gửi và tải nó lên một trong các hồ sơ công cụ quản trị trang web của công cụ tìm kiếm, như những người khác đã nói, thật khó để biết lý do tại sao bạn cần phải làm điều này.


Trong trường hợp Google Webmaster Tools / Search Console, bạn thậm chí không cần phải tải nó lên. Bạn chỉ có thể thêm một url sơ đồ trang web ẩn một lần và nó sẽ tiếp tục sử dụng nó.
Devabc

4

Giải pháp xảo quyệt là tạo ra hai sơ đồ trang web. Thứ nhất là vì lợi ích của đối thủ, thứ hai là vì lợi ích của các công cụ tìm kiếm ưa thích của bạn. Theo cách nói của quân đội, sơ đồ trang web đầu tiên này là một điểm yếu.

'Điểm yếu' chứa cấu trúc trang web cơ bản của bạn, trang chủ, liên hệ với chúng tôi, về chúng tôi, các danh mục chính. Nó trông giống như thỏa thuận thực sự và sẽ hoạt động tốt trong các công cụ tìm kiếm tối nghĩa mà bạn không quan tâm. Nó cũng sẽ không có ích cho đối thủ cạnh tranh của bạn. Cho phép nó được lập chỉ mục để họ tìm thấy nó, đặt cho nó một cái tên rõ ràng như sitemap.xml.

Bây giờ tạo sơ đồ trang web thực sự của bạn với mã. Đặt tên cho nó như 'sản phẩm-thông tin-sitemap.xml' để nó là một tên hợp lý nhưng thực tế không dễ đoán hơn mật khẩu của bạn.

Trong cấu hình apache của bạn cho thư mục sơ đồ trang web, hãy đặt một cái gì đó để sơ đồ trang web thứ hai này có thể được truy cập bởi các công cụ tìm kiếm nhưng không được lập chỉ mục:

<IfModule mod_rewrite.c>
    <Files product-information-sitemap.xml>
        Header set X-Robots-Tag "noindex"
    </Files>
</IfModule>

Bây giờ tạo mã để cập nhật, xem xét sơ đồ trang web thứ ba cho hình ảnh. Hạ cấp nó theo yêu cầu để tạo ra 'điểm yếu'. Cũng chú ý đến tem thời gian, Google cũng chú ý đến những dấu ấn đó và điều này rất quan trọng nếu sơ đồ trang web của bạn là một cái lớn.

Bây giờ, hãy tạo một công việc 'cron' để gửi sơ đồ trang web sản phẩm của bạn tới Google một cách thường xuyên. Trong mục crontab của bạn, hãy thêm một cái gì đó như thế này để gửi sơ đồ trang web thực sự của bạn mỗi tuần:

0 0 * * 0 wget www.google.com/webmasters/tools/ping?sitemap=http%3A%2F%2Fwww.example.com%2Fsitemaps%2Fproduct-information-sitemap.xml

Lưu ý rằng URL là URL được mã hóa.

Bạn cũng có thể gzip sơ đồ trang web của mình nếu kích thước là một vấn đề mặc dù máy chủ web của bạn sẽ phục vụ được nén đó nếu bạn đã bật.

Robot.txt của bạn không phải là điều gì đặc biệt, chỉ cần nó không xuất hiện trong sơ đồ trang web của bạn thì mọi chuyện sẽ ổn. Thực sự không cần phải gửi các tệp robot.txt khác nhau dựa trên các chuỗi tác nhân người dùng hoặc bất cứ điều gì quá phức tạp. Chỉ cần lấy nội dung quý giá của bạn vào một tệp bổ sung, không được quảng cáo và gửi nó cho Google trong một công việc định kỳ (thay vì chờ bot). Đơn giản.


0

Tôi không thấy lý do tại sao cấu trúc của một trang web có thể gây ra sự cố cho bạn với đối thủ cạnh tranh?

Điểm của sơ đồ trang web là để các trang được lập chỉ mục, vì vậy mọi người có thể tìm thấy chúng dễ dàng hơn, đến một điểm, phải tiết lộ cách trang web của bạn được tổ chức như:

  • /news/ chứa các bài báo của bạn
  • /forum/ là nơi tất cả các cuộc thảo luận diễn đàn

Những người sẽ được lập chỉ mục, để có được lưu lượng truy cập nhiều hơn và trình bày thông tin.

Các thư mục mà bạn không muốn có chỉ mục giống như

  • Các lớp và hàm PHP cho phép một trang web hoạt động
  • Hình ảnh trang web, CSS, thư mục JavaScript
  • Ban quản trị

Sau đó, nếu đó là trường hợp, thì những cái đó không nên có trong sơ đồ trang web của bạn. Ngoài ra, bạn cũng có thể loại trừ những người khỏi việc lập chỉ mục.


0

Nếu bạn có IPaddresses của các bot bạn muốn cho phép:

<Limit GET POST PUT>
order deny,allow
deny from all
allow from 192.168.1.1 # IP 1
allow from 192.168.1.2 # IP 3
allow from 192.168.1.3 # IP 2
</LIMIT>

Nếu bạn muốn nó dựa trên chuỗi tác nhân người dùng:

Order Allow,Deny
allow from env=good_bot_1
allow from env=good_bot_2

Danh sách địa chỉ IP đầy đủ của Google, Bing là bí mật. Họ sẽ không tiết lộ điều này với thế giới vì nó có nguy cơ lớn bị che giấu bởi các trang web.
AgA

Và đó là lý do tại sao tôi đã thêm khả năng thứ 2 :) Tên dễ hơn rất nhiều, nhưng muốn cung cấp câu trả lời hoàn chỉnh
Martijn

0

Một cách bạn có thể thử: Trong phiên thu thập thông tin thông thường, các bot của Google truy cập tệp robots.txt và sau đó chuyển đến tệp sơ đồ trang web. Nhấn vào một cookie cho tất cả các phần của tệp robots.txt và chỉ cho phép truy cập vào sơ đồ trang web cho những người có cookie. Sẽ có vấn đề khi các bot của Google không chấp nhận cookie. Vì vậy, làm ngược lại. Nhấn vào cookie khi người dùng truy cập một trang khác ngoài tệp robots.txt và từ chối quyền truy cập vào sơ đồ trang web cho những người có cookie. Ngoài ra, đặt tên xáo trộn cho sơ đồ trang web của bạn, một cái gì đó thay đổi theo thời gian và làm cho nó không thể đoán được. Nếu đối thủ của bạn có cookie được kích hoạt trong trình duyệt của họ, họ sẽ cực kỳ khó truy cập vào sơ đồ trang web trừ khi họ đi theo con đường chính xác mà công cụ tìm kiếm đang theo.


0

Tôi đưa ra một giả định rằng tôi hiểu chính xác yêu cầu của bạn để tôi thể hiện sự can đảm để trả lời.

cung cấp một liên kết hình ảnh đến sơ đồ trang web của bạn ngay trước </html>thẻ của bạn . Sử dụng tệp gif 1px trong suốt:

<a href="sitemap.xml"><img src="transparent.gif" alt="" height="1" width="1" /></a>

Trong trang có liên kết của sơ đồ trang web của bạn, hãy đặt thẻ meta liên quan của bạn:

<meta name="robots" content="{index or noindex},follow">

kiểm tra trạng thái trực quan khi bạn nhấn Ctrl+ Ađể chọn tất cả trang. Liên kết 1px có hiển thị, có rủi ro cho bạn không?

Nếu bạn nói có, có thể là một lựa chọn khác là:

  1. tạo một liên kết đến sơ đồ trang web của bạn: <a href="sitemap.xml">&nbsp;</a>
  2. thay đổi màu chữ giống với màu nền
  3. Sử dụng các kỹ thuật CSS, ẩn liên kết này đằng sau một hình ảnh

Bằng cách này, một người dùng bình thường không chú ý sẽ không nhận thấy liên kết của bạn. Công cụ tìm kiếm sẽ nhận thức được nó. Nhưng xin lưu ý rằng bản chất vốn có của câu hỏi của bạn liên quan đến việc không thể thực hiện được.

Tôi nói không thể bởi vì nếu một người dùng tìm kiếm trong Google chẳng hạn với các điều khoản này

* site:www.yoursite.com

cả thế giới có thể thấy tất cả các liên kết của bạn nếu họ không cảm thấy mệt mỏi khi nhấp vào nextliên kết.

Tôi hy vọng những điều này sẽ giúp.


Tại sao điều này sẽ ngăn người dùng tìm / truy cập sơ đồ trang web XML khi bạn thường không liên kết với sơ đồ trang XML của mình?
MrWhite

Tôi đã hỏi Q tương tự với bản thân mình nhưng đó là những gì tôi đánh giá thấp từ chủ sở hữu câu hỏi. Tôi nghĩ rằng đây là yêu cầu của anh ấy bằng cách nào đó. Tôi không chắc chắn :-)
Andre Chenier
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.