Google Preview có tuân theo Robots.txt không?


11

Bởi vì nó chắc chắn trông giống như nó. Đối với các trang web của tôi, chúng tôi không cho phép thư mục hình ảnh và các bản xem trước đều là những hình ảnh bị thiếu khiến trang web trông rất hấp dẫn.

Đây có phải là trường hợp và có cách nào chỉ cho phép bot xem trước truy cập hình ảnh bằng robot.txt không?

EDIT: Có vẻ như các bản xem trước được tạo bởi cả Google Bot bình thường và bởi một bot trên Google Web Preview như được đề cập (một cách ngắn gọn) trên Blog của Trung tâm quản trị trang web .

Bằng cách sử dụng một trang web: tìm kiếm và phần mềm giám sát của tôi, tôi có thể thấy khi bot tấn công trang web của tôi và khi điều này xảy ra, hình ảnh hiển thị rất tốt trong bản xem trước. Vì vậy, dự đoán của tôi là trình thu thập thông tin bình thường bỏ qua các hình ảnh trên robot.txt, nhưng trình thu thập thông tin xem trước vẫn nhận được các hình ảnh.

Việc triển khai này có vẻ khó khăn vì các lựa chọn của tôi dường như là:

  1. cho phép google bot thu thập hình ảnh của tôi (điều mà tôi không muốn làm)
  2. sử dụng thẻ nosnippet để chặn phần xem trước, nhưng CSONG đoạn trích (điều mà tôi không muốn làm)
  3. Hãy để các bản xem trước hấp dẫn xuất hiện có thể ảnh hưởng xấu đến các lần nhấp qua

Nếu đó chỉ là vấn đề không có hình ảnh được lập chỉ mục, bạn có thể cho phép thu thập thông tin nhưng phục vụ hình ảnh với tiêu đề HTTP thẻ x-robot với "noindex".
John Mueller

@John Mueller Đây có vẻ như đó là câu trả lời. Tại sao không đăng nó trong phần trả lời?
plntxt

Câu trả lời:


3

Tôi nghĩ rằng John Mueller đã có nó ngay trong các ý kiến.

Nếu đó chỉ là vấn đề không có hình ảnh được lập chỉ mục, bạn có thể cho phép thu thập thông tin nhưng phục vụ hình ảnh với tiêu đề HTTP thẻ x-robot với "noindex"

Tôi không biết rằng bạn có thể cho phép Google thu thập dữ liệu nội dung mà không lập chỉ mục nội dung đó. Tôi đặt kỹ thuật của anh ta vào vị trí và chỉ chờ để được thu thập thông tin để xem nó có hoạt động không.

Tôi sẽ chấp nhận đây là câu trả lời trong một vài ngày trừ khi John muốn thêm ý kiến ​​của mình vào phần câu trả lời để anh ấy có thể kiếm được đại diện.


Xin lỗi về câu trả lời bình luận :). Một điều cần lưu ý là quá trình này không thực sự nhanh chóng vào lúc này. Việc thay đổi trạng thái lập chỉ mục của hình ảnh thường chậm hơn so với tìm kiếm trên web và việc cập nhật hình ảnh xem trước cũng có thể mất nhiều thời gian hơn so với việc cập nhật nội dung tìm kiếm web thông thường (trang được lưu trong bộ nhớ cache, tiêu đề, đoạn trích). Trong thực tế, tôi tưởng tượng đây là thứ sẽ mất theo thứ tự tuần để bạn thấy bất kỳ thay đổi nào - vì vậy hãy kiên nhẫn :).
John Mueller

Kiên nhẫn là chìa khóa. Vài tuần sau khi thay đổi, một số hình ảnh hiện có thể nhìn thấy, trong khi vẫn còn thiếu. Nhưng điều này dường như đã là giải pháp cho vấn đề của tôi.
plntxt

2

Vì phần lớn phần xem trước được thực hiện bởi trình thu thập thông tin bot của Google, việc chặn thu thập thông tin của một số phần trên trang web của bạn sẽ ảnh hưởng đến phần xem trước ...

Tại sao bạn không muốn cho phép Google bot thu thập hình ảnh của mình?


2
Chúng tôi dành thời gian và tiền bạc đáng kể để đầu tư vào chụp ảnh sản phẩm và chúng tôi muốn tránh hình ảnh của mình khỏi tìm kiếm hình ảnh vì những người sử dụng tìm kiếm hình ảnh thường tìm kiếm hình ảnh và không muốn mua sản phẩm. Nếu hình ảnh của chúng tôi nằm trong chỉ mục, nó sẽ giúp các đối thủ dễ dàng đánh cắp chúng hơn.
plntxt

1
Bạn có thể thử để watermark hình ảnh của bạn và / hoặc steganography một bản quyền bên trong và / hoặc hiển thị bộ lọc bằng cách giới thiệu ...
Pascal Qyy

1
@G. Qyy Hoặc tôi có thể trả vô số khỉ để quét web để tìm hình ảnh có bản quyền.
plntxt

@Jim: Hoặc bạn có thể giữ những bức ảnh quý giá của bạn trên giấy tờ, và không bao giờ, không bao giờ đưa chúng lên internet ... ^^
Pascal Qyy

1
Điểm hay - không gì có thể bảo vệ hoàn toàn ảnh của bạn nhưng tôi thực sự không muốn có chúng trong chỉ mục của Google. Tôi không phải là một fan hâm mộ của watermarking, và cách hiệu quả nhất để giảm hình ảnh của chúng tôi ở nơi khác là để chúng ra khỏi chỉ số.
plntxt

2

Sau đây là một giải pháp kỹ thuật có thể hoặc không thể đơn giản áp dụng cho trang web của bạn.

Có thể (thậm chí có khả năng) Google sẽ đưa ra một cách để làm điều này chỉ với một vài gợi ý về dữ liệu meta hoặc robot.txt, nhưng cho đến lúc đó ....


Bước 1.

Tạo một dịch vụ chuyển hướng / servlet cho hình ảnh trang trước.

Tức là một URL như

/frontpageimages/[image name]

phía máy chủ chuyển hướng đến

/images/[image name]

Bước 2.

Có tất cả các liên kết hình ảnh trên trang trước của bạn (và chỉ trang trước) được viết lại để đi qua dịch vụ chuyển hướng từ bước 1 thay vì liên kết trực tiếp đến hình ảnh.

Bước 3.

Đảm bảo rằng robot.txt cho phép googlebot thu thập dữ liệu /frontpageimages/


Điều này sẽ đảm bảo rằng Google có thể thu thập dữ liệu bất kỳ hình ảnh nào mà nó gặp trên trang trước của bạn trong khi để lại bất kỳ hình ảnh nào trên các trang khác.

Mặc dù dịch vụ chuyển hướng có thể (về lý thuyết) có thể được sử dụng để thu thập dữ liệu tất cả các hình ảnh của bạn mà không vi phạm kỹ thuật robot.txt của bạn, nhưng đó không phải là điều mà các robot hoạt động tốt (như googlebot) sẽ làm. Và robot hành xử xấu sẽ không lo lắng về robot.txt.


Ai chỉ muốn trang nhất của họ hiển thị một bản xem trước? Tôi biết tôi muốn mỗi trang sẽ được hiển thị một bản xem trước tốt. Nếu bạn làm điều này cho mỗi trang, về cơ bản bạn đang phủ nhận mục đích chặn hình ảnh ở vị trí đầu tiên.
John Conde

@ John Bạn nói đúng. Trong trường hợp đó, bạn muốn Google lập chỉ mục cho bạn hoặc bạn không.
Kris
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.