Sẽ cấm các bot làm cho một trang web khó tìm thấy hơn trên các công cụ tìm kiếm?

7

Tôi đang chạy Apache 2 và một phần lớn lượt xem trang của chúng tôi đến từ bot. Hầu hết trong số đó là những người hợp pháp như Google và Bing.

Tôi muốn phân tích nhật ký và nhận số liệu thống kê chính xác về số lượng khách truy cập của con người, vì vậy tôi đã tạm thời cập nhật robot.txt để cấm bot trên tất cả các trang. Tôi biết điều này chỉ hiệu quả một phần trong việc ngăn chặn truy cập bot, nhưng tôi ổn với điều đó.

Làm thế nào sẽ không cho phép bot ảnh hưởng đến người dùng tìm kiếm trang web này? Nó sẽ ngăn người dùng tìm thấy trang trên Google?

web-crawlers robots.txt

— Kéo căng
nguồn

17

Nếu bạn muốn "phân tích các bản ghi để tôi nhận được ít chỉ số từ các bot", thì hãy làm chính xác và phân tích các bản ghi. (?!)

— MrWhite

5

Theo những gì w3d đã nói, tất cả các bot công cụ tìm kiếm chính sẽ xác định rõ ràng với tiêu đề Tác nhân Người dùng.

— Brendan Long

2

Nếu bạn bảo Google biến mất trong tệp robots.txt, họ sẽ thông báo cho bạn rằng bạn không muốn được lập chỉ mục và thứ hạng của bạn sẽ biến mất. Lấy lại thứ hạng của bạn có thể mất một thời gian sau khi kéo một pha nguy hiểm như vậy.

— Phòng thí nghiệm Fiasco

13

Cấm bot sẽ không cho phép bất kỳ công cụ tìm kiếm nào có được nội dung của trang web.

Cuối cùng, bạn sẽ không xếp hạng cho bất kỳ từ khóa. Sẽ không thể tìm thấy trang của bạn trên Google. Bạn có thể nhận được lưu lượng truy cập giới thiệu nhưng không có lưu lượng truy cập không phải trả tiền.

Lưu ý: Robots.txt không cấm bot nhưng yêu cầu chúng không lập chỉ mục và thu thập dữ liệu trang web. Những bot công cụ tìm kiếm lớn như Google, Yahoo và Bing theo dõi.

— Sidh
nguồn

Đó là những gì tôi đã tìm ra.

— Hàng chục

12

Bạn có thể vui lòng cập nhật câu trả lời của mình để giải thích rằng robot.txt không "cấm bot" không. Nó lịch sự yêu cầu các bot không thu thập dữ liệu trang web và cho các công cụ tìm kiếm không lập chỉ mục cho nó. Hoàn toàn không có gì ngăn cản ai đó thu thập dữ liệu trang web của bạn.

— ErlVolton

1

Để thêm vào những gì @ErlVolton nói. Các bot độc hại mà bạn có lẽ muốn cấm sẽ không chú ý đến "cấm" robot của bạn trên bot. Vì vậy, ảnh hưởng duy nhất của lệnh cấm này sẽ là làm tổn thương SEO của bạn.

— Dennis

@ErlVolton +1 cho "lịch sự hỏi bot"

— 吖奇 ArchVlog -

Tôi nghĩ thuật ngữ kỹ thuật là "Không cho phép" mà IMO vẫn không phải là một đại diện rất tốt cho những gì đang xảy ra. Có thể "RequestNoCrawl" hoặc thứ gì đó sẽ tốt hơn :)

— ErlVolton

21

Cấm bot là một hoạt động không có kết quả. Các bot duy nhất sẽ tuân theo robot.txt là các bot hữu ích như Googlebot và Bingbot. Các bot độc hại hoặc các bot dịch vụ tìm kiếm ít cẩn thận hơn sẽ bỏ qua các tệp robots.txt của bạn.

Cấm bot chỉ là một cách chắc chắn để mất tất cả thứ hạng trang với các nhà cung cấp dịch vụ tìm kiếm lớn VÀ nhật ký của bạn sẽ vẫn đầy lưu lượng bot.

— Chris Marisic
nguồn

6

+1 và nhật ký của bạn sẽ vẫn đầy lưu lượng bot. Chỉ từ chối cụ thể trong .htaccess sẽ loại bỏ chúng và bạn vẫn nhận được 403 cho mỗi liên kết mà chúng biết về tham chiếu bên ngoài, chúng chỉ không thể hút vào một trang và bắt đầu thu thập thông tin. Danh sách này có thể sẽ rất dài ...

— Phòng thí nghiệm Fiasco

1

+1 đây là câu trả lời. Không có bot dừng, đặc biệt là bot độc hại.

— Qix - MONICA ĐƯỢC PHÂN PHỐI

2

@Qix Tôi đã thấy một vài trang web ban hành lệnh cấm IP đối với bất kỳ ai truy cập một URL cụ thể (cả hai đều bị cấm trong tệp robots.txt và được dán nhãn rõ ràng "không nhấp vào liên kết này nếu không bạn sẽ bị cấm" đối với con người) - đó là một cách khá hiệu quả để nhắm mục tiêu các trình thu thập thông tin vô đạo đức. Cấp, nó không làm gì nhiều đối với một bot được thiết kế đặc biệt để nhắm mục tiêu trang web của bạn.

— Brilliand

1

@ChrisMarisicand clearly labeled with "don't click this link or you will get banned" for humans

— Qix - MONICA ĐƯỢC PHÂN PHỐI

2

@Brilliand Nghe giống như một cách thú vị để cấm người dùng khác thông qua CSRF.

— CodeInChaos

3

Google vẫn có thể thu thập dữ liệu các trang bị bỏ qua bởi robot.txt và thậm chí có thể liệt kê chúng xem Chặn URL bằng robot.txt và Google có bỏ qua robot.txt không

— Andrew Kelly
nguồn

"Google vẫn có thể thu thập dữ liệu các trang bị bỏ qua bởi robot.txt" - Bởi "bị bỏ qua", bạn có nghĩa là các URL không bị chặn bởi robot.txt?

— MrWhite

1

Câu đó trong câu trả lời "Google có bỏ qua robot.txt không" cũng sai . Google có thể lập chỉ mục các trang được liên kết bởi robot.txt ngay cả khi chúng không được phép trong tệp robots.txt, nhưng nó sẽ không thu thập dữ liệu chúng.

— Stephen Ostermiller

3

Nó có thể làm cho trang web của bạn rất khó hoặc không thể tìm thấy trong các công cụ tìm kiếm, vì các công cụ tìm kiếm sẽ không gửi robot của họ để xem những gì trên trang web của bạn. Họ sẽ không biết những từ bạn sử dụng vì vậy họ sẽ khó có thể nói những tìm kiếm nào mà trang web của bạn có thể có liên quan.

Tuy nhiên, có thể trang web của bạn vẫn sẽ được hiển thị trong kết quả tìm kiếm, đặc biệt nếu một trang web xếp hạng cao có liên kết đến trang web của bạn. Google và có thể các công cụ khác có thể sử dụng thông tin từ liên kết một mình để quyết định hiển thị trang web của bạn trong các trang kết quả của họ.

— bds
nguồn

Đây là thông tin hoàn hảo. Trang này thực sự là một tên miền phụ của trang chính của chúng tôi, nơi tôi thích thứ hạng công cụ tìm kiếm đến từ. Vì vậy, biết rằng trang chính của chúng tôi sẽ có được thứ hạng trang là hoàn hảo. Cảm ơn!

— Hàng chục

1

Dữ liệu từ nhật ký máy chủ bị hạn chế và chắc chắn sẽ có độ nhiễu tín hiệu cao, nhờ các yếu tố như bot, bộ nhớ đệm, CDN.
Phân tích lượt xem trang là một nhiệm vụ cho phân tích dựa trên thẻ trang.

— Adria
nguồn

0

Câu trả lời đúng là không gây rối với robot.txt và thay vào đó phân tích nhật ký của bạn, xem tiêu đề Tác nhân người dùng như được đề cập trong các nhận xét. Google, Yahoo, v.v. nên tự nhận mình là bot sử dụng tiêu đề này và không cho phép bot thông qua robot.txt sẽ giống như lái một chiếc xe tải thông qua xếp hạng công cụ tìm kiếm của bạn. Như @adria đã nói, có những công cụ có thể làm điều này cho bạn. Một thứ rất phổ biến là Google Analytics , đây là cách họ xử lý lưu lượng trình thu thập thông tin .

— ErlVolton
nguồn

0

Vì ý định đã nêu của bạn là

có được số liệu thống kê chính xác về số lượng khách truy cập của tôi,

Giải pháp ứng dụng là sử dụng một dịch vụ như Google Analytics hoặc New Relic , sau khi đăng ký, bạn chèn một đoạn javascript vào trang của bạn (nhiều công cụ như wordpress có thể tự động làm điều này hoặc với một plugin) để gửi thông tin đến dịch vụ giám sát . Sau khi thiết lập một dịch vụ như vậy sẽ cung cấp rất nhiều thông tin về khách truy cập của bạn. Google Analytics khá tuyệt vời về chi tiết mà nó theo dõi các tương tác của người dùng với trang web của bạn.

Các dịch vụ này được triển khai theo cách chỉ theo dõi người thật và sẽ rất điên rồ khi thử và thực hiện lại những gì họ đã làm rất tốt, và chúng rất hữu ích khi không sử dụng dịch vụ như vậy.

— Blake Walsh
nguồn