Cách xác định xem địa chỉ IP có thực sự là IP của google không


7

Từ những gì tôi học được trong nhật ký máy chủ của mình, địa chỉ IP bắt đầu bằng 64.249 thuộc về google. Khi tôi thực hiện tra cứu máy chủ trên máy tính của mình cho google, tôi nhận được 11 địa chỉ IP khác nhau bắt đầu từ 74.125.226.

Sau đó tôi vào đây http://www.iplists.com/ và tìm hiểu thêm một loạt địa chỉ IP cho google.

Tôi thậm chí đã tìm kiếm whois trong một dấu nhắc lệnh cho google và thấy "Hủy bỏ tìm kiếm 50 bản ghi được tìm thấy ....." cùng với một loạt các máy chủ có tên khác thường như GOOGLE.COM.ANGRYPIRATE.COM và GOOGLE.COM. CHÂU PHI.ORG. cùng với các địa chỉ IP khác nhau mà tôi chưa từng thấy trước đây, chẳng hạn như 91.218.229.20.

Những gì tôi muốn làm là danh sách trắng địa chỉ IP thực của google. Tôi có nên đi trước và liệt kê danh sách trắng mỗi địa chỉ IP tôi tìm thấy cho đến nay hoặc có biện pháp phòng ngừa nào khác trước khi tôi liệt kê một địa chỉ google trắng không?

Tôi không muốn dựa vào người khác đang tìm kiếm địa chỉ IP cho tôi, chẳng hạn như nguồn http://www.iplists.com/ vì địa chỉ IP có thể thay đổi bất cứ lúc nào và tôi muốn cập nhật danh sách trắng của mình thường xuyên.


2
Đáng buồn thay, chặn IP bằng cách sử dụng danh sách trắng được thu thập từ chính bạn hoặc bất cứ nơi nào là vô nghĩa. Các bot, phế liệu có hại, v.v., thường xuyên thay đổi IP. Họ mua và bán địa chỉ IP theo khối, như bất kỳ công ty lưu trữ nào khác. Thay vì lãng phí thời gian của bạn, bạn nên sử dụng một thiết lập giúp điều chỉnh người dùng để yêu cầu nhiều thông tin nhanh chóng, giống như cách mà hầu hết các trang web bận rộn hoạt động hiện nay, trên thực tế cũng giống như mạng mà bạn đang sử dụng hiện nay. Bạn cũng có thể thiết lập một danh sách đen chúng trong X giờ nếu chúng lặp lại vi phạm, cho đến nay là phương pháp hiệu quả nhất, không bao giờ bận tâm đến phương pháp an toàn nhất.
Simon Hayter

@SimonHayter Tôi làm điều tương tự. Tôi có một danh sách trắng và một danh sách đen. Danh sách đen gần như trống rỗng. Giữa hai là một danh sách màu xám, nơi tất cả người dùng được theo dõi và xác định là người hoặc bot. Nếu họ là bot, thì tôi sẽ kiểm tra danh sách trắng và nếu họ không có trong danh sách thì họ sẽ nhận được nội dung rác và bản chất truy cập của họ được ghi lại. Mọi người dùng được so sánh với tệp nhật ký ngay lập tức. Bất cứ điều gì trong nhật ký sẽ bị thanh trừng theo thời gian nếu họ không quay lại hoặc bắt đầu cư xử. Điều này đã làm việc khá tốt và tôi có kế hoạch để làm cho hệ thống tốt hơn sớm.
Closnoc

Câu trả lời:


7

Từ các tài liệu chính thức để xác minh Googlebot / Google :

Lưu ý rằng Google không khuyến nghị sử dụng "danh sách trắng" tĩnh .

Bạn có thể xác minh xem trình thu thập dữ liệu web truy cập vào máy chủ của bạn có thực sự là Googlebot (hoặc một tác nhân người dùng khác của Google) không . Điều này hữu ích nếu bạn lo ngại rằng những kẻ gửi thư rác hoặc những kẻ gây rối khác đang truy cập trang web của bạn trong khi tự xưng là Googlebot. Google không đăng một danh sách công khai các địa chỉ IP cho quản trị web lên danh sách trắng. Điều này là do các phạm vi địa chỉ IP này có thể thay đổi, gây ra sự cố cho bất kỳ quản trị web nào đã mã hóa chúng, do đó bạn phải chạy tra cứu DNS như được mô tả tiếp theo.

Để xác minh Googlebot là người gọi:

  1. Chạy tra cứu DNS ngược trên địa chỉ IP truy cập từ nhật ký của bạn, sử dụng lệnh máy chủ.
  2. Xác minh rằng tên miền có trong googlebot.com hoặc google.com.
  3. Chạy tra cứu DNS chuyển tiếp trên tên miền được truy xuất trong bước 1 bằng cách sử dụng lệnh máy chủ trên tên miền đã truy xuất. Xác minh rằng nó giống với địa chỉ IP truy cập ban đầu từ nhật ký của bạn.

(Nhấn mạnh của riêng tôi)

Xem tài liệu Google để biết ví dụ hoạt động:
https://support.google.com/webmasters đá / 80553? Hl = vi


4

Điều đầu tiên đầu tiên.

Có hai tên miền mà chúng ta đang nói đến; Google.com và Googlebot.com. Thực hiện tra cứu ngược lại cho Google.com sẽ gây hiểu nhầm.

Đây là một câu trả lời tôi đã đưa ra cách đây khá lâu, nơi tôi đã thực hiện kiểm toán các địa chỉ IP của Google được sử dụng để thu thập dữ liệu trang web của tôi trong hơn 8 năm. Đây không phải là danh sách tất cả cuối cùng, nhưng có thể đưa ra một cái nhìn lịch sử.

Google sử dụng IP 173.194.90.xxx để làm gì? Tại sao nó không phải là một con trỏ googlebot.com?

Trong danh sách này, bạn có thể thấy dải địa chỉ IP 64.249 bạn đang thấy là chính xác.

Tôi đã làm một cuộc kiểm toán nhanh chóng cho câu trả lời này. Đây là danh sách trắng hiện tại của tôi cho googlebot (tên đại lý). Xin vui lòng tha thứ cho ký tự đại diện. Tôi đã cập nhật mã của mình để hiểu phạm vi hiệu quả hơn, nhưng chưa cập nhật danh sách. Lấy làm tiếc. Trong trường hợp này, tôi chỉ sử dụng một biểu thức chính quy đơn giản để so sánh địa chỉ IP với danh sách với mức tối thiểu để thay thế * bằng một cái gì đó mà regex hiểu. Tôi có thể so sánh một địa chỉ IP với toàn bộ danh sách bằng mã của mình để nó vẫn đủ nhanh.

64.233.160.*
64.233.161.*
64.233.162.*
64.233.163.*
64.233.164.*
64.233.165.*
64.233.166.*
64.233.167.*
64.233.168.*
64.233.169.*
64.233.170.*
64.233.171.*
64.233.172.*
64.233.173.*
64.233.174.*
64.233.175.*
64.233.176.*
64.233.177.*
64.233.178.*
64.233.179.*
64.233.180.*
64.233.181.*
64.233.182.*
64.233.183.*
64.233.184.*
64.233.185.*
64.233.186.*
64.233.187.*
64.233.188.*
64.233.189.*
64.233.190.*
64.233.191.*
66.249.64.*
66.249.65.*
66.249.66.*
66.249.67.*
66.249.68.*
66.249.69.*
66.249.70.*
66.249.71.*
66.249.72.*
66.249.73.*
66.249.74.*
66.249.75.*
66.249.76.*
66.249.77.*
66.249.78.*
66.249.79.*
66.249.80.*
66.249.82.*
66.249.83.*
66.249.84.*
66.249.85.*
66.249.86.*
66.249.87.*
66.249.88.*
66.249.89.*
66.249.90.*
66.249.91.*
66.249.92.*
66.249.93.*
66.249.94.*
66.249.95.*
74.125.*
173.194.*

GOOGLE.COM.ANGRYPIRATE.COM và GOOGLE.COM.AFRICANBATS.ORG là những gì được gọi là hack tên miền hoặc tên miền phụ. Những thứ này hoàn toàn không thuộc về Google. Đây là điều mà bất cứ ai cũng có thể làm với bất kỳ tên miền bất cứ lúc nào. Không cần đi sâu vào chi tiết về cách thực hiện, bạn có thể tìm thông tin trên mạng. Tôi không muốn khuyến khích hành vi này bằng cách giải thích nó ở đây.


Cảm ơn! Bất kỳ cách nào bạn có thể cung cấp danh sách được cập nhật, ngay cả khi không ở định dạng danh sách đẹp (tức là ngay cả khi nó ở chế độ regex)? EDIT: Và bất kỳ bot nào khác ngoài Google cũng vậy, nếu bạn có chúng và không ngại chia sẻ chúng.
Pamela
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.