Làm thế nào để tôi có được một danh sách tất cả các liên kết được lập chỉ mục?


8

Tôi đang tìm cách lấy mọi liên kết mà tôi đã lập chỉ mục bởi Google và xuất chúng sang tệp CSV. Gần đây tôi đã có nhiều trang được Google lập chỉ mục sau đó tôi thực sự có và tôi muốn tìm tất cả các trang này đến từ đâu mà không phải xem từng trang kết quả tìm kiếm.


Bạn đã lấy số lượng trang được lập chỉ mục từ đâu?
MrWhite

Google Webmaster và trang tìm kiếm: domain.com
Lee

2
Điều duy nhất tôi muốn nói là dữ liệu được báo cáo trong Công cụ quản trị trang web (Sức khỏe> ​​Trạng thái chỉ mục> Tổng chỉ mục) sẽ chính xác hơn so với báo cáo của một trang web: tìm kiếm domain.com. Trang web: tìm kiếm luôn trả về con số cao hơn nhiều trong trải nghiệm của tôi, nhưng nếu bạn bước qua SERPs, số lượng kết quả thực tế ít hơn con số "Giới thiệu về kết quả NNNN".
MrWhite

Vâng, trang đó là lý do tại sao tôi quan tâm đến điều này ngay từ đầu. Trong 3 tháng, số lượng trang được lập chỉ mục đã tăng từ 27.000 đến 567.000 và tôi muốn biết tại sao.
Lee

Câu trả lời:


6

Thật không may, không có cách nào để có được một danh sách đầy đủ của mỗi trang được lập chỉ mục trong Google. Ngay cả giải pháp của milo5b cũng sẽ chỉ giúp bạn có tối đa 1.000 URL.

Có vẻ như bạn có một số vấn đề nội dung trùng lặp. Trong Công cụ quản trị trang web, hãy kiểm tra Sức khỏe> ​​Trạng thái chỉ mục và nó sẽ hiển thị cho bạn tổng số trang tích lũy được lập chỉ mục theo thời gian. Nếu biểu đồ tạo ra bước nhảy vọt lớn tại một thời điểm, bạn có thể tìm ra nếu một thay đổi cụ thể trên trang web của bạn kích hoạt bước nhảy.

Bạn cũng có thể thử sử dụng Công cụ quản trị trang web của Bing . Họ có Index Explorer có thể giúp bạn tìm các URL. Nhện công cụ tìm kiếm khá giống nhau nên nếu Google tìm thấy các liên kết đó, Bing có lẽ cũng vậy.

Tôi nghĩ Bing có cách xuất hầu hết dữ liệu của nó nhưng tôi không thể tìm thấy nó trong nháy mắt. Có một API mặc dù vậy bạn có thể sử dụng nó để trích xuất mọi thứ.


Cảm ơn bạn đã gợi ý Bing nhưng họ chỉ có 9.000 trang được lập chỉ mục và tôi khá chắc chắn rằng chúng không phải là các liên kết tôi cần.
Lee

8

Cuối cùng tôi đã đi sâu vào thư mục con có vấn đề thông qua tìm kiếm trang web: domain.com/foo/bar/ nhưng trong tìm kiếm của tôi, tôi đã tìm thấy một phương pháp để đưa kết quả tìm kiếm vào một tệp excel.

Mở bảng tính Google Docs và sử dụng công thức này:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Nó sẽ chỉ nhận được 100 kết quả đầu tiên nhưng bạn có thể sử dụng lại để nhận 100 kết quả tiếp theo. Chỉ cần thay đổi biến bắt đầu:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Điều này sẽ chỉ cung cấp tối đa 1000 kết quả, như DisgruntledGoat đã đề cập trước đây, nhưng công thức có thể được thay đổi để cung cấp các liên kết từ các thư mục con cụ thể:

= importXml ("www.google.com.vn/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// trích dẫn")


Mẹo tuyệt vời với Google Docs. Chỉ cần tự hỏi vấn đề thực sự liên quan đến các trang được lập chỉ mục bổ sung - đó có phải là nội dung trùng lặp không?
MrWhite

1
Tôi đã truy tìm nó trở lại với Diễn đàn, một phần mềm diễn đàn mà chúng tôi đang sử dụng. Họ đã thêm một tính năng mới gọi là luồng hoạt động và thêm vào phần người dùng. Vì vậy, mỗi người dùng sẽ không chỉ có các trang hoạt động của riêng họ trên hồ sơ của họ mà tất cả các hoạt động của mọi người bạn họ có. Trên đầu trang Google đã lập chỉ mục các trang hoạt động trống vì Diễn đàn sẽ không trả về 404. Cuối cùng tôi đã không lập chỉ mục cho toàn bộ phần.
Lee

importXML chỉ hoạt động đúng với các Bảng cũ có thể được kích hoạt bằng liên kết này: g.co/oldsheet
i.amniels 22/05/2015

2

Bạn có thể viết một tập lệnh phân tích SERP của Google (ví dụ PHP + Curl) và lưu trữ từng liên kết trong một tệp CSV. Hãy cẩn thận để tập lệnh của bạn hoạt động như một con người, bởi vì Google có thể cấm IP của bạn khỏi kết quả tìm kiếm trong vài giờ nếu bạn lạm dụng điều này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.