Làm cách nào để có được hàng chục triệu trang được lập chỉ mục bởi Google bot?


12

Chúng tôi hiện đang phát triển một trang web hiện có 8 triệu trang duy nhất sẽ tăng lên khoảng 20 triệu ngay lập tức và cuối cùng lên khoảng 50 triệu trang trở lên.

Trước khi bạn chỉ trích ... Có, nó cung cấp nội dung độc đáo, hữu ích. Chúng tôi liên tục xử lý dữ liệu thô từ các hồ sơ công khai và bằng cách thực hiện một số thao tác xóa dữ liệu, triển khai thực thể và lập bản đồ mối quan hệ, chúng tôi đã có thể tạo nội dung chất lượng, phát triển một trang web khá hữu ích và cũng là một phần do sự rộng lớn của dữ liệu.

Đó là PR là 0 (tên miền mới, không có liên kết) và chúng tôi đang được xem xét với tốc độ khoảng 500 trang mỗi ngày, đưa chúng tôi vào khoảng 30.000 trang được lập chỉ mục cho đến nay. Với tốc độ này, sẽ mất hơn 400 năm để lập chỉ mục tất cả dữ liệu của chúng tôi.

Tôi có hai câu hỏi:

  1. Tỷ lệ lập chỉ mục có tương quan trực tiếp với PR hay không, và ý tôi là nó có tương quan đủ để mua một tên miền cũ có PR tốt sẽ đưa chúng ta đến một tỷ lệ lập chỉ mục khả thi (trong khoảng 100.000 trang mỗi ngày).
  2. Có bất kỳ chuyên gia tư vấn SEO nào chuyên hỗ trợ quá trình lập chỉ mục. Mặt khác, chúng tôi đang làm rất tốt với SEO, đặc biệt là trên trang, bên cạnh đó, sự cạnh tranh cho các cụm từ khóa "đuôi dài" của chúng tôi khá thấp, vì vậy thành công của chúng tôi chủ yếu dựa vào số lượng trang được lập chỉ mục.

Đối thủ cạnh tranh chính của chúng tôi đã đạt được khoảng 20 trang được lập chỉ mục chỉ sau hơn một năm, cùng với xếp hạng Alexa 2000-ish.

Những phẩm chất đáng chú ý chúng ta có tại chỗ:

  • tốc độ tải trang khá tốt (250-500 ms)
  • không có lỗi (không có lỗi 404 hoặc 500 khi bị phát hiện)
  • chúng tôi sử dụng các công cụ quản trị trang web của Google và đăng nhập hàng ngày
  • URL thân thiện tại chỗ
  • Tôi sợ gửi sơ đồ trang web. Một số bài đăng của cộng đồng SEO đề xuất một trang web mới với hàng triệu trang và không có PR nào đáng ngờ. Có một video Google về Matt Cutts nói về việc dàn dựng các trang web lớn , để tránh sự giám sát gia tăng (vào khoảng 2:30 trong video).

  • Liên kết trang web có thể nhấp có thể phân phối tất cả các trang, sâu không quá bốn trang và thường không quá 250 (-ish) liên kết nội bộ trên một trang.
  • Văn bản neo cho các liên kết nội bộ là hợp lý và thêm mức độ liên quan theo thứ bậc vào dữ liệu trên các trang chi tiết.
  • Trước đây chúng tôi đã đặt tốc độ thu thập dữ liệu lên mức cao nhất trên các công cụ quản trị trang web (chỉ khoảng một trang mỗi hai giây, tối đa). Gần đây tôi đã biến nó trở lại thành "để Google quyết định", đó là những gì được khuyên.


6
Tôi thực sự muốn thấy 50 triệu trang cung cấp nội dung hữu ích độc đáo. Wikipedia tuyệt vời của nó thiếu rất nhiều kiến ​​thức so với trang web của bạn, nó chỉ có 3,5 triệu trang ngày nay [ref. vi.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Marco Demaio

3
:) Nhìn qua sự mỉa mai ... đó không phải là số lượng trang khiến Wikipedia trở thành một nguồn kiến ​​thức to lớn - rõ ràng, có - hữu ích hơn. Trang web của chúng tôi tạo ra một trang cho mỗi bản ghi của một người và một trang cho mỗi bản ghi của một công ty trong cơ sở dữ liệu của chúng tôi. Chúng tôi sử dụng phân tích dữ liệu và cọ sát để tạo động các mối quan hệ giữa các đối tác kinh doanh, mô tả bằng đồ họa một mạng lưới kinh doanh của những người và tập đoàn liên quan. Số lượng trang là một hàm của lượng dữ liệu chúng ta có. Làm cho nó có thể khám phá thông qua tìm kiếm làm cho nó hữu ích hơn cho tất cả. Cảm ơn bình luận của bạn.
Chris Adragna

1
Nhận thêm pagerank, bằng cách nhận được nhiều liên kết hơn. Liên kết đến các trang của bạn từ các trang có pagerank.
Alex Đen

Câu trả lời:


20

Một số chiến lược tiềm năng:

  • Google Webmaster Tools cho phép bạn yêu cầu tăng tốc độ thu thập dữ liệu. Hãy thử làm điều đó nếu bạn chưa có.
  • Hãy xem xét lại kiến ​​trúc điều hướng của bạn để xem liệu bạn không thể cải thiện quyền truy cập vào nhiều nội dung của mình hơn. Nhìn từ góc độ của người dùng: Nếu người dùng khó tìm thấy một thông tin cụ thể, thì cũng có thể khó cho các công cụ tìm kiếm.
  • Đảm bảo bạn không có nội dung trùng lặp do tham số URL không nhất quán hoặc sử dụng dấu gạch chéo không đúng cách. Bằng cách loại bỏ nội dung trùng lặp, bạn giảm thời gian Googlebot dành để thu thập thông tin một cái gì đó mà nó đã được lập chỉ mục.
  • Sử dụng các liên kết nội dung liên quan và liên kết tại chỗ trong nội dung của bạn bất cứ khi nào có thể.
  • Chọn ngẫu nhiên một số liên kết của bạn. Một thanh bên với nội dung ngẫu nhiên là một mô hình tuyệt vời để sử dụng.
  • Sử dụng ngày và khác vi định dạng .
  • Sử dụng nguồn cấp dữ liệu RSS bất cứ nơi nào có thể. Nguồn cấp dữ liệu RSS sẽ hoạt động giống như sơ đồ trang web (trên thực tế, Công cụ quản trị trang web cho phép bạn gửi nguồn cấp dưới dạng sơ đồ trang web).
  • Về sơ đồ trang web, xem câu hỏi này .
  • Tìm cách để có được liên kết bên ngoài đến nội dung của bạn. Điều này có thể đẩy nhanh quá trình nó được lập chỉ mục. Nếu nó phù hợp với loại nội dung, giúp bạn dễ dàng chia sẻ xã hội hoặc qua email sẽ giúp ích cho việc này.
  • Cung cấp API để khuyến khích sử dụng dữ liệu của bạn và các liên kết bên ngoài đến dữ liệu của bạn. Bạn có thể có một liên kết phân bổ như là một yêu cầu cho việc sử dụng dữ liệu.
  • Ôm cộng đồng. Nếu bạn tiếp cận đúng người theo đúng cách, bạn sẽ nhận được các liên kết bên ngoài thông qua blog và Twitter.
  • Tìm cách để tạo một cộng đồng xung quanh dữ liệu của bạn. Tìm cách để làm cho nó xã hội. API, mashup, các tiện ích xã hội đều giúp ích, nhưng blog cũng vậy, giới thiệu cộng đồng, diễn đàn và cơ chế chơi trò chơi (cũng vậy, hãy xem video này ).
  • Ưu tiên nội dung bạn đã lập chỉ mục. Với nhiều dữ liệu đó, không phải tất cả trong số đó sẽ hoàn toàn quan trọng. Đưa ra quyết định chiến lược về nội dung nào là quan trọng nhất, ví dụ: nó sẽ phổ biến nhất, nó có cơ hội tốt nhất tại ROI, nó sẽ hữu ích nhất, v.v. và đảm bảo rằng nội dung đó được lập chỉ mục trước.
  • Thực hiện một phân tích chi tiết về những gì đối thủ của bạn đang làm để có được nội dung của họ được lập chỉ mục. Nhìn vào kiến ​​trúc trang web của họ, điều hướng của họ, liên kết bên ngoài của họ, v.v.

Cuối cùng, tôi nên nói điều này. SEO và lập chỉ mục chỉ là một phần nhỏ để điều hành một trang web kinh doanh. Đừng mất tập trung vào ROI vì lợi ích của SEO. Ngay cả khi bạn có nhiều lưu lượng truy cập từ Google, điều đó không thành vấn đề nếu bạn không thể chuyển đổi nó. SEO rất quan trọng, nhưng nó cần được giữ trong quan điểm.

Chỉnh sửa :

Là một phụ lục cho trường hợp sử dụng của bạn: bạn có thể xem xét việc đưa ra đánh giá hoặc lời chứng thực cho mỗi người hoặc doanh nghiệp. Ngoài ra, việc đưa ra các huy hiệu người dùng như StackOverflow có thể lôi kéo ít nhất một số người liên kết đến hồ sơ của chính họ trên trang web của bạn. Điều đó sẽ khuyến khích một số liên kết bên ngoài đến các trang sâu của bạn, điều đó có thể có nghĩa là được lập chỉ mục nhanh hơn.


1
+1 - Luôn luôn đề cập rằng SEO là một mô hình thu nhỏ của vấn đề lớn hơn trong việc thúc đẩy kinh doanh; Đây cũng là cách dễ nhất (đối với những người có đầu óc kỹ thuật, ít nhất) để bị lạc. Nhiều người đang xem TV ngay bây giờ hơn bất kỳ thời điểm nào trước đây trong lịch sử - tùy thuộc vào những gì bạn cung cấp, quảng cáo trên TV có thể tốt hơn ROI hơn PPC ...
danlefree

Ý tưởng tốt về các vi định dạng. Đó không phải là viên đạn bạc, nhưng chúng tôi có một số nơi mà việc đánh dấu ngữ nghĩa bằng cách sử dụng các tiêu chuẩn microformat có thể hữu ích.
Chris Adragna

1
Tôi không biết liệu có bất kỳ microformats nào (ngoài khả năng là dấu thời gian) có nghĩa là được lập chỉ mục nhanh hơn không, nhưng có thể có những lợi ích SEO khác khi sử dụng chúng. Ít nhất, nó làm cho các trang của bạn dễ thu thập dữ liệu hơn và có thể giúp làm cho mục nhập của bạn nổi bật trên trang kết quả của công cụ tìm kiếm (tùy thuộc vào microformat).
Truyền thông Virtuosi

5

Làm cách nào để có được hàng chục triệu trang được lập chỉ mục bởi Google bot?

Tuy nhiên, điều đó sẽ không xảy ra trong một đêm, tuy nhiên, tôi đảm bảo rằng bạn sẽ thấy nhiều trang của mình được phát hiện sớm hơn nếu các liên kết bên trong đến nội dung sâu (đặc biệt là các trang sơ đồ trang web hoặc chỉ mục thư mục trỏ đến nội dung sâu hơn) được thêm vào từ các trang web lớn tương tự đã được khoảng một thời gian.

Một tên miền cũ sẽ đủ để có được 100.000 trang được lập chỉ mục mỗi ngày?

Nghi ngờ, trừ khi bạn nói về một tên miền cũ đã có số lượng hoạt động đáng kể trên đó (tức là nội dung tích lũy và liên kết trong) trong nhiều năm qua.

Có bất kỳ chuyên gia tư vấn SEO nào chuyên hỗ trợ quá trình lập chỉ mục.

Khi bạn đặt câu hỏi theo cách đó, tôi chắc chắn bạn sẽ tìm thấy rất nhiều SEO, người lớn tiếng tuyên bố "có!" nhưng, vào cuối ngày, các đề xuất của Virtuosi Media là lời khuyên tốt như bạn sẽ nhận được từ bất kỳ ai trong số họ (không nói gì về lời khuyên có khả năng xấu).

Từ âm thanh của nó, bạn nên xem xét sử dụng các kênh phát triển kinh doanh và quan hệ công chúng để xây dựng thứ hạng trang web của bạn tại thời điểm này - có thêm liên kết đến nội dung của bạn (tốt nhất là hợp tác với một trang web hiện có cung cấp nội dung nhắm mục tiêu theo khu vực để liên kết với bạn chẳng hạn như nội dung được phân chia theo vùng), thu hút nhiều người duyệt đến trang web của bạn hơn (một số sẽ cài đặt thanh công cụ Google để lưu lượng truy cập của họ có thể hoạt động theo hướng khám phá trang) và, nếu có thể, hãy để doanh nghiệp của bạn nói về tin tức hoặc trong cộng đồng của những người có nhu cầu về nó (nếu bạn có kế hoạch tính phí cho một số dịch vụ nhất định, hãy xem xét quảng cáo một thời gian dùng thử miễn phí để thu hút sự quan tâm).


3

Có hai lựa chọn có thể tôi biết thay vì được hỗ trợ.

Một: Một mẹo nhỏ mà tôi đã thử với một trang web có ba triệu trang hoạt động tốt đến mức đáng ngạc nhiên là những gì đồng nghiệp của tôi đã tạo ra một vòng lặp thu thập dữ liệu. Bạn có thể phải thao tác ý tưởng một chút để làm cho nó phù hợp với trang web của bạn.

Về cơ bản, chúng tôi đặt một ngày mà chúng tôi không nghĩ rằng chúng tôi sẽ nhận được nhiều lưu lượng truy cập (giáng sinh) và chúng tôi đã sao chép một danh sách mỗi liên kết trên trang web của chúng tôi và dán từng tệp vào một tệp php được gọi trên mỗi trang web. (Tệp php thanh bên)

Sau đó, chúng tôi buộc phải truy cập vào bảng điều khiển tìm kiếm của google (trước đây là các công cụ quản trị trang web của google) và bảo google tìm nạp một url và thu thập dữ liệu từng liên kết trên trang url đó.

Vì bạn có rất nhiều liên kết và các trang liên kết cũng có số lượng liên kết dồi dào, google đi vào một vòng lặp và thu thập dữ liệu trang web theo cách nhanh hơn nhiều. Lúc đầu tôi đã hoài nghi nhưng nó hoạt động như một cơ duyên.

Trước khi bạn làm điều này, bạn phải đảm bảo rằng bạn có một thiết lập cơ sở dữ liệu cực kỳ hiệu quả và một máy chủ rất mạnh nếu không nó có thể làm quá tải máy chủ hoặc làm tổn thương SEO của bạn do thời gian tải trang chậm.

Nếu đó không phải là một tùy chọn cho bạn, bạn luôn có thể xem xét apis trên bảng điều khiển đám mây của google. Họ có một api của bảng điều khiển tìm kiếm để bạn có thể viết một tập lệnh để thêm từng trang web làm ví dụ trang web của chính nó trong bảng điều khiển tìm kiếm hoặc để google tìm nạp từng một url của bạn.

Apis có thể trở nên phức tạp cực kỳ nhanh chóng nhưng là một công cụ tuyệt vời khi được sử dụng đúng cách.

Chúc may mắn!


1
Liên kết các trang của bạn với nhau là một chiến lược tuyệt vời để thu thập tất cả chúng. Tốt hơn nhiều so với cố gắng dựa vào sơ đồ trang web XML. Tuy nhiên, tôi sẽ để các liên kết đó tại chỗ mọi lúc thay vì chỉ vào ngày Giáng sinh. Ngay khi bạn gỡ các liên kết xuống, Google sẽ nhận thấy các trang bị mất liên kết và ngừng lập chỉ mục chúng.
Stephen Ostermiller

2

Chơi game hệ thống không bao giờ là một ý tưởng hay nếu bạn đang điều hành một doanh nghiệp hợp pháp coi trọng danh tiếng trực tuyến của nó. Ngoài ra, nếu trang web của bạn thực sự cung cấp giá trị, thì nó sẽ tồn tại lâu hơn (tôi cho rằng bạn đang thực hiện một số hình thức tiếp thị?) Càng nhiều liên kết ngược sẽ tích lũy, vì vậy PR của bạn sẽ tăng lên và tốc độ thu thập dữ liệu của bạn sẽ tăng lên.

Ngoài ra, nếu bạn có cấu trúc liên kết tốt trên trang web của mình (tất cả các trang của bạn đều có thể tìm thấy với số lần nhấp / liên kết hợp lý), thì bạn chỉ cần gửi các chỉ mục chính qua sơ đồ trang web. Khi các trang đó được Google lập chỉ mục, chúng sẽ được Google thu thập thông tin và Google sẽ tự lập chỉ mục cho các trang còn lại.


+1 RE: chơi game hệ thống - mặc dù tôi nghĩ cần lưu ý rằng có rất nhiều lựa chọn thay thế để chơi game hệ thống cho phép quản trị viên web tạo ra các liên kết ngược hợp pháp (sẽ hữu ích cho khách truy cập) vào trang web của anh ấy hoặc cô ấy.
danlefree

@danlefree: Chắc chắn. Tôi chỉ đề cập đến việc mua tên miền hết hạn để có được PR / lưu lượng truy cập còn lại của họ. Nhưng nếu bạn có thể quảng cáo trang web của mình, gửi thông cáo báo chí đến các ấn phẩm thương mại, trang web đánh giá ứng dụng, v.v. thì đó là những cách rất tốt để tạo liên kết ngược hợp pháp.
Lèse majesté

2

Một điều tôi nhận thấy với các công cụ quản trị trang web của Google là chúng bắt đầu bằng cách cho phép tốc độ thu thập dữ liệu tối đa khoảng hai yêu cầu mỗi giây. Sau đó khoảng một tuần, nếu họ thấy rằng trang web thường xuyên được truy cập, thì họ sẽ cho phép bạn tăng giới hạn của mình.

Tôi đồng điều hành một trang web lưu trữ hơn 500.000 hình ảnh gốc và đôi khi, giới hạn tối đa của tôi là 10 yêu cầu mỗi giây vì tôi nhận được ít nhất 700 đến 1000 lượt truy cập mỗi ngày nếu không muốn nói là nhiều hơn.

Vì vậy, những gì bạn có thể muốn làm là kiểm tra với các công cụ quản trị trang web mỗi tuần để xem bạn có thể tăng giới hạn thu thập dữ liệu hay không. Khi bạn thay đổi giới hạn thu thập thông tin, google sẽ đặt lại về cài đặt ưu tiên của họ sau khi một ngày nhất định trôi qua (giao diện sẽ hiển thị cho bạn). Sau đó vào ngày đó, tăng giới hạn một lần nữa.


2

Tôi đã có kinh nghiệm về loại trang web này. Tôi đã chạy một thư mục bài viết từ nhiều năm trước và% trang được lập chỉ mục và quan trọng hơn là hiệu suất thực sự có liên quan trực tiếp đến số lượng tên miền giới thiệu - tức là số lượng trang web duy nhất liên kết. Một trang web lớn có hàng triệu trang cần vài 1.000 trang tên miền hợp lý liên kết để thực hiện theo quyền riêng của mình.

Chắc chắn nó sẽ không xảy ra qua đêm, nhưng bạn xây dựng 5-10 liên kết tốt mỗi ngày khi nó bắt đầu xảy ra, sau đó bạn sẽ ở vào vị trí để tạo thu nhập và sử dụng điều đó để trả một bộ trang phục SEO chuyên nghiệp để xây dựng liên kết cho bạn.

Hiện tại tôi đang xây dựng một trang web giàu thông tin tương tự, những ngày đầu nhưng tôi gặp vấn đề tương tự với khoảng 4 triệu trang nội dung với tốc độ thu thập dữ liệu 700-1.000 trang mỗi ngày.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.