Làm cách nào tôi có thể khiến Google lập chỉ mục các tài liệu PDF của mình?


15

Chúng tôi đang gặp sự cố khi Google lập chỉ mục các tệp PDF trong trang web của chúng tôi. Có khoảng 50 PDF và phạm vi kích thước cho 20 KB đến một chút dưới hai megs. Chúng không được bảo vệ, có thể được đọc ẩn danh và bên trong PDF Reader, bạn có thể tìm kiếm tài liệu.

Chúng được liệt kê trong SiteMap.xml. Tôi thậm chí có thể nhìn vào nhật ký IIS và thấy Googlebot đang đọc các tệp PDF, nhưng, ngoại trừ năm, chúng không bao giờ được đưa vào kết quả tìm kiếm.

Nếu tôi làm một filetye: pdf, chỉ có năm tệp PDF xuất hiện. Nếu tôi tìm kiếm văn bản mà tôi biết là bên trong một tệp PDF, các tệp PDF không bao giờ hiển thị (ngoại trừ năm tệp được lập chỉ mục).

Có ai có ý tưởng tại sao hơn 45 tài liệu PDF không được đưa vào chỉ mục, mặc dù chúng nằm trong sơ đồ trang web và Googlebot đang đọc chúng không?


Bạn đang chỉ định loại nội dung cho Google?
Chris Ballance

Câu trả lời:


4

tất cả các pdf nằm ở cùng một chỗ? Tôi đã từng gặp vấn đề là một trong những vị trí pdf của tôi nằm trong một thư mục bị robot.txt loại trừ. Gửi sơ đồ trang web của bạn trực tiếp đến trang web công cụ google-webmaster và bạn có thể nhận được thông tin có giá trị về lý do tại sao các tệp pdf không xuất hiện. trong trường hợp của tôi, google đã nói với tôi 'này, 54 tài liệu pdf này có trên sơ đồ trang web của bạn nhưng do hạn chế của robot.txt, chúng tôi không thể lập chỉ mục cho chúng'. Vì vậy, đó là khá hữu ích. nhưng hãy nhớ những gì người bình luận nói, có thể mất một lúc cho đến khi thông tin này xuất hiện.

Công cụ quản trị trang web của Google: https://www.google.com/webmasters/tools


Tôi sẽ chỉ thêm rằng Google Webmaster Tools không cung cấp tất cả thông tin trong thời gian thực. Nó vẫn là một tài nguyên quan trọng mặc dù.
Liam

Không, các tệp PDF được đặt ở một số vị trí khác nhau trong trang web. Tôi đã kiểm tra và không ai trong số họ bị chặn bởi robot.txt. Tôi đã và đang sử dụng Công cụ quản trị trang web và gửi Sơ đồ trang web và sẽ thông báo để làm như vậy. Cảm ơn bạn đã phản hồi. Jim

1

Có thể có một độ trễ giữa google ban đầu đọc nội dung của bạn và nó xuất hiện trong chỉ mục. Gần đây, chúng tôi đã khởi chạy lại một trang web, gửi sơ đồ trang web cho google khi khởi chạy và phải mất khoảng 3 tuần để các trang mới bắt đầu hiển thị trong kết quả tìm kiếm.

Đã bao lâu rồi bạn gửi những tệp PDF này qua sơ đồ trang web của mình?

(ngoại trừ năm được lập chỉ mục)

Nghe có vẻ như các tệp PDF của bạn đang được lập chỉ mục, nhưng nó cần một chút thời gian. Giả sử rằng không có sự khác biệt trong cách tạo ra các tệp PDF không được lập chỉ mục, thì tôi nghi ngờ đó chỉ là chỉ mục mất một thời gian để cập nhật.

Nói một cách dễ hiểu, một công cụ hữu ích mà tôi khuyên bạn nên đăng ký là Google Webmaster - nó cho bạn thấy tốc độ thu thập dữ liệu, các sự cố với trang web của bạn, sơ đồ trang web và lập chỉ mục trong vòng một ngày hoặc lâu hơn khi Googlebot truy cập trang web của bạn. Nó có thể giúp bạn tiết kiệm một chút thời gian thông qua nhật ký IIS của bạn.


Đã khoảng bốn tuần kể từ lần đầu tiên chúng tôi gửi sơ đồ trang web của mình. Tôi chỉ nhận thấy rằng đêm qua họ đã lập chỉ mục bốn; vì vậy có lẽ tôi chỉ cần tiếp tục chờ đợi :)

Khi bạn đăng ký lại trang web, nếu phải mất 3 tuần để các trang mới bắt đầu hiển thị trong phần tìm kiếm, điều đó có nghĩa là trong 3 tuần, tìm kiếm đã trả về kết quả cho các trang không còn tồn tại trong trang web của bạn? không phải kết quả này trong rất nhiều điều kiện 'không tìm thấy trang'?

Trong tình huống của chúng tôi, việc khởi chạy lại cùng với việc khởi chạy một phần mới, các liên kết cũ vẫn hoạt động - 3 tuần là thời gian để phần mới bắt đầu hiển thị. Thời gian chờ ngẫu nhiên có thể là một chút bực bội ổn!
ConroyP

0

Các tệp PDF của bạn OCR có được quét để văn bản có thể chọn và tìm kiếm được không? Hoặc các tệp PDF được quét không có OCR, trong trường hợp đó, văn bản sẽ được lưu trữ dưới dạng hình ảnh lớn? Nếu PDF là tất cả hình ảnh tôi không nghĩ Google có thể lập chỉ mục (chưa). Hoặc Google đã tìm thấy các trang của bạn bây giờ?


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.