Do các công cụ tìm kiếm thu thập dữ liệu PDF và nếu có thì có bất kỳ quy tắc nào phải tuân theo khi tạo chúng không


22

Trang web tôi đang làm việc có vài trăm tệp PDF trong đó. Tôi không nghĩ rằng tôi đã từng thấy bất kỳ ai trong số họ quay lại tìm kiếm nhưng có liên kết trực tiếp từ trang web bên ngoài. Chúng cũng có đầy đủ các từ khóa vì chúng là tài liệu sản phẩm.

Có điều gì đặc biệt chúng ta cần làm để khiến Google hoặc các công cụ tìm kiếm khác thu thập dữ liệu không?

Có quy tắc cứng và nhanh nào để tạo tệp PDF để giúp Google thích chúng hơn không? Chẳng hạn, tôi có nên chạy chúng qua ghostscript để dọn sạch các thẻ PDF bị hỏng mà Adobe tạo trong quá trình tạo không?


Thêm vào sơ đồ trang web xml của bạn để đảm bảo họ biết về chúng?
artlung

Câu trả lời:


17

Google chắc chắn lập chỉ mục các tệp PDF và bạn chỉ có thể tìm kiếm các tệp PDF bằng cách thêm filetype:pdfvào truy vấn tìm kiếm của mình ( ví dụ ).

Tôi muốn nói rằng những điều chính cần làm để tối ưu hóa PDF để nó dễ dàng được lập chỉ mục là:

  • Đặt cho nó một tên tệp có ý nghĩa
  • Hoàn thành tất cả các thuộc tính siêu dữ liệu của tài liệu (tiêu đề, tác giả, từ khóa, v.v.)
  • Đảm bảo rằng tệp PDF của bạn bao gồm văn bản thực tế và hình ảnh không được quét
  • Đảm bảo bạn có nội dung tốt với việc sử dụng đúng tiêu đề, giống như bạn làm tài liệu HTML

Để biết thêm mẹo hãy đọc Tối ưu hóa Tài liệu PDFMười một Mẹo để Tối ưu hóa PDF cho Công cụ Tìm kiếm


liên kết labs.jowersearching.co.uk/optimizing-pdf-document-621.html không còn hoạt động

@Christofian Cảm ơn - Tôi đã cập nhật liên kết. Tôi sẽ để nó cho người đọc đánh giá cao sự mỉa mai của một công ty SEO đổi tên các liên kết của họ mà không có bất kỳ chuyển hướng 301 nào!
Dan Diplo

@DanDiplo liên quan đến SEO các tệp PDF Tôi sẽ đề nghị thêm một liên kết vào nội dung khi áp dụng.
Anagio

1

Tôi không chắc chắn về các công cụ tìm kiếm khác, nhưng theo như Google có liên quan, quy tắc chính sẽ là không loại trừ chúng thông qua robot.txt

Đây là thông báo ban đầu của họ về hỗ trợ tìm kiếm PDF.


1

Giống như làm cho một trang web tuân thủ không thể làm tổn thương đến SEO của bạn, làm cho PDF của bạn có thể truy cập không thể bị tổn thương. Trình kiểm tra khả năng truy cập tích hợp của Adobe không hoàn hảo, nhưng ít nhất việc sửa các khu vực đó sẽ giúp bạn bắt đầu.

Tôi có thể dành 5 phút cho mỗi 4 hoặc 5, chủ yếu là các văn bản PDF chúng tôi đưa lên mạng. Thời gian tăng đều tùy thuộc vào số lượng trang và mức độ phức tạp của các trang đó.

Giả sử bạn có Adobe Acrobat Pro để thực hiện chỉnh sửa của mình:

  • Chạy Kiểm tra khả năng truy cập đầy đủ. (Kiểm tra nhanh là khá vô nghĩa với tôi)
  • Cập nhật thông tin meta trong thuộc tính tài liệu (từ khóa, chủ đề, ngôn ngữ, v.v.)
  • Đảm bảo các thẻ được thêm vào
  • Đảm bảo văn bản được gắn thẻ dưới dạng văn bản, hình ảnh dưới dạng hình ảnh, công cụ nền làm nền
  • Tag vô dụng fluff (như trang trí hoặc thiết kế) làm nền
  • Thêm văn bản thay thế tốt cho hình ảnh
  • Đảm bảo theo thứ tự đọc, văn bản được sắp xếp đúng
  • Trong thanh công cụ nội dung, đảm bảo văn bản không bị trùng lặp hoặc bị dịch sai
  • Sử dụng máy quét OCR trên các trang được quét

Để chỉnh sửa nâng cao hơn như bảng và lỗi Adobe thực sự kỳ quặc, chúng tôi sử dụng một plugin có tên CommonLook. CommonLook hoàn thành công việc, nhưng tôi ghét nó nhiều như tôi ghét các công cụ Adobe.

Làm quen với công cụ Touch Up Reading Order, thanh công cụ Tags, thanh công cụ Reading Order và thanh công cụ Content. Công việc của tôi yêu cầu các tài liệu tuân thủ đầy đủ trước khi ra ngoài web, nhưng bất kỳ ai cũng có thể được hưởng lợi từ một số thuộc tính tài liệu và gắn thẻ đơn giản.


Trang web của chúng tôi có hơn 5.000 tệp PDF mà chúng tôi phải quay lại và mang đến 508 tuân thủ đầy đủ. Phải mất một thời gian để tìm hiểu, huấn luyện viên gợi ý Adobe không giúp được gì, nhưng một khi bạn học nó, bạn thực sự có thể nén chúng ra.
MrChrister
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.