Tóm lược
Nếu máy chủ của bạn xử lý các trang có chữ ghép (như smartypants), công cụ tìm kiếm không nhất quán. Bing hiện không lập chỉ mục đúng. Tôi nói chung, nó yêu cầu rắc rối. Vì các công cụ tìm kiếm thay đổi, nên có một phương pháp bên dưới mà bạn có thể sử dụng để kiểm tra cách các công cụ tìm kiếm bạn quan tâm đến chữ số chỉ mục .
Nếu máy chủ của bạn xử lý các trang có văn bản thông thường, thì Javascript sẽ biến chúng thành chữ viết tắt, điều đó tốt . Các công cụ tìm kiếm không áp dụng thay đổi nội dung Javascript trước khi lập chỉ mục các trang (mặc dù tuyên bố rằng có một vài trường hợp ngoại lệ như tải bình luận Facebook ). Vì có một phương pháp tiêu chuẩn công nghiệp để cung cấp cho công cụ tìm kiếm nội dung động và phương pháp này được Google chứng thực , nên sẽ rất bất ngờ nếu điều này thay đổi trong tương lai. Google khuyên bạn nên duyệt trang web của mình bằng trình duyệt văn bản thuần túy (ví dụ: họ đề xuất Lynx ) để xem nội dung của bạn như thế nào công cụ tìm kiếm nhìn thấy nó.
Chi tiết hơn về trường hợp đầu tiên (các trang được viết bằng chữ in trong mã) ...
Về lý thuyết
... nó không nên tạo ra bất kỳ sự khác biệt nào đối với công cụ tìm kiếm được thiết lập tốt.
Đầu tiên, nó giúp hiểu được sự khác biệt giữa glyphs và ký tự . Một chữ ghép fi
là một glyph đại diện cho hai ký tự f
i
. Phần mềm xử lý phần mềm như thế nào tùy thuộc vào phần mềm đó và tùy thuộc vào ngữ cảnh và nhiệm vụ trong tay - bạn sẽ thấy từ các ví dụ trong câu hỏi được liên kết đó khi bạn sao chép và dán glyphs, những gì được dán sẽ thay đổi: đôi khi glyph được dán, đôi khi glyph được coi là các ký tự liên quan của nó f
và i
được dán.
Bất kỳ bộ xử lý văn bản tự động được làm tốt nào quan tâm đến ngữ nghĩa văn bản (công cụ tìm kiếm, kiểm tra chính tả, trình đọc màn hình ...) nên coi glyph là giống hệt với các ký tự mà nó đại diện và nên coi finally
là giống hệt nhau finally
, bởi vì đó là văn bản ý nghĩa của fi
glyph.
Trong thực tế
Không phải mọi thứ đều được làm tốt ...
Đây là một cách dễ dàng để kiểm tra công cụ tìm kiếm. Đây là một dòng văn bản từ câu hỏi khác:
Copy the ligature fi from Illustrator to this input box
Nếu chúng ta lấy phiên bản không chữ viết của câu đó và tìm kiếm trên đó trong dấu ngoặc kép:
(tìm kiếm trên "Copy the ligature fi from Illustrator to this input box"
):
- ... nếu một công cụ tìm kiếm coi glyphs ligature là khớp với các ký tự mà chúng đại diện, nó sẽ tìm thấy trang đó (và, khi nó được lập chỉ mục, trang này)
- ... Nếu một công cụ tìm kiếm coi glyphs ligature khác với các ký tự mà chúng đại diện, nó sẽ không tìm thấy gì cho đến khi trang này được lập chỉ mục, sau đó, nó sẽ chỉ tìm thấy trang này và các tìm kiếm với phiên bản ligature sẽ tìm thấy trang đó.
- ... Nếu một công cụ tìm kiếm hoảng hốt khi nhìn thấy glyphs như chữ ghép hoàn toàn, nó sẽ không tìm thấy gì, ngay cả trang này và các tìm kiếm với phiên bản chữ ghép cũng sẽ không tìm thấy gì
Một số kết quả nhanh chóng cho 5 công cụ tìm kiếm hàng đầu thế giới (liên kết là kết quả tìm kiếm):
- Google: Tốt (loại 1) . (mặc dù bình luận bên dưới, nó vẫn ổn với cả định dạng thực thể unicode hoặc HTML)
- Bing: Thất bại ( loại 2 ).
- Yahoo: Fail ( loại 2 ) (hóa ra Yahoo là "Powered by Bing")
- Yandex (tiếng Nga): Tốt (loại 1)
- Các trang của Baidu (Trung Quốc): erm, không có trang webdesdesign.stackexchange.com dường như xuất hiện trong các tìm kiếm của Baidu ... có lẽ chúng tôi bị cấm ở đó ...?!