Tại sao một chuỗi truy vấn xuất hiện trên các URL của tôi trong kết quả tìm kiếm của Google?

Khi tôi nhập URL từ trang web của mình vào tìm kiếm của Google, tôi sẽ lấy lại URL đó nhưng với chuỗi truy vấn được thêm vào trong kết quả. Ví dụ: khi tôi tìm kiếm https://example.com/blog/blog/2013/02, kết quả tìm kiếm hiển thị nó với các tham số là https://example.com/blog/blog/2013/02?limit=200.

Tôi đã không cho phép các thông số trong robots.txt tập tin Disallow: /*?. Bây giờ kết quả tìm kiếm của Google hiển thị thông báo như

Một mô tả cho kết quả này không có sẵn vì robot.txt của trang web này - tìm hiểu thêm.

Làm cách nào để tránh chuỗi truy vấn được thêm này vào URL?

google-search-console google-search

— alamelu
nguồn

Chuỗi truy vấn này có được sử dụng bởi trang web / trang của bạn không?

— MrWhite

Đồng thời, nếu tham số không gây ra sự cố thực tế, thì tôi sẽ làm những gì có thể để sửa nó, nhưng không chặn nó. Bạn có thể viết lại yêu cầu để loại bỏ tham số. Nhưng chặn nó là một ý tưởng tồi. Trên thực tế, bạn đã chặn tất cả các truy cập bằng các tham số do đó chặn hoàn toàn Google. Vì vậy, tôi không ngạc nhiên về thông điệp trong SERPs.

— Closnoc

Không có chuỗi truy vấn nào không được sử dụng trong trang web của tôi @ w3d

— alamelu

@closetnoc - Nếu chúng tôi viết lại url yêu cầu như không có chuỗi truy vấn, sẽ không hiển thị thông báo nói trên trong tìm kiếm google?

— alamelu

Tôi đã thêm một câu trả lời. Hãy thử điều này và cho tôi biết. Kế hoạch của tôi đã nổ tung và vì vậy tôi nên ở đây hầu hết các ngày.

— Closnoc

Câu trả lời:

Robots.txt sẽ chỉ ngăn các bot thu thập các URL không được phép, không lập chỉ mục cho chúng. Nếu các URL không được phép được liên kết với bên ngoài hoặc bên trong từ một trang không được phép, chúng sẽ xuất hiện trong chỉ mục với văn bản đoạn trích bạn đã trích dẫn.

Nếu bạn muốn loại trừ chúng hoàn toàn khỏi chỉ mục, tùy chọn tốt nhất có lẽ là thành phần liên kết chính tắc:

<head> <link rel="canonical" href="http://www.example.com"> </head>

Trong ví dụ bạn đưa ra, trang https://example.com/blog/blog/2013/02?limit=200sẽ chứa các mục sau:

<head> <link rel="canonical" href="https://example.com/blog/blog/2013/02"> </head>

Đó là giả sử HTTPS là giao thức ưa thích của bạn. Nếu không, bạn nên bình thường hóa thông qua chuyển hướng 301.

Ưu điểm của phương pháp này là bạn không phải định cấu hình Công cụ quản trị trang web của công cụ tìm kiếm.

Sử dụng công cụ quản trị trang web

Một cách khác là sử dụng Bộ lọc tham số URL trong Công cụ quản trị trang web của Google và Bing. Trong Google, bạn sẽ tìm thấy nó trong Thu thập thông tin> Bộ lọc tham số URL .

Thông thường, trang đó sẽ được điền với các tham số mà trình thu thập thông tin đã phát hiện ra, mặc dù bạn cũng có thể chỉ định chúng theo cách thủ công.

Giả sử ?limit=200đang kiểm soát số lượng mục được hiển thị trên một trang, bạn sẽ định cấu hình nó như sau trong Google WMT:

Chọn "Có: Thay đổi, sắp xếp lại hoặc thu hẹp nội dung trang"

Chọn "Mũi tên"

Chọn "Không có URL"

— GDav
nguồn

Dường như (từ các bình luận) dường như ?limit=200không thực sự được sử dụng bởi trang web, vì vậy điều này có thể ảnh hưởng đến các quy tắc cho các tham số URL mà bạn muốn đặt trong GWT.

— MrWhite

Ngoài ra, không kết hợp rel = canonical với robot.txt - Google sẽ không thấy rel = canonical trong những trường hợp đó.

— John Mueller

@JohnMueller Điểm tốt. Đã chỉnh sửa.

— GDav

Được chứ. Trước tiên hãy thoát khỏi Disallow: /*?tệp robot.txt. Điều này gây ra thông điệp từ Google. Google đang nói rằng họ không có quyền truy cập vào trang web của bạn.

Trong tệp .htaccess của bạn, hãy thử điều này:

RewriteCond %{REQUEST_URI} ^(*.)\?limit=\d+$ [NC]
RewriteRule .* https://example.com/%1 [R=301,L]

Tôi chưa thử nghiệm điều này, nhưng tôi chắc chắn regex (biểu thức chính quy) là chính xác. Tôi ít nhất đã thử nghiệm điều đó theo một kịch bản khác ở đây. Hãy thử điều này và thực hiện một số yêu cầu đến trang web của bạn bằng cách sử dụng nhiều loại ?limit=200được thêm vào cuối yêu cầu và xem liệu có chuyển hướng đến một URL mà không có nó không.

Tôi vẫn nói rằng tham số này không có tác dụng thực sự và sẽ không gây hại. Nó sẽ ổn thôi nếu cứ để nó.

— tủ quần áo
nguồn

Tôi nghĩ $1nên %1ở trong sự RewriteRulethay thế, để đề cập đến các RewriteCondmẫu con được ngoặc đơn (trái ngược với RewriteRulemẫu). (+1)

— MrWhite

@ w3d tôi sẽ kiểm tra. Tôi làm những điều kỳ lạ với .htaccess để khi tôi thử và làm một cái gì đó trong phạm vi bình thường, tôi phải điều chỉnh lại suy nghĩ của mình. Tôi thực hiện regex thường xuyên trong mã, nhưng theo như .htaccess, chúng dường như phù hợp với các mẫu nhất định vì vậy tôi thực sự không thể thực hiện phần .htaccess trong não của mình. Bây giờ, đó sẽ là bên phải hay bên trái? Hay là trên hay dưới?

— Closnoc

@ w3d Đã hiểu! Bạn nói đúng - dĩ nhiên tôi không nghi ngờ gì về bạn- Tôi chỉ muốn nghiên cứu thêm để giúp làm rõ tâm trí của tôi. Hãy tin tôi - đó là một nhiệm vụ thực sự! Cảm ơn đã giúp đỡ!

— Closnoc

Không chắc chắn thông số truy vấn đến từ đâu, nhưng có một cách để loại bỏ nó trong Google Analytics. Xem https://support.google.com.vn/analyticspcs/1010249?hl=vi , chủ đề 'Loại trừ tham số truy vấn URL'

— Martin Voorzanger
nguồn

Điều này không liên quan đến chỉ báo cáo GA sao? Có các tùy chọn tương tự liên quan đến tham số chuỗi truy vấn trong Công cụ quản trị trang web của Google liên quan cụ thể đến Tìm kiếm của Google.

— MrWhite