Robots.txt sẽ chỉ ngăn các bot thu thập các URL không được phép, không lập chỉ mục cho chúng. Nếu các URL không được phép được liên kết với bên ngoài hoặc bên trong từ một trang không được phép, chúng sẽ xuất hiện trong chỉ mục với văn bản đoạn trích bạn đã trích dẫn.
Nếu bạn muốn loại trừ chúng hoàn toàn khỏi chỉ mục, tùy chọn tốt nhất có lẽ là thành phần liên kết chính tắc:
<head>
<link rel="canonical" href="http://www.example.com">
</head>
Trong ví dụ bạn đưa ra, trang https://example.com/blog/blog/2013/02?limit=200
sẽ chứa các mục sau:
<head>
<link rel="canonical" href="https://example.com/blog/blog/2013/02">
</head>
Đó là giả sử HTTPS là giao thức ưa thích của bạn. Nếu không, bạn nên bình thường hóa thông qua chuyển hướng 301.
Ưu điểm của phương pháp này là bạn không phải định cấu hình Công cụ quản trị trang web của công cụ tìm kiếm.
Sử dụng công cụ quản trị trang web
Một cách khác là sử dụng Bộ lọc tham số URL trong Công cụ quản trị trang web của Google và Bing. Trong Google, bạn sẽ tìm thấy nó trong Thu thập thông tin> Bộ lọc tham số URL .
Thông thường, trang đó sẽ được điền với các tham số mà trình thu thập thông tin đã phát hiện ra, mặc dù bạn cũng có thể chỉ định chúng theo cách thủ công.
Giả sử ?limit=200
đang kiểm soát số lượng mục được hiển thị trên một trang, bạn sẽ định cấu hình nó như sau trong Google WMT:
Chọn "Có: Thay đổi, sắp xếp lại hoặc thu hẹp nội dung trang"
Chọn "Mũi tên"
Chọn "Không có URL"