Tôi cần đảm bảo rằng sơ đồ trang web XML của tôi có ít hơn rác (liên kết bị hỏng). Danh sách URL có hàng trăm ngàn và thậm chí nếu nó có thể khả thi để kiểm tra tất cả từng cái một thì tôi không muốn, vì nhiều lý do:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Vì vậy, tôi nghĩ rằng việc lấy một tập hợp con ngẫu nhiên là đủ, vấn đề là tôi không biết xác suất.
Có một chức năng đơn giản tôi có thể sử dụng?
Nếu nó hữu ích, chúng ta có thể giả sử có thông tin tiên nghiệm về xác suất liên kết bị phá vỡ trong các lần chạy. Giả sử rằng các lượt chạy có cho bất kỳ liên kết cụ thể nào bị phá vỡ.