Câu trả lời:
Đó là phân vị thứ 99 . Có nghĩa là 99% yêu cầu phải nhanh hơn độ trễ nhất định. Nói cách khác, chỉ 1% yêu cầu được phép chậm hơn.
Chúng ta có thể giải thích điều đó thông qua một phép loại suy, nếu 100 học sinh đang chạy một cuộc đua thì 99 học sinh sẽ hoàn thành cuộc đua trong thời gian "trễ".
Hãy tưởng tượng rằng bạn đang thu thập dữ liệu hiệu suất của dịch vụ của mình và bảng dưới đây là tập hợp các kết quả (các giá trị độ trễ là hư cấu để minh họa cho ý tưởng).
Latency Number of requests
1s 5
2s 5
3s 10
4s 40
5s 20
6s 15
7s 4
8s 1
Độ trễ P99 của dịch vụ của bạn là 7 giây. Chỉ 1% yêu cầu mất nhiều thời gian hơn thế. Vì vậy, nếu bạn có thể giảm độ trễ P99 của dịch vụ, bạn sẽ tăng hiệu suất của dịch vụ.
Hãy lấy một ví dụ từ đây
Request latency:
min: 0.1
max: 7.2
median: 0.2
p95: 0.5
p99: 1.3
Vì vậy, chúng ta có thể nói, 99 phần trăm yêu cầu web, độ trễ được tìm thấy là 1,3 mili giây (mili giây / mili giây phụ thuộc vào các biện pháp độ trễ hệ thống của bạn được định cấu hình) hoặc thấp hơn. Giống như @tranmq đã nói nếu chúng tôi giảm độ trễ P99 của dịch vụ, chúng tôi có thể tăng hiệu suất của dịch vụ.
Và cũng cần lưu ý đến p95, vì có thể ít yêu cầu khiến p99 đắt hơn p95, ví dụ) các yêu cầu ban đầu xây dựng bộ nhớ cache, các đối tượng lớp nóng lên, luồng init ...
Cuối cùng; chúng ta có thể có khoảng 1% nhiễu trong các phép đo của mình (như tắc nghẽn mạng, ngừng hoạt động, suy giảm dịch vụ), vì vậy độ trễ p99 là một đại diện tốt cho trường hợp xấu nhất trên thực tế. Và, hầu như luôn luôn, mục tiêu của chúng tôi là giảm độ trễ p99.
Should
khôngwill
.