Phân phối nào được sử dụng phổ biến nhất để mô hình hóa thời gian đáp ứng của máy chủ?


16

Tôi có một ứng dụng dựa trên servlet trong đó tôi đo thời gian thực hiện để hoàn thành mỗi yêu cầu đối với servlet đó. Tôi đã tính các số liệu thống kê đơn giản như trung bình và tối đa; Tuy nhiên, tôi muốn đưa ra một số phân tích tinh vi hơn và để làm như vậy tôi tin rằng tôi cần mô hình hóa chính xác các thời gian phản hồi này.

Chắc chắn, tôi nói, thời gian phản hồi tuân theo một số phân phối nổi tiếng, và có những lý do chính đáng để tin rằng phân phối là mô hình phù hợp. Tuy nhiên, tôi không biết phân phối này nên là gì.

Log-normal và Gamma xuất hiện trong tâm trí và bạn có thể tạo một trong những loại dữ liệu thời gian phản hồi thực phù hợp. Có ai có quan điểm về phân phối thời gian phản hồi nên tuân theo không?

Câu trả lời:


16

Các phân phối Log-Normal là một trong tôi thấy tốt nhất mô tả độ trễ của thời gian đáp ứng máy chủ trên tất cả các cơ sở người dùng trong một khoảng thời gian.

Bạn có thể thấy một số ví dụ tại trang web được đặt tên khéo léo logn normal.com có hoạt động đo lường phân phối độ trễ của trang theo thời gian và hơn thế nữa. Tôi không có liên kết với trang web ngoại trừ việc là một người dùng hạnh phúc. Đây là cách phân phối trông như thế nào; thời gian phản hồi (ví dụ tải trang web) so với số phản hồi:

một bản phân phối thông thường

Lưu ý rằng trong biểu đồ này, thang thời gian tải (trục X) là tuyến tính. Nếu bạn chuyển trục x sang thang đo log, hình dạng phân phối sẽ trông bình thường hơn (hình chuông) ở phía bên phải của đỉnh.


PDF này thực sự trông giống như một Fréchet theo ý kiến ​​của tôi.
usεr11852 nói Phục hồi Monic

4

Ví dụ đồ thị.  Xem bài viết để có thêm chiều sâu.

Nghiên cứu của tôi cho thấy mô hình tốt nhất được xác định bởi một vài điều: 1) Bạn có quan tâm đến cơ thể, đuôi hoặc cả hai? Nếu không phải là "cả hai", mô hình hóa một bộ dữ liệu được lọc có thể hữu ích hơn. 2) Bạn muốn một cái rất đơn giản hay rất chính xác? tức là có bao nhiêu tham số?

Nếu câu trả lời cho 1 là "cả hai" và 2 là "đơn giản", Pareto dường như hoạt động tốt nhất. Mặt khác, nếu 1 là "cơ thể" và 2 là "đơn giản" - hãy chọn mô hình erlang được lọc. Nếu 1 là "cả hai" và 2 là "chính xác", bạn có thể muốn một mô hình hỗn hợp gaussian trên dữ liệu của bạn trong miền nhật ký - thực sự là một sự phù hợp logic.

Gần đây tôi đã nghiên cứu về vấn đề này và tôi không tìm thấy chủ đề được đưa tin đầy đủ trên internet công cộng, vì vậy tôi chỉ viết một bài đăng trên blog chi tiết nghiên cứu của tôi về chủ đề này.


1
Cảm ơn biểu đồ. Dựa trên phân phối ba phương thức (đại khái) mà bạn có, tôi tin rằng đây không phải là một cài đặt (máy chủ đơn) đơn giản. Bạn dường như có một số phần mềm trung gian hoặc back-end chậm hơn. Những điều này làm cho phản hồi tổng thể bị chậm lại khi máy chủ đối diện người dùng chờ đợi các hệ thống con phụ có khả năng được lưu trong bộ nhớ cache để phản hồi. Ngoài ra, không rõ trục X và Y đại diện cho cái gì. Bạn đã đảo ngược thời gian tải (trục X ban đầu) và đếm (trục Y ban đầu) chưa?
thân

Cảm ơn phản hồi của bạn! Bộ dữ liệu nguồn gần giống với ping hơn so với yêu cầu dịch vụ web, nhưng tôi đoán rằng phân phối chính thống chủ yếu là do hai điều: 1) Sự không đối xứng hai chế độ chính là do hai đường dẫn mạng, trong khi 2) đuôi thứ 3 thành phần là do các kịch bản phục hồi lỗi tcp. Đó chỉ là dự đoán mặc dù ... trọng tâm chính của tôi là tiện ích theo kinh nghiệm của nhiều mô hình khác nhau, không phải là quy trình và lý thuyết. Tôi không hoàn toàn chắc chắn những gì bạn đang hỏi về trục ngược, mặc dù ... bạn có một ví dụ nào không?
Andrew Charneski

Ngoài ra, lời xin lỗi của tôi trên đồ họa cẩu thả. Trục x là micro giây và trục y là mật độ xác suất. (Vâng, tôi biết ... xin lỗi ... hãy xem cuốn sổ tay cho khoa học tái tạo.)
Andrew Charneski
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.