Tôi đang làm việc trên các số liệu thống kê cho các bản dựng phần mềm. Tôi có dữ liệu cho mỗi bản dựng vào thời gian qua / thất bại và thời gian trôi qua và chúng tôi tạo ra ~ 200 trong số này / tuần.
Tỷ lệ thành công rất dễ tổng hợp, tôi có thể nói rằng 45% đã vượt qua bất kỳ tuần nào. Nhưng tôi cũng muốn tổng hợp thời gian đã trôi qua và tôi muốn chắc chắn rằng mình không trình bày sai dữ liệu quá tệ. Hình tôi muốn hỏi những ưu điểm :-)
Nói rằng tôi có 10 thời lượng. Họ đại diện cho cả trường hợp vượt qua và thất bại. Một số bản dựng bị lỗi ngay lập tức, khiến thời lượng ngắn một cách bất thường. Một số bị treo trong quá trình thử nghiệm và cuối cùng là hết thời gian, gây ra thời lượng rất dài. Chúng tôi xây dựng các sản phẩm khác nhau, do đó, ngay cả các bản dựng thành công cũng khác nhau trong khoảng từ 90 giây đến 4 giờ.
Tôi có thể có được một bộ như thế này:
[50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100]
Cách tiếp cận đầu tiên của tôi là lấy thời gian trung bình bằng cách sắp xếp tập hợp và chọn giá trị trung bình, trong trường hợp này là 7812 (tôi không bận tâm đến ý nghĩa số học cho các tập hợp số chẵn).
Thật không may, điều này dường như tạo ra rất nhiều biến thể, vì tôi chỉ chọn ra một giá trị nhất định. Vì vậy, nếu tôi định xu hướng giá trị này, nó sẽ bật lên trong khoảng 5000-10000 giây tùy thuộc vào việc xây dựng ở mức trung bình.
Vì vậy, để giải quyết vấn đề này, tôi đã thử một cách tiếp cận khác - loại bỏ các ngoại lệ và sau đó tính giá trị trung bình trên các giá trị còn lại. Tôi quyết định tách nó thành tertiles và chỉ hoạt động ở phần giữa:
[50, 60, 155, 3014, 7812, 8378, 8993, 9100, 13400, 21011] ->
[50, 60, 155], [3014, 7812, 8378, 8993], [9100, 13400, 21011] ->
[3014, 7812, 8378, 8993]
Lý do điều này có vẻ tốt hơn với tôi là hai lần:
- Chúng tôi không muốn bất kỳ hành động nào đối với các bản dựng nhanh hơn, chúng đã ổn
- Các bản dựng dài nhất có khả năng hết thời gian, và sẽ luôn ở đó. Chúng tôi có các cơ chế khác để phát hiện những
Vì vậy, dường như đây là dữ liệu tôi đang tìm kiếm, nhưng tôi lo lắng rằng tôi đã đạt được sự thông suốt bằng cách loại bỏ, tốt, sự thật.
Đây có phải là tranh cãi? Là phương pháp lành mạnh?
Cảm ơn!