Cách tiếp cận điển hình là thực hiện một số lần chạy thuật toán tiến hóa (EA) và biểu diễn hiệu suất trung bình theo thời gian (hiệu suất trung bình của mức trung bình dân số KHÔNG chạy tốt nhất ).
Một nguyên tắc nhỏ là thực hiện tối thiểu 30 lần chạy (tất nhiên 50 - 100 lần chạy là tốt hơn).
Trung bình là tốt hơn so với giá trị tốt nhất đạt được trong một tập hợp chạy nhưng phương sai cũng cần được tính đến.
Có một số ví dụ hay trên trang web của Randy Olson :
Thể lực trung bình của cả hai thuật toán qua nhiều lần lặp lại. Từ biểu đồ này, chúng tôi sẽ kết luận rằng thuật toán của chúng tôi hoạt động tốt hơn so với thuật toán tốt nhất hiện tại trung bình.
Thể lực trung bình với khoảng tin cậy 95% cho mỗi thuật toán. Biểu đồ này cho chúng ta thấy rằng thuật toán của chúng tôi không thực sự hoạt động tốt hơn thuật toán tốt nhất hiện tại và chỉ xuất hiện để hoạt động tốt hơn trung bình do tình cờ.
Phân tích cơ bản về cách tính khoảng tin cậy cho trung bình dân số như sau:
Xác định trung bình mẫu . Trong khi khác với , nghĩa là dân số, chúng vẫn được tính theo cùng một cách:x¯x¯μ
x¯= ∑xTôin
Xác định độ lệch chuẩn mẫu (đã sửa) : là ước tính của độ lệch chuẩn dân số .S
S =Σntôi = 1(xTôi-x¯)2n - 1------------√
Sσ
Tính giá trị tới hạn , , của phân phối Student-t. Giá trị này phụ thuộc vào mức độ tin cậy, và số lượng quan sát, .t*Cn
Giá trị tới hạn được tìm thấy từ bảng phân phối t (hầu hết các sách giáo khoa thống kê liệt kê nó). Trong bảng này, được viết là trong đó là bậc tự do (được tìm thấy bằng cách trừ đi một từ số lượng quan sát) và là mức ý nghĩa .t*
t*( α , r )
r = n - 1α =1 - C2
Cách tốt hơn để có giá trị hoàn toàn chính xác là hàm thống kê được triển khai trong bảng tính (ví dụ: hàm ), môi trường máy tính khoa học (ví dụ SciPy ), thư viện ngôn ngữ (ví dụ C ++ và ).t*T.INV.2T
stats.t.ppf
boost::math::students_t
Cắm các giá trị tìm thấy vào các phương trình thích hợp:
(x¯-t*Sn--√,x¯+t*Sn--√)
Bước cuối cùng là diễn giải câu trả lời . Vì câu trả lời tìm thấy là một khoảng với giới hạn trên và dưới nên phù hợp để nói rằng, dựa trên dữ liệu đã cho, giá trị trung bình thực của dân số nằm giữa giới hạn dưới và giới hạn trên với mức độ tin cậy đã chọn.
Khoảng tin cậy của hai thuật toán càng trùng nhau, các thuật toán càng có khả năng thực hiện giống nhau (hoặc chúng tôi chưa lấy mẫu đủ để phân biệt giữa hai thuật toán). Nếu khoảng tin cậy 95% không trùng nhau, thì thuật toán có hiệu suất trung bình cao nhất sẽ hoạt động tốt hơn đáng kể.
Trong EA, phân phối nguồn về cơ bản không bao giờ bình thường và những gì đã nói chính thức chỉ áp dụng nếu đó là phân phối bình thường!
Quả thực nó vẫn kể nhiều điều. Bảng sau đây tóm tắt hiệu suất của các khoảng thời gian trong bốn tình huống:
Normal curve | Not Normal curve
Small sample size (n < 30) Good | Poor
Larger sample size (n ≥ 30) Good | Fair
Để có câu trả lời chính xác hơn , số liệu thống kê không tham số là cách thực hiện (xem phần Giới thiệu về Thống kê để phân tích thử nghiệm EC của Mark Wineberg và Steffen Christensen để biết thêm chi tiết).