Làm thế nào người ta có thể chọn số lượng tham số thích hợp cho một thuật toán di truyền để mô hình hóa một hệ thống nhất định?
Ví dụ: giả sử bạn muốn tối ưu hóa việc sản xuất ô tô và bạn có 1.000 phép đo hiệu quả hàng giờ ở các nhiệm vụ khác nhau cho mỗi 1.000 nhân viên khác nhau. Vì vậy, bạn có 1.000.000 điểm dữ liệu. Hầu hết trong số này là có khả năng bị yếu liên quan đến hiệu quả tổng thể của nhà máy của bạn, nhưng không vì thế yếu mà bạn có thể nói rằng họ không liên quan với sự tự tin thống kê. Làm thế nào để bạn đi về việc chọn đầu vào cho GA của mình để bạn không có hơn 1.000.000 độ tự do, dẫn đến sự hội tụ rất chậm hoặc không có sự hội tụ nào cả?
Cụ thể, các thuật toán người ta có thể sử dụng để chọn trước hoặc loại bỏ có chọn lọc các tính năng là gì?
Một cách tiếp cận mà tôi đã sử dụng cho mình trong kịch bản này là phát triển lựa chọn tham số, vì vậy tôi có thể có cha mẹ thích {a,b,c}
, {b,d,e,q,x,y,z}
v.v. Sau đó tôi sẽ thay đổi các con để thêm hoặc bỏ các tính năng. Điều này hoạt động tốt cho một vài chục tính năng. Nhưng vấn đề là nó không hiệu quả nếu có một số lượng lớn tự do. Trong trường hợp đó, bạn đang xem các 10^n
kết hợp (trong ví dụ ở trên 10^1,000,000
), điều này làm cho một số tính năng lọc trước trở nên quan trọng để có được bất kỳ loại hiệu suất hữu ích nào.