Lựa chọn các tham số cho thuật toán di truyền


9

Làm thế nào người ta có thể chọn số lượng tham số thích hợp cho một thuật toán di truyền để mô hình hóa một hệ thống nhất định?

Ví dụ: giả sử bạn muốn tối ưu hóa việc sản xuất ô tô và bạn có 1.000 phép đo hiệu quả hàng giờ ở các nhiệm vụ khác nhau cho mỗi 1.000 nhân viên khác nhau. Vì vậy, bạn có 1.000.000 điểm dữ liệu. Hầu hết trong số này là có khả năng bị yếu liên quan đến hiệu quả tổng thể của nhà máy của bạn, nhưng không vì thế yếu mà bạn có thể nói rằng họ không liên quan với sự tự tin thống kê. Làm thế nào để bạn đi về việc chọn đầu vào cho GA của mình để bạn không có hơn 1.000.000 độ tự do, dẫn đến sự hội tụ rất chậm hoặc không có sự hội tụ nào cả?

Cụ thể, các thuật toán người ta có thể sử dụng để chọn trước hoặc loại bỏ có chọn lọc các tính năng là gì?

Một cách tiếp cận mà tôi đã sử dụng cho mình trong kịch bản này là phát triển lựa chọn tham số, vì vậy tôi có thể có cha mẹ thích {a,b,c}, {b,d,e,q,x,y,z}v.v. Sau đó tôi sẽ thay đổi các con để thêm hoặc bỏ các tính năng. Điều này hoạt động tốt cho một vài chục tính năng. Nhưng vấn đề là nó không hiệu quả nếu có một số lượng lớn tự do. Trong trường hợp đó, bạn đang xem các 10^nkết hợp (trong ví dụ ở trên 10^1,000,000), điều này làm cho một số tính năng lọc trước trở nên quan trọng để có được bất kỳ loại hiệu suất hữu ích nào.

Câu trả lời:


11

Trước hết - ví dụ này có vẻ không phù hợp lắm vì có lẽ bạn sẽ sử dụng một số phương pháp hồi quy hoặc ML cổ điển để giải quyết vấn đề này. Thứ hai - bạn đang đề cập đến một vấn đề chung về lựa chọn tính năng (Kira, Rendell, 1992) hoặc lựa chọn thuộc tính (Hall, Holmes, 2003) hoặc lựa chọn biến (Guyon, Elisseeff, 2003) hoặc lựa chọn tập hợp con biến (Stecking, Schebesch, 2005) hoặc trích xuất tính năng (Hillion, Masson, Roux, 1988) hoặc giảm kích thước (Roweis, Saul, 200) hoặc trừu tượng hóa nhà nước (Amarel, 1968). Vấn đề này không chỉ liên quan đến các thuật toán di truyền mà còn đối với hầu hết tất cả các kỹ thuật máy học khi xử lý dữ liệu chiều cao.

Có thể phân biệt ba trường hợp ở đây: trường hợp cuối cùng của vấn đề này được gọi là trừu tượng hóa trạng thái thường liên quan đến mô hình hóa quy trình (phù hợp với ví dụ của bạn, nhưng không phải là bối cảnh GA). Ba lựa chọn đầu tiên, tức là lựa chọn tính năng , lựa chọn thuộc tính hoặc lựa chọn biến có vẻ phù hợp nhất khi lấy câu hỏi của bạn theo nghĩa đen. Trong bối cảnh này, một giải pháp phổ biến là phương pháp mRMR (Bành, Long, Đinh, 2005) . Theo kinh nghiệm của tôi, nó không phải lúc nào cũng hoạt động tốt với dữ liệu liên tục - tuy nhiên, thông tin lẫn nhau có thể được thay thế bằng các hệ số khác, chẳng hạn như tương quan chẳng hạn. Một cách tiếp cận khả thi khác là sử dụng xác nhận chéo (Picard, Cook, 1984)cho điều này Bạn có thể có nhiều mô hình, mỗi mô hình sử dụng các tính năng khác nhau và bằng phương pháp lựa chọn mô hình với các kỹ thuật xác thực chéo, bạn chọn mô hình tốt nhất, cung cấp cho bạn thông tin về tính năng nào hoạt động tốt nhất cho tác vụ nhất định.

Các trường hợp trích xuất tính nănggiảm kích thước cho phép không chỉ chọn các tính năng ban đầu mà cả các kết hợp của chúng. Một giải pháp ví dụ nổi tiếng cho trường hợp này là thuật toán PCA (Pearson, 1901) , tạo ra tối ưu, về phương sai được giải thích, tập hợp các tính năng là kết hợp tuyến tính của các tính năng đầu vào.

Cũng lưu ý rằng, có nhiều mô hình tự xử lý tác vụ trích xuất tính năng. Một số ví dụ là: Phát triển mạng khí thần kinh (Fritzke, 1995) , LASSO (Tibshirani, 2011) , RFE SVM (Zeng, Chen, Tao, 2009) , Cây quyết định (Quinlan, 1986) .

Người giới thiệu:


3

Tôi chưa bao giờ làm điều này trước đây và rõ ràng là không có quyền truy cập vào dữ liệu đã nói, nhưng một cách tốt để thực hiện việc này sẽ thông qua việc phân cụm . Đối với mỗi nhân viên, chúng tôi có một vectơ n chiều, trong đó mỗi chiều tương ứng với một nhiệm vụ khác nhau. Sau đó, chúng ta có thể sử dụng phân cụm để nhóm các nhân viên "tương tự" lại với nhau; tuy nhiên, điều này sẽ chỉ phụ thuộc vào dữ liệu của bạn, nghĩa là chỉ có 1000 nhân viên phân cụm sẽ mang lại các nhóm nhân viên không thực sự liên quan đến nhau, và vì vậy trong khi chúng ta có thể giảm dân số, thì nó có thể là chi phí mất thông tin.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.