Ưu điểm của tối ưu hóa dòng hạt so với tối ưu hóa Bayes để điều chỉnh siêu tham số?


18

Có nghiên cứu đương đại đáng kể về Tối ưu hóa Bayes (1) để điều chỉnh siêu âm ML. Động lực thúc đẩy ở đây là cần có một số điểm dữ liệu tối thiểu để đưa ra lựa chọn sáng suốt về những điểm đáng thử (các cuộc gọi hàm mục tiêu rất tốn kém, vì vậy làm cho ít hơn là tốt hơn) bởi vì đào tạo một mô hình tốn nhiều thời gian - một cách khiêm tốn - các vấn đề lớn về SVM mà tôi đã làm việc có thể mất từ ​​vài phút đến vài giờ để hoàn thành.

Mặt khác, Optunity là một triển khai hạt nhỏ để giải quyết cho cùng một nhiệm vụ. Tôi không quá quen thuộc với PSO, nhưng có vẻ như nó phải kém hiệu quả hơn theo nghĩa yêu cầu số lượng điểm thử nghiệm lớn hơn, và do đó đánh giá chức năng khách quan, để đánh giá bề mặt siêu tham số.

Tôi có thiếu một chi tiết quan trọng khiến PSO ưa thích BO trong bối cảnh học máy không? Hoặc là sự lựa chọn giữa hai luôn luôn theo ngữ cảnh cho nhiệm vụ điều chỉnh siêu tham số?


(1) Shahriari et al, "Đưa con người ra khỏi vòng lặp: Đánh giá về Bayesian Optimizaiton."


không cần gradient. làm việc không liên tục. hiệu quả vừa phải. xử lý một số kích thước. xử lý tiếng ồn tốt. Có tích hợp mạnh mẽ của công cụ ước tính.
EngrStudent - Tái lập lại

@EngrStudent Bạn có thể nói tất cả những điều đó về BO, ngoại trừ BO có vẻ hiệu quả hơn vì nó yêu cầu số lượng đánh giá chức năng ít hơn, ít nhất là trong tính toán của tôi. Tôi không hỏi về PSO nói chung, tôi đang hỏi về giá trị của nó so với BO.
Sycorax nói Phục hồi lại

1
Không đủ kiến ​​thức về chủ đề này để biến câu trả lời dứt khoát này, nhưng tôi nghĩ Tối ưu hóa Bayes phải chịu chung số phận như hầu hết các trình tối ưu hóa hiệu quả với các vấn đề đa phương thức (xem: 95% các vấn đề về máy học) mức tối thiểu địa phương gần nhất mà không "khảo sát" không gian toàn cầu. Tôi nghĩ Particle Swarm sẽ may mắn hơn khi tìm thấy mức tối thiểu không phải của địa phương.
Vách đá AB

2
Xin lỗi vì tôi đến bữa tiệc muộn, không biết làm cách nào tôi bỏ qua một câu hỏi về Optunity quá lâu! :-)
Marc Claesen

1
@MarcClaesen Tôi phải thừa nhận, tôi đã hy vọng rằng bạn sẽ tìm thấy thời gian để trả lời tại một số điểm. Muộn hay không, tôi nghĩ tất cả chúng ta đều vui mừng vì bạn đã đến.
Sycorax nói Phục hồi Monica

Câu trả lời:


25

Là nhà phát triển chính của Optunity, tôi sẽ thêm hai xu của mình.

Chúng tôi đã thực hiện các điểm chuẩn rộng rãi so sánh Optunity với các bộ giải Bayes phổ biến nhất (ví dụ: hyperopt, SMAC, bayesopt) về các vấn đề trong thế giới thực và kết quả cho thấy PSO trên thực tế không kém hiệu quả trong nhiều trường hợp thực tế. Trong điểm chuẩn của chúng tôi, bao gồm điều chỉnh các phân loại SVM trên các bộ dữ liệu khác nhau, Optunity thực sự hiệu quả hơn hyperopt và SMAC, nhưng kém hiệu quả hơn một chút so với BayesOpt. Tôi rất muốn chia sẻ kết quả ở đây, nhưng tôi sẽ đợi cho đến khi Optunity cuối cùng được xuất bản trên JMLR (đang được xem xét trong hơn một năm nay, vì vậy đừng nín thở ...).

Như bạn chỉ ra, hiệu quả tăng lên là một điểm bán hàng thường được sử dụng để tối ưu hóa Bayes, nhưng trong thực tế, nó chỉ giữ nước nếu các giả định của các mô hình thay thế cơ bản nắm giữ, khác xa với tầm thường. Trong các thử nghiệm của chúng tôi, bộ giải PSO rất đơn giản của Optunity thường cạnh tranh với các phương pháp Bayes phức tạp về số lượng các đánh giá chức năng. Người giải quyết Bayes hoạt động rất tốt khi được cung cấp với các linh mục giỏi, nhưng với một người không thông tin trước đó, hầu như không có lợi ích cấu trúc so với các phương pháp siêu hình như PSO về hiệu quả.

Một điểm bán hàng lớn cho PSO là thực tế nó song song. Tối ưu hóa Bayes thường khó song song, do tính chất tuần tự vốn có của nó (việc thực hiện hyperopt là ngoại lệ thực sự duy nhất). Có cơ hội để phân phối, đang trở thành tiêu chuẩn, Optunity nhanh chóng dẫn đầu về thời gian đồng hồ treo tường để có được giải pháp tốt.

Một điểm khác biệt chính giữa Optunity và hầu hết các thư viện tối ưu hóa siêu tham số chuyên dụng khác là đối tượng mục tiêu: Optunity có giao diện đơn giản nhất và được nhắm đến các chuyên gia học máy không, trong khi hầu hết các thư viện khác yêu cầu hiểu biết về tối ưu hóa Bayesian để sử dụng hiệu quả (nghĩa là nhắm vào các chuyên gia).

Lý do chúng tôi tạo ra thư viện là mặc dù thực tế tồn tại các phương pháp tối ưu hóa siêu tham số chuyên dụng, nhưng chúng thiếu sự chấp nhận trong thực tế. Hầu hết mọi người vẫn không điều chỉnh gì cả, thực hiện thủ công hoặc thông qua các phương pháp ngây thơ như lưới hoặc tìm kiếm ngẫu nhiên. Theo chúng tôi, một lý do chính cho điều này là do các thư viện hiện có trước khi phát triển Optunity quá khó sử dụng về mặt cài đặt, tài liệu, API và thường bị giới hạn trong một môi trường.


4
Như đã thông báo một câu trả lời như chúng ta có thể nhận được! Tôi tò mò: bạn nói rằng bộ giải PSO cạnh tranh với các phương pháp Tối ưu hóa Bayes. Có phải để nói rằng PSO chạy song song được tìm thấy là nhanh hơn Bayseian Tối ưu hóa chạy tuần tự ? Không cố tỏ ra khó hiểu, nhưng đó là một sự khác biệt quan trọng đối với tôi để hiểu.
Vách đá AB

2
Không, cả hai chạy tuần tự. Trong các thử nghiệm của chúng tôi (điều chỉnh các SVM), hiệu quả của tối ưu hóa PSO và Bayes là cạnh tranh về số lượng các đánh giá chức năng. Chúng tôi đã không so sánh hiệu quả về thời gian của đồng hồ treo tường trong các cài đặt phân tán vì đó sẽ là một chút ảnh rẻ vì nhiều phương pháp tối ưu hóa Bayes đơn giản là không thể làm điều đó.
Marc Claesen

Nó thật thú vị. Bất kỳ suy nghĩ như tại sao? Bề mặt siêu tham số không ổn định?
Vách đá AB

3
Tôi nghĩ rằng có một số lý do. Đối với một, các bề mặt siêu tham số có rất nhiều tối ưu cục bộ (ví dụ, do hiệu ứng mẫu hữu hạn, nếp gấp xác thực chéo, tính ngẫu nhiên vốn có trong một số phương pháp học tập). Thứ hai, tối ưu hóa Bayes phụ thuộc vào việc xây dựng các hàm mục tiêu thay thế chính xác, đây không phải là một nhiệm vụ dễ dàng cho đến khi hàm mục tiêu đã được lấy mẫu nhiều lần. Tối ưu hóa Bayes mất một thời gian trước khi hội tụ tăng tốc (một chi tiết thường bị bỏ qua). Vào thời điểm đó, các phương pháp siêu hình như PSO cũng đã đạt đến giai đoạn tìm kiếm cục bộ của họ. PSO rất tốt trong tìm kiếm địa phương.
Marc Claesen

4
+1 cho một câu trả lời xuất sắc. Tôi đã xây dựng phần mềm BO của riêng mình, điều mà tôi phải thừa nhận phần lớn là một dự án phù phiếm vào thời điểm này, vì vậy tôi hiểu cách thức thủ tục BO hoạt động một cách chi tiết; Tôi rất vui vì tôi có thể bắt đầu vạch ra bề mặt của những gì khác đang diễn ra trong thế giới điều chỉnh siêu tham số. Nhận xét của bạn về cách tiếp cận ngây thơ thực sự rất hợp với tôi, vì một trong những chương trình điều chỉnh ngây thơ cũ của tôi đã điều chỉnh một mô hình trong một tuần nay mà không có kết thúc ... Cảm ơn sự đóng góp của bạn, và tôi chắc chắn tôi sẽ có nhiều câu hỏi hơn một khi tôi tiêu hóa điều này.
Sycorax nói Phục hồi Monica

0

Câu trả lời là phụ thuộc vào vấn đề và không thể được đưa ra mà không có ngữ cảnh bổ sung. Thông thường, câu trả lời sẽ đi như sau. Tối ưu hóa Bayes phù hợp hơn cho các vấn đề chiều thấp với ngân sách tính toán có thể nói gấp 10 - 100 lần số lượng biến. PSO có thể khá hiệu quả đối với ngân sách lớn hơn nhiều nhưng không phải là công nghệ tiên tiến nhất.


Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.