Tối đa hóa chức năng nhiễu không xác định


10

Tôi đang quan tâm đến việc tối đa hóa một hàm , nơi θ R p .f(θ)θRp

Vấn đề là tôi không biết dạng phân tích của hàm hoặc các dẫn xuất của hàm. Điều duy nhất mà tôi có thể làm là để đánh giá chức năng point-khôn ngoan, bằng cách cắm vào một giá trị và có được một ước tính NOISY f ( θ * ) tại điểm đó. Nếu tôi muốn tôi có thể giảm độ biến thiên của các ước tính này, nhưng tôi phải trả chi phí tính toán ngày càng tăng. θf^(θ)

Đây là những gì tôi đã cố gắng cho đến nay:

  • Stochastic xuống dốc nhất với sự khác biệt hữu hạn: nó có thể hoạt động nhưng nó đòi hỏi rất nhiều điều chỉnh (ví dụ trình tự đạt được, hệ số tỷ lệ) và nó thường rất không ổn định.

  • Mô phỏng ủ: nó hoạt động và nó đáng tin cậy, nhưng nó đòi hỏi rất nhiều đánh giá chức năng nên tôi thấy nó khá chậm.

Vì vậy, tôi đang yêu cầu đề xuất / ý tưởng về phương pháp tối ưu hóa thay thế có thể có thể hoạt động trong các điều kiện này. Tôi đang giữ vấn đề chung chung nhất có thể để khuyến khích các đề xuất từ ​​các lĩnh vực nghiên cứu khác với tôi. Tôi phải nói thêm rằng tôi sẽ rất hứng thú với một phương pháp có thể cho tôi ước tính về Hessian khi hội tụ. Điều này là do tôi có thể sử dụng nó để ước tính không chắc chắn của các thông số . Nếu không, tôi sẽ phải sử dụng các khác biệt hữu hạn xung quanh mức tối đa để có được ước tính.θ


Nếu bạn không thể nói bất cứ điều gì cụ thể hơn về tiếng ồn liên quan đến đầu ra của chức năng của bạn, tôi không chắc chắn bất cứ điều gì phức tạp hơn so với mô phỏng (thậm chí bạn sẽ phải điều chỉnh điều này, ở một mức độ nào đó), sẽ giúp ích.
Aron Ahmadia

θ

f^(θ)N(f(θ),σ)

Có vẻ như tôi đã sửa lỗi bởi Giáo sư Neumaier :)
Aron Ahmadia

Các nhà vật lý ở đây, tôi đã sử dụng CMA-ES để định hình pha quang học (tối ưu hóa pha của xung laser thông qua một xung), khá ồn.
tillsten

Câu trả lời:


7

SnobFit gói Matlab của chúng tôi đã được tạo ra chính xác cho mục đích này. Không có giả định về sự phân phối của tiếng ồn là cần thiết. Hơn nữa, các giá trị hàm có thể được cung cấp thông qua các tệp văn bản, do đó bạn có thể áp dụng nó cho các hàm được triển khai trong bất kỳ hệ thống nào có thể ghi tệp văn bản. Xem
http://www.mat.univie.ac.at/~neum/software/snobfit/

SnobFit đã được phát triển cho một ứng dụng mà chức năng được tối ưu hóa thậm chí không tồn tại và các giá trị chức năng (thước đo chất lượng sản xuất) được lấy bằng thiết bị chuyên dụng, đắt tiền tạo ra các sản phẩm mẫu và đo bằng tay, dẫn đến khoảng 50 chức năng đánh giá mỗi ngày.


Cảm ơn bạn rất nhiều vì câu trả lời của bạn. Tôi đã bắt đầu đọc bài viết của bạn về gói SnobFit và tôi thấy nó thực sự thú vị. Ngoài ra, trong khi đọc phần giới thiệu bài viết của bạn, tôi nhận ra rằng vấn đề tôi đang giải quyết (trong bối cảnh thống kê) là khá thường xuyên trong toán học công nghiệp. Có một tài liệu rộng lớn mà tôi hoàn toàn không biết. Trên thực tế, cách tiếp cận mà tôi đang thực hiện có phần giống với phương pháp xấp xỉ bậc hai của Powell (2002).
Jugurtha

Snobfit có hoạt động tốt với 128 độ tự do không? Chỉ cần biết nó là giá trị để thử cho trường hợp của tôi.
tillsten

@tillsten: Không có phương pháp nào cho vấn đề nhiễu hoạt động tốt với 128 dof trừ khi bạn có thể chi tiêu một số lượng lớn các giá trị hàm. Mặc dù vậy, bạn có thể thử VXQR1 của chúng tôi, đây không phải là vấn đề ồn ào, nhưng đôi khi xử lý tốt các vấn đề ồn ào.
Arnold Neumaier

Giới hạn cho Snobfit là khoảng 20 biến. nếu bạn có nhiều hơn, bạn cần chọn theo nhóm ý thức chung gồm 20 biến mà bạn tối ưu hóa một phần lần lượt. Hoặc bạn có thể để trượt một số biến đồng thời để giảm kích thước.
Arnold Neumaier

7

Có một số kỹ thuật tối ưu hóa Bayes bạn có thể thử. Dễ nhất là dựa trên quá trình Gaussian:

  • Harold J. Kushner. Một phương pháp mới để xác định vị trí tối đa của một đường cong đa cực tùy ý khi có nhiễu. Tạp chí Kỹ thuật cơ bản, trang 86: 97 Từ106, tháng 3 năm 1964.
  • J. Mockus. Cách tiếp cận Bayes để tối ưu hóa toàn cầu. Bài giảng trong khoa học điều khiển và thông tin, 38: 473 Hay481, 1982.
  • Niranjan Srinivas, Andreas Krause, Sham Kakade và Matthias Seeger. Tối ưu hóa quy trình Gaussian trong cài đặt tên cướp: Không hối tiếc và thiết kế thử nghiệm. Trong Proc. Hội nghị quốc tế về học máy (ICML), 2010.
  • Andreas Krause, Ajit Singh và Carlos Guestrin. Vị trí cảm biến gần tối ưu trong các quy trình Gaussian: Lý thuyết, thuật toán hiệu quả và nghiên cứu thực nghiệm. J. Mach. Học hỏi. Res., 9: 235 Từ284, tháng 6 năm 2008.

Chúng hoạt động bằng cách hình thành một hậu thế đối với các chức năng hợp lý cho đến nay quan sát và gợi ý điểm tiếp theo để nhanh chóng tìm hiểu chức năng cũng như tìm cực đại toàn cầu (xem bài đăng trên blog của tôi ).

Một lợi thế khác là bạn có thể ước tính Hessian ở cực đại. Tuy nhiên, bạn cần chỉ định một mô hình tiếng ồn.


4

Thuật toán SPSA của James Spall (viết tắt của Stochastic Perturbation mô phỏng, nếu tôi nhớ chính xác) đã được thiết kế cho chính xác loại vấn đề này. Anh ta có một vài tờ giấy mà anh ta sử dụng nó cho các vấn đề như những gì bạn mô tả.


Tôi đã thử cách tiếp cận của Spall dựa trên một phiên bản ngẫu nhiên của dòng dõi dốc nhất và Raphson Newton. Tôi đã thử Mô phỏng luyện kim, nhưng không phải là phiên bản được đề xuất bởi Spall, tôi nên thử nó. Tôi không thực sự hào hứng với việc mô phỏng, vì tôi không thể ước tính được Hessian khi hội tụ (ví dụ, với Raphson Newton ngẫu nhiên, tôi có thể có được xấp xỉ với Hessian "miễn phí").
Jugurtha
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.