Có phải là vô nghĩa khi sử dụng thuật toán tối ưu hóa dựa trên độ dốc nếu bạn chỉ có thể cung cấp một gradient số? Nếu không, tại sao lại cung cấp một gradient số ở vị trí đầu tiên nếu nó không quan trọng để thực hiện phân biệt hữu hạn cho chính thư viện tối ưu hóa?
[BIÊN TẬP]
Chỉ cần làm rõ, câu hỏi của tôi thực sự là trong một ý nghĩa chung hơn là một ứng dụng cụ thể. Mặc dù lĩnh vực ứng dụng của tôi xảy ra là khả năng tối ưu hóa theo các khung thống kê khác nhau.
Vấn đề của tôi với sự khác biệt tự động là dường như luôn luôn có một nhược điểm. Thư viện AD không thể truyền tới các cuộc gọi thư viện bên ngoài (như BLAS) hoặc bạn phải làm lại quy trình công việc của mình mạnh mẽ đến mức gây khó khăn cho việc xử lý ... đặc biệt là nếu bạn đang làm việc với các ngôn ngữ nhạy cảm. Sự kìm kẹp của tôi với AD là một vấn đề riêng biệt hoàn toàn. Nhưng tôi muốn tin!
Tôi đoán tôi cần phải hình thành tốt hơn câu hỏi của mình nhưng tôi đang làm một công việc tồi tệ. Nếu có một tùy chọn để sử dụng thuật toán tối ưu hóa không có đạo hàm hoặc thuật toán tối ưu hóa dựa trên đạo hàm với sự cảnh báo mà tôi chỉ có thể cung cấp cho nó một độ dốc số, thì trung bình sẽ vượt trội hơn?