Đạo hàm của BFGS trực quan hơn khi người ta xem xét (nghiêm túc) các hàm chi phí lồi:
Tuy nhiên, một số
thông tin cơ bản là cần thiết: Giả sử, người ta muốn giảm thiểu hàm
lồi
f(x)→minx∈Rn.
Nói rằng có một giải pháp gần đúng
xk . Sau đó, một giá trị xấp xỉ tối thiểu của
f bằng mức tối thiểu của phần mở rộng Taylor bị cắt cụt
f(xk+ P ) ≈ f(xk) + ∇ f(xk)Tp + 12pTH( xk) p .( ∗ )
Nghĩa là, người ta tìm
p sao cho
( ∗ ) là tối thiểu và đặt
xk + 1: = xk+ p . Việc tính toán độ dốc của
( ∗ ) - "tương ứng với
p " - và đặt nó thành 0 sẽ tạo ra mối quan hệ
H( xk) [ xk + 1- xk] = ∇ f( xk + 1) - ∇ f( xk) ,
trong đó
H là 'Jacobian của gradient' hoặc ma trận Hessian.
Vì tính toán và đảo ngược của Hessian là đắt đỏ ...
... một câu trả lời ngắn
(xem bản cập nhật của Broyden) có thể là bản cập nhật BFGS H- 1k + 1 giảm thiểu
∥ H- 1k- H- 1∥W
trong một tiêu chuẩn Frobenius có trọng số được lựa chọn thông minh, tùy thuộc vào
- H[ xk + 1- xk] = ∇ f( xk + 1) - ∇ f( xk) - đây là những gì người ta dành cho - và
- HT= H , vì Hessian đối xứng.
Sau đó, lựa chọn trọng số trong là nghịch đảo của Hessian trung bình , cf ở đây cho câu lệnh nhưng không có bằng chứng, đưa ra công thức cập nhật BFGS (với ).‖ H ‖ W : = ‖ W 1 / 2 H W 1 / 2 ‖ F G : = ∫ 1 0 H ( x k + τ p ) d τ alpha k = 1W∥ H∥W: = ∥ W1 / 2HW1 / 2∥F
G : = ∫10H( xk+ τp ) dταk= 1
Những điểm chính là:
- Người ta cố gắng tính gần đúng giải pháp cho chi phí thực tế bằng giải pháp cho xấp xỉ bậc hai
- Tính toán của Hessian, và nghịch đảo của nó, là đắt tiền. Một người thích cập nhật đơn giản.
- Bản cập nhật được chọn tối ưu cho nghịch đảo thay vì Hessian thực tế.
- Đó là bản cập nhật hạng 2 là kết quả của sự lựa chọn đặc biệt về các trọng số trong định mức Frobenius.
Một câu trả lời còn , nên bao gồm làm thế nào để chọn các trọng, làm thế nào để làm cho công việc này cho các vấn đề nonconvex (nơi một độ cong điều kiện xuất hiện đòi hỏi phải có một tỉ lệ của sự chỉ đạo tìm kiếm ), và làm thế nào để lấy được thực tế công thức cho bản cập nhật. Một tài liệu tham khảo ở đây (bằng tiếng Đức).p