Tôi biết phương tiện k thường được tối ưu hóa bằng cách sử dụng Tối đa hóa kỳ vọng . Tuy nhiên, chúng tôi có thể tối ưu hóa chức năng mất của nó giống như cách chúng tôi tối ưu hóa bất kỳ chức năng nào khác!
Tôi đã tìm thấy một số bài báo thực sự sử dụng gốc dốc ngẫu nhiên cho phương tiện k quy mô lớn, nhưng tôi không thể trả lời câu hỏi của mình.
Vì vậy, có ai biết tại sao lại như vậy không? Có phải vì Tối đa hóa kỳ vọng hội tụ nhanh hơn ? Nó có bất kỳ đảm bảo cụ thể? Hay đó là một lý do lịch sử ?