Học máy thường liên quan đến tối ưu hóa một chức năng có nhiều tối thiểu cục bộ. Mạng lưới thần kinh feedforward với các đơn vị ẩn là một ví dụ tốt. Cho dù các chức năng này là rời rạc hay liên tục, không có phương pháp nào đạt được mức tối thiểu toàn cầu và dừng lại. Thật dễ dàng để chứng minh rằng không có thuật toán chung để tìm mức tối thiểu toàn cầu của hàm liên tục ngay cả khi nó là một chiều và trơn tru (có vô số dẫn xuất). Trong thực tế, tất cả các thuật toán để học các mạng thần kinh bị mắc kẹt ở mức tối thiểu cục bộ. Thật dễ dàng để kiểm tra điều này: tạo một mạng nơ-ron ngẫu nhiên, tạo một tập hợp lớn các phản hồi của nó với các đầu vào ngẫu nhiên, sau đó thử tìm hiểu một mạng nơ-ron khác có cùng kiến trúc để sao chép các phản hồi. Trong khi giải pháp hoàn hảo tồn tại, không phải backpropagation không phải bất kỳ thuật toán học tập nào khác sẽ có thể khám phá ra nó,
Một số phương pháp học tập, như mô phỏng ủ hoặc thuật toán di truyền, khám phá nhiều phương pháp tối thiểu cục bộ. Đối với các hàm liên tục, có các phương thức như độ dốc gốc, tìm mức tối thiểu cục bộ gần nhất. Chúng nhanh hơn nhiều, đó là lý do tại sao chúng được sử dụng rộng rãi trong thực tế. Nhưng được cung cấp đủ thời gian, nhóm phương pháp cũ vượt trội hơn về sau về lỗi tập huấn luyện. Nhưng với những hạn chế về thời gian hợp lý, đối với các vấn đề trong thế giới thực, nhóm sau thường tốt hơn.
Đối với một số mô hình, như hồi quy logistic, có một mức tối thiểu cục bộ, hàm là lồi, tối thiểu hóa hội tụ đến mức tối thiểu, nhưng bản thân các mô hình là đơn giản.
Đó là sự thật cay đắng.
Cũng lưu ý rằng bằng chứng về sự hội tụ và bằng chứng về sự hội tụ cho giải pháp tốt nhất là hai điều khác nhau. Thuật toán K-mean là một ví dụ về điều này.
Cuối cùng, đối với một số mô hình, chúng tôi không biết cách học. Ví dụ: nếu đầu ra là một hàm tính toán tùy ý của đầu vào, chúng ta không biết các thuật toán tốt, trong thời gian hợp lý, tìm một máy Turing hoặc máy tương đương thực hiện chức năng này. Chẳng hạn, nếu f (1) = 2, f (2) = 3, f (3) = 5, f (4) = 7, ..., f (10) = 29 (mười số nguyên tố đầu tiên), chúng tôi không Không biết bất kỳ thuật toán học nào có thể dự đoán, trong thời gian hợp lý, rằng f (11) = 31, trừ khi nó đã biết khái niệm số nguyên tố.