Tôi cảm ơn Aryeh vì đã chú ý đến câu hỏi này.
Như những người khác đã đề cập, câu trả lời cho (1) là Có , và các phương pháp đơn giản của thực nghiệm nguy cơ Giảm thiểu trong C đạt được O((d/ε)log(1/ε)) mẫu phức tạp (xem Vapnik và Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler và Warmuth, 1989).
Đối với (2), đó là trong thực tế được biết rằng có tồn tại không gian C
nơi không có thuật toán học thích hợp đạt được tốt hơn so với Ω((d/ε)log(1/ε)) phức tạp mẫu, và học tập vì thế thích hợp không thể đạt được sự tối ưu O(d/ε) mẫu phức tạp. Theo hiểu biết của tôi, thực tế này chưa bao giờ được công bố, nhưng bắt nguồn từ một lập luận liên quan của Daniely và Shalev-Shwartz (COLT 2014) (ban đầu được đặt ra cho một câu hỏi khác, nhưng có liên quan, trong học tập đa phương).
Xét trường hợp đơn giản d=1 và đặt khoảng X là {1,2,...,1/ε} và C là singletons fz(x):=I[x=z],z∈X : nghĩa là, mỗi phân loại trong C phân loại chính xác một điểm từ X là 1 và các điểm khác là 0. Đối với giá thấp hơn bị ràng buộc, mất chức năng mục tiêu như một singleton ngẫu nhiên fx∗ , nơi x∗∼Uniform(X) , và P , sự phân bố biên của X , là thống nhất trên X∖{x∗} . Bây giờ người học không bao giờ thấy bất kỳ ví dụ nào được gắn nhãn 1 , nhưng nó phải chọn một điểm z để đoán được gắn nhãn 1 (quan trọng là hàm `` all zero '' không có trong C, Vì vậy bất kỳ người học thích hợp phải đoán một số z ), và cho đến khi nó đã nhìn thấy tất cả các điểm trong X∖{x∗} có ít nhất 1/2 cơ hội đoán sai (ví dụ, xác suất sau của nó fz có z≠x∗ ít nhất là 1/2 ). Đối số nhà sưu tập coupon ngụ ý nó sẽ đòi hỏi Ω((1/ε)log(1/ε))các mẫu để xem mọi điểm trong X∖{x∗} . Vì vậy, điều này chứng tỏ giới hạn dưới là Ω ( ( 1 / ε ) log( 1 / ε ) ) cho tất cả các học viên thích hợp.
Đối với chung d> 1 , chúng tôi lấy X là { 1 , 2 , . . . , d/ (4ε)} , lấy C làm phân loại TôiMột cho các bộ A ⊂ X có kích thước chính xác d , chọn hàm mục tiêu ngẫu nhiên từ C và lấy P làm đồng nhất trên chỉ các điểm mà hàm mục tiêu phân loại 0 ( vì vậy người học không bao giờ thấy một điểm được dán nhãn 1). Sau đó, một khái quát của đối số coupon-collector ngụ ý chúng ta cần các mẫu Ω ( ( d/ ε)nhật ký( 1 / ε ) ) để xem ít nhất | X| -2ngày điểm khác biệt với X , và không nhìn thấy điều này rất nhiều điểm khác biệt bất kỳ người học thích hợp có ít nhất 1 / 3 cơ hội nhận được lớn hơn d/ 4 của đoán của nó Một của d điểm sai trong giả thuyết lựa chọn của nó hMột, Có nghĩa là tỷ lệ lỗi của nó lớn hơn ε . Vì vậy, trong trường hợp này, không có người học thích hợp với độ phức tạp mẫu nhỏ hơn Ω ( ( d/ ε)nhật ký( 1 / ε ) ) , có nghĩa là không học đúng đắn đạt được mẫu tối ưu độ phức tạp Ô ( d/ ε) .
Lưu ý rằng kết quả khá cụ thể đối với không gian C xây dựng. Có tồn tại không gian C nơi người học thích hợp có thể đạt được độ phức tạp mẫu tối ưu Ô ( d/ ε) và thực sự ngay cả biểu thức đầy đủ chính xác O ( ( d/ ε)+(1 / ε)nhật ký( 1 / δ) ) từ ( Hanneke, 2016a). Một số giới hạn trên và dưới cho người học ERM nói chung đã được phát triển trong (Hanneke, 2016b), được định lượng theo các thuộc tính của không gian C, cũng như thảo luận về một số trường hợp chuyên biệt hơn, nơi người học thích hợp cụ thể đôi khi có thể đạt được độ phức tạp mẫu tối ưu.
Người giới thiệu:
Vapnik và Chervonenkis (1974). Lý thuyết về nhận dạng mẫu. Nauka, Matxcơva, 1974.
Blumer, Ehrenfeucht, Haussler và Warmuth (1989). Khả năng học hỏi và kích thước của LinkedInnik-Chervonenkis. Tạp chí của Hiệp hội Máy móc Máy tính, 36 (4): 929 Từ965.
Daniely và Shalev-Shwartz (2014). Người học tối ưu cho các vấn đề đa kính. Trong Kỷ yếu của Hội nghị lần thứ 27 về Lý thuyết học tập.
Hanneke (2016a). Độ phức tạp mẫu tối ưu của việc học PAC. Tạp chí Nghiên cứu Máy học, Tập. 17 (38), trang 1-15.
Hanneke (2016b). Giới hạn lỗi được tinh chỉnh cho một số thuật toán học tập. Tạp chí Nghiên cứu Máy học, Tập. 17 (135), trang 1-55.