PAC học tập đúng giới hạn kích thước VC


11

Người ta biết rằng đối với một lớp khái niệm C có kích thước VC , nó có đủ các ví dụ được gắn nhãn học . Tôi không rõ liệu thuật toán học PAC (sử dụng nhiều mẫu này) là đúng hay không đúng? Trong sách giáo khoa của Kearns và Vazirani cũng như Anthony và Bigss, có vẻ như thuật toán học PAC không đúng (ví dụ, giả thuyết đầu ra không nằm trong )O ( ddCCÔi(dεđăng nhập1ε)CC

  1. Ai đó có thể làm rõ nếu một giới hạn trên tương tự giữ cho cài đặt học tập PAC thích hợp không? Nếu vậy, bạn có thể cho tôi một tài liệu tham khảo trong đó điều này được đề cập rõ ràng và cũng có một bằng chứng độc lập?

  2. Gần đây Hanneke đã cải thiện giới hạn này bằng cách loại bỏ yếu tố . Ai đó có thể làm rõ nếu được biết là có thể tháo rời cho cài đặt học PAC phù hợp không? Hay nó vẫn là một câu hỏi mở?log ( 1 / ε )đăng nhập(1/ε)đăng nhập(1/ε)


Đây là giấy Hanneke mà bạn đang đề cập đến?
tốt nghiệp

Câu trả lời:


9

Tôi cảm ơn Aryeh vì đã chú ý đến câu hỏi này.

Như những người khác đã đề cập, câu trả lời cho (1) là , và các phương pháp đơn giản của thực nghiệm nguy cơ Giảm thiểu trong C đạt được Ôi((d/ε)đăng nhập(1/ε)) mẫu phức tạp (xem Vapnik và Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler và Warmuth, 1989).

Đối với (2), đó là trong thực tế được biết rằng có tồn tại không gian C nơi không có thuật toán học thích hợp đạt được tốt hơn so với Ω((d/ε)đăng nhập(1/ε)) phức tạp mẫu, và học tập vì thế thích hợp không thể đạt được sự tối ưu Ôi(d/ε) mẫu phức tạp. Theo hiểu biết của tôi, thực tế này chưa bao giờ được công bố, nhưng bắt nguồn từ một lập luận liên quan của Daniely và Shalev-Shwartz (COLT 2014) (ban đầu được đặt ra cho một câu hỏi khác, nhưng có liên quan, trong học tập đa phương).

Xét trường hợp đơn giản d= =1 và đặt khoảng X{1,2,...,1/ε}C là singletons fz(x): =Tôi[x= =z],zX : nghĩa là, mỗi phân loại trong C phân loại chính xác một điểm từ X1 và các điểm khác là 0. Đối với giá thấp hơn bị ràng buộc, mất chức năng mục tiêu như một singleton ngẫu nhiên fx* , nơi x*~BạnnTôiform(X) , và P , sự phân bố biên của X , là thống nhất trên X{x*} . Bây giờ người học không bao giờ thấy bất kỳ ví dụ nào được gắn nhãn 1 , nhưng nó phải chọn một điểm z để đoán được gắn nhãn 1 (quan trọng là hàm `` all zero '' không có trong C, Vì vậy bất kỳ người học thích hợp phải đoán một số z ), và cho đến khi nó đã nhìn thấy tất cả các điểm trong X{x*} có ít nhất 1/2 cơ hội đoán sai (ví dụ, xác suất sau của nó fzzx* ít nhất là 1/2 ). Đối số nhà sưu tập coupon ngụ ý nó sẽ đòi hỏi Ω((1/ε)đăng nhập(1/ε))các mẫu để xem mọi điểm trong X{x*} . Vì vậy, điều này chứng tỏ giới hạn dưới là Ω((1/ε)đăng nhập(1/ε)) cho tất cả các học viên thích hợp.

Đối với chung d>1 , chúng tôi lấy X{1,2,...,d/(4ε)} , lấy C làm phân loại TôiMột cho các bộ MộtX có kích thước chính xác d , chọn hàm mục tiêu ngẫu nhiên từ C và lấy P làm đồng nhất trên chỉ các điểm mà hàm mục tiêu phân loại 0 ( vì vậy người học không bao giờ thấy một điểm được dán nhãn 1). Sau đó, một khái quát của đối số coupon-collector ngụ ý chúng ta cần các mẫu Ω((d/ε)đăng nhập(1/ε)) để xem ít nhất |X|-2d điểm khác biệt với X , và không nhìn thấy điều này rất nhiều điểm khác biệt bất kỳ người học thích hợp có ít nhất 1/3 cơ hội nhận được lớn hơn d/4 của đoán của nó Một của d điểm sai trong giả thuyết lựa chọn của nó hMột, Có nghĩa là tỷ lệ lỗi của nó lớn hơn ε . Vì vậy, trong trường hợp này, không có người học thích hợp với độ phức tạp mẫu nhỏ hơn Ω((d/ε)đăng nhập(1/ε)) , có nghĩa là không học đúng đắn đạt được mẫu tối ưu độ phức tạp Ôi(d/ε) .

Lưu ý rằng kết quả khá cụ thể đối với không gian C xây dựng. Có tồn tại không gian C nơi người học thích hợp có thể đạt được độ phức tạp mẫu tối ưu Ôi(d/ε) và thực sự ngay cả biểu thức đầy đủ chính xác Ôi((d/ε)+(1/ε)đăng nhập(1/δ)) từ ( Hanneke, 2016a). Một số giới hạn trên và dưới cho người học ERM nói chung đã được phát triển trong (Hanneke, 2016b), được định lượng theo các thuộc tính của không gian C, cũng như thảo luận về một số trường hợp chuyên biệt hơn, nơi người học thích hợp cụ thể đôi khi có thể đạt được độ phức tạp mẫu tối ưu.

Người giới thiệu:

Vapnik và Chervonenkis (1974). Lý thuyết về nhận dạng mẫu. Nauka, Matxcơva, 1974.

Blumer, Ehrenfeucht, Haussler và Warmuth (1989). Khả năng học hỏi và kích thước của LinkedInnik-Chervonenkis. Tạp chí của Hiệp hội Máy móc Máy tính, 36 (4): 929 Từ965.

Daniely và Shalev-Shwartz (2014). Người học tối ưu cho các vấn đề đa kính. Trong Kỷ yếu của Hội nghị lần thứ 27 về Lý thuyết học tập.

Hanneke (2016a). Độ phức tạp mẫu tối ưu của việc học PAC. Tạp chí Nghiên cứu Máy học, Tập. 17 (38), trang 1-15.

Hanneke (2016b). Giới hạn lỗi được tinh chỉnh cho một số thuật toán học tập. Tạp chí Nghiên cứu Máy học, Tập. 17 (135), trang 1-55.


Thú vị ... Có một đặc tính tổ hợp của các lớp mà việc học PAC phù hợp là tối ưu mẫu? Hoặc ít nhất là đủ điều kiện (đóng cửa dưới ngã tư, liên minh?)C
Clement C.

2
@ClementC. Không có đặc điểm hoàn chỉnh nào được biết đến trong đó các lớp có tỷ lệ tối ưu có thể đạt được bởi những người học thích hợp nói chung. Bài viết tham khảo "Giới hạn lỗi tinh chỉnh ..." đưa ra một đặc tính kết hợp trong đó các lớp chấp nhận mức giá tối ưu cho tất cả những người học ERM (Hệ quả 14). Số lượng có liên quan là "số sao": số điểm lớn nhất sao cho người ta có thể lật bất kỳ nhãn nào mà không thay đổi các điểm khác (Định nghĩa 9). Các lớp đóng giao nhau có một người học thích hợp tối ưu: alg "đóng" (Định lý 5 trong bài báo, và cũng được chứng minh bởi Darnstädt, 2015).
S. Hanneke

Cảm ơn bạn!
Clement C.

6

Câu hỏi của bạn (1) và (2) có liên quan. Trước tiên, hãy nói về học tập PAC thích hợp. Được biết rằng có những người học PAC thích rằng đạt zero lỗi mẫu, tuy nhiên đòi hỏi ví dụ. Đối với một bằng chứng đơn giản củaεphụ thuộc, hãy xem xét các lớp khái niệm về khoảng thời gian[một,b][0,1]dưới sự phân bố đồng đều. Nếu chúng ta chọnnhỏ nhấtkhoảng phù hợp, chúng tôi thực sự có được một độ phức tạp của mẫuO(1/ε). Tuy nhiên, giả sử, chúng tôi chọn khoảngnhấtquánlớnnhất và khái niệm đích là một khoảng điểm như[0,0]Ω(dεđăng nhập1ε)ε[một,b][0,1]Ôi(1/ε)[0,0]. Sau đó, một đối số phiếu giảm giá đơn giản cho thấy rằng trừ khi chúng tôi nhận được khoảng ví dụ, chúng ta sẽ bị lừa bởi khoảng cách giữa những ví dụ tiêu cực (chỉ loại chúng ta sẽ thấy) - trong đó có hành vi đặc trưng của1/[cỡ mẫu] dưới sự phân bố đồng đều. Giới hạn chung chung hơn của loại này được đưa ra trong1εđăng nhập1ε1/

P. Auer, R. Ortner. Một PAC mới bị ràng buộc cho các lớp khái niệm đóng giao nhau. Học máy 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pub/PAC-intcloses.pdf

Vấn đề của PAC thích hợp là để có kết quả tích cực trong trường hợp trừu tượng, người ta không thể chỉ định một thuật toán ngoài ERM, trong đó có nội dung "tìm một khái niệm phù hợp với mẫu được dán nhãn". Khi bạn có cấu trúc bổ sung, chẳng hạn như các khoảng, bạn có thể kiểm tra hai thuật toán ERM khác nhau, như trên: một phân đoạn nhất quán tối thiểu và tối đa. Và chúng có độ phức tạp mẫu khác nhau!

Sức mạnh của PAC không phù hợp là bạn có thể thiết kế các chương trình bỏ phiếu khác nhau (kết quả của Hanneke là như vậy) - và cấu trúc bổ sung này cho phép bạn chứng minh tỷ lệ được cải thiện. (Câu chuyện đơn giản hơn đối với PAC bất khả tri, trong đó ERM cung cấp cho bạn tỷ lệ trường hợp xấu nhất có thể xảy ra, lên đến hằng số.)

Biên tập. Bây giờ nó xảy ra với tôi rằng chiến lược dự đoán đồ thị bao gồm 1 của D. Haussler, N. Littlestone, Md K. Warmuth. Dự đoán {0,1} -Các liên kết trên các điểm được rút ngẫu nhiên. Thông tin Tính toán. 115 (2): 248-292 (1994) có thể là một ứng cử viên tự nhiên cho phổ thích hợp PAC học.Ôi(d/ε)


Cảm ơn! Ok, vì vậy nếu tôi hiểu bạn một cách chính xác, mức độ phức tạp mẫu học tập PAC không đúng là và cho thích hợp PAC học đó là Θ ( d / ε log ( 1 / ε ) ) , thấp hơn giới hạn cho con người sau đạt được cho ví dụ bạn đưa ra. Có đúng không? Θ(d/ϵ)Θ(d/ϵlog(1/ϵ))
Đồng nghĩa

Có, với sự bảo lưu nhỏ rằng đối với PAC không phù hợp, bạn cần sử dụng một thuật toán cụ thể (của Hanneke) - không chỉ bất kỳ ERM cũ nào. Hãy chấp nhận câu trả lời :)
Aryeh

Tôi đến bữa tiệc muộn, nhưng không phải là PAC-PAC được đề cập ở trên ràng buộc độ phức tạp mẫu thấp hơn giới hạn cho một thuật toán học cụ thể (hoặc lớp bị hạn chế) chỉ? Ý tôi là, không có hạn chế như vậy, về mặt lý thuyết không có sự tách biệt giữa PAC đúng và không đúng, phải không? (Và do đó không tách mà không cần giả định tính toán, chẳng hạn như hoặc tương tự))?NPRP
Clement C.

1
Định nghĩa thông thường về khả năng học hỏi PAC yêu cầu các thuật toán đa thời gian. Quan điểm của tôi là (i) thư giãn rằng, đúng và không đúng có cùng độ phức tạp mẫu; (ii) với yêu cầu này, chúng tôi không thể chứng minh sự tách biệt vô điều kiện giữa đúng và không phù hợp (vì về cơ bản nó sẽ chứng minh một cái gì đó như NP không bằng RP). (Tuy nhiên, chúng tôi có thể chứng minh giới hạn thấp hơn về độ phức tạp mẫu của các thuật toán học tập phù hợp cụ thể , tuy nhiên, theo như tôi hiểu là những gì tài liệu tham khảo của Aryeh làm.)
Clement C.

1
@ClementC. Trong một trong những nhận xét trước đây của bạn, bạn đã đề cập sau khi chạy thuật toán PAC không phù hợp, người học có được một giả thuyết không chính xác và người học có thể tìm ra giả thuyết thích hợp gần nhất từ ​​lớp khái niệm (không cần thêm mẫu nào). Nhưng làm thế nào người học có thể làm điều này mà không biết phân phối mà nó đang được đưa ra mẫu? Không phải là gần nhất được đo theo một phân phối chưa biết?
Đồng nghĩa

5

Để thêm vào câu trả lời hiện được chấp nhận:

  1. Đúng. Các độ phức tạp mẫu cũng giữ giới hạn trên cho việc học PAC thích hợp(mặc dù điều quan trọng cần lưu ý là nó có thể không dẫn đến thuật toán học hiệu quả tính toán. Điều này là bình thường, trừ khiNP=RPbiết rằng một số lớp là không hiệu quả PAC có thể học được. Cf. vd: Định lý 1.3 trong cuốn sách Vearnirani của Kearns mà bạn đề cập). Điều này thực sự thể hiện trong cuốn sách Kearns-Vazirani (Định lý 3.3), kể từ khiLcó một giả thuyết phù hợp với công cụ tìm lớp giả thuyếtH=C. Xem thêm [1].

    Ôi(dεđăng nhập1ε)
    NP= =RPLH= =C
  2. Không xác định. Thuật toán của Hanneke [2] là một thuật toán học tập không phù hợp. Liệu yếu tố bổ sung ( 1 / ε ) này trong độ phức tạp mẫu có thể được loại bỏ để học PAC đúng hay không (về mặt lý thuyết, tức là đặt ra bất kỳ yêu cầu hiệu quả tính toán nào) vẫn là một câu hỏi mở. Cf. các câu hỏi mở ở cuối [3]:đăng nhập(1/ε)

    Cổ điển, nó vẫn là một câu hỏi mở xem -factor ở phía trên bên ràng buộc của [1] cho ( ε , δ ) -proper PAC học tập là cần thiết.đăng nhập(1/ε)(ε,δ)

    (Chú thích 1 trong cùng một bài viết cũng có liên quan)


[1] A. Blumer, A. Ehrenfeucht, D. Haussler và MK Warmuth. Khả năng học hỏi và kích thước của LinkedInnik-Chervonenkis. Tạp chí ACM, 36 (4): 929 Lâu965, 1989.

[2] S. Hanneke. Độ phức tạp mẫu tối ưu của việc học PAC. J. Mach. Học hỏi. Độ phân giải 17, 1, 1319-1333, 2016.

[3] S. Arunachalam và R. de Wolf. Độ phức tạp mẫu lượng tử tối ưu của các thuật toán học tập. Trong Kỷ yếu của Hội nghị phức tạp tính toán lần thứ 32 (CCC), 2017.


Có phải nó được phỏng đoán rằng đồ thị bao gồm 1 của Haussler et al. một người học PAC tối ưu như vậy?
Aryeh

@Aryeh Tôi không chắc. Từ những gì tôi có thể tìm thấy, Warmuth đã phỏng đoán như vậy vào năm 2004. Tôi không biết nhiều hơn thế.
Clement C.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.