Tính nhất quán của quá trình học tập


9

Tôi có hai câu hỏi liên quan đến khái niệm "tính nhất quán trong học tập" đối với những người quen thuộc với lý thuyết học thống kê a la Vapnik.

Câu hỏi 1.
Quá trình học tập được gọi là nhất quán (đối với lớp chức năngF và phân phối xác suất P) nếu

Remp(fl)PinffFR(f),l
R(fl)PinffFR(f),l

Hai điều kiện này là độc lập. Trên P. 83 trong "Lý thuyết học thống kê" của Vapnik có một ví dụ về một bộ phân loại sao cho sự hội tụ thứ hai diễn ra nhưng lần thứ nhất thì không. Tôi đã suy nghĩ về một ví dụ về một tập hợp các phân loại sao cho sự hội tụ đầu tiên diễn ra nhưng lần thứ hai thì không, và không thể đưa ra bất cứ điều gì. bất cứ ai có thể giúp tôi ở đây?F

Câu hỏi 2.
Quá trình học tập được gọi là nhất quán không nhất quán (hoặc nhất quán theo nguyên tắc) (đối với lớp hàm và phân phối xác suất ) nếu với bất kỳ số thực nào sao cho đặt không trống chúng ta có:FPcRΛ(c)={f|R(f)c}

infflΛ(c)Remp(ftôi)= =Remp(ftôi*)Pthông tinfΛ(c)R(f),tôi

Trang 81 của "Lý thuyết học thống kê" của LinkedInnik cung cấp một minh họa về lý do tại sao chúng tôi muốn xem xét tính nhất quán nghiêm ngặt thay vì tính nhất quán được xác định trong Câu hỏi 1, tức là tại sao chúng tôi muốn giới thiệu và xem xét cho bất kỳ . Tất cả các văn bản khác xem xét tính nhất quán nghiêm ngặt về cơ bản đều trùng lặp minh họa của LinkedInnik khi họ muốn giải thích lý do căn bản đằng sau khái niệm về tính nhất quán nghiêm ngặt. Tuy nhiên, tôi không thực sự hài lòng với minh họa của Vapnik vì 2 lý do: thứ nhất, nó được thực hiện dưới dạng các hàm mấtΛ(c)thông tinfΛ(c)cQ(z,α)và không phải là các bộ phân loại, và, thứ hai, Hình 3.2. từ cuốn sách không thực sự có ý nghĩa khi chúng ta xem xét hàm mất chung cho các vấn đề phân loại, nghĩa là hàm bằng 0 khi nhãn lớp dự đoán bằng với nhãn lớp thực và 1 khác.

Vì vậy, có thể đưa ra một minh họa khác, hợp lý hơn, về sự hợp lý đằng sau khái niệm về tính nhất quán nghiêm ngặt? Về cơ bản, chúng ta cần một ví dụ về một bộ phân loại sao cho các phân loại này không nhất quán (theo định nghĩa của Câu hỏi 1) và một số phân loại mới hoạt động tốt hơn bất kỳ phân loại nào từ tập hợp, để khi chúng ta thêm các phân loại này đến tập hợp chúng ta kết thúc với trường hợp "tính nhất quán tầm thường". Có ý kiến ​​gì không?

Câu trả lời:


1

Đối với Câu hỏi 1 của bạn, tôi có một ví dụ, nhưng nó yêu cầu hàm mất để lấy giá trị . Tôi khá chắc chắn rằng chúng ta có thể đưa ra một ví dụ chỉ yêu cầu một hàm mất không giới hạn, nhưng đó sẽ là một công việc nhiều hơn để xây dựng. Một câu hỏi mở là liệu có một ví dụ với hàm mất giới hạn.

Hãy xem xét cài đặt phân loại, trong đó phân phối xác suất nằm trên một khoảng . Chúng tôi sẽ biểu thị một ví dụ bằng , với và . Đặt là không gian của tất cả các hàm phân loại trên . Xác định hàm mấtPZ= =X×{0,1}z= =(x,y)xXy{0,1}F= =X{0,1}X

Q(z,f)= =Q((x,y),f)= ={0cho f(x)= =ynếu không thì,
cho mọi . Nói cách khác, cho dù bạn có sai một ví dụ hay tất cả đều sai, rủi ro của bạn làfF .

Bây giờ, giả sử X={x1,x2,} là một số vô hạn được thiết lập, và hãy P là bất kỳ phân phối xác suất nào P({xi})>0 cho tất cả i=1,2,. Ngoài ra, hãy giả sử rằng có một chức năng phân loại xác định, tức là có tồn tại cFyi=c(xi) cho i=1,2,.... Điều này ngụ ý rằnginffFR(f)=0.

Sau đó cho mỗi l, Remp(fl)=0, nhưng R(fl)= (trừ khi có một sự lựa chọn cực kỳ may mắn ftôi* trong số tất cả những người fF0lỗi thực nghiệm). Như vậyRemp(ftôi*)thông tinfFR(f), nhưng R(ftôi*) không hội tụ đến giá trị đó.

Đối với Câu hỏi 2, tôi đồng ý rằng ví dụ của anh ấy dường như không áp dụng cho trường hợp phân loại và tôi không thấy một cách rõ ràng để làm ví dụ như vậy.


Cảm ơn bạn, @DavidR. Đây là một ví dụ thú vị khi thực sựRemp(ftôi*)= =0 bất cứ gì tôiftôi*, nhưng R(ftôi*)= = khi nào ftôi*cR(ftôi*)= =0 khi nào ftôi*= =c. Điều này cho thấy định nghĩa về tính nhất quán nên bao gồm "cho bất kỳftôi*"phần.
Leo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.