VC-Kích thước của k-láng giềng gần nhất


10

Kích thước VC của thuật toán lân cận k gần nhất là bao nhiêu nếu k bằng số điểm đào tạo được sử dụng?


Bối cảnh: Câu hỏi này đã được hỏi trong một khóa học tôi tham gia và câu trả lời được đưa ra là 0. Tuy nhiên, tôi không hiểu tại sao lại như vậy. Trực giác của tôi là Kích thước VC phải là 1, vì có thể chọn hai mô hình (nghĩa là tập hợp các điểm đào tạo) sao cho mọi điểm được gắn nhãn là thuộc về một lớp theo mô hình đầu tiên và thuộc về một lớp khác theo mô hình thứ hai, do đó có thể phá vỡ một điểm duy nhất. Đâu là sai lầm trong lý luận của tôi?

Câu trả lời:


2

Bạn nói thuật toán là: thuật toán lân cận k-gần nhất với k = số điểm đào tạo được sử dụng. Tôi định nghĩa đây là jms-k-lân cận hàng xóm .

Do kích thước VC là số điểm đào tạo lớn nhất có thể bị phá vỡ bởi thuật toán có lỗi tàu 0, nên kích thước VC của jms-k-lân cận gần nhất chỉ có thể là k hoặc 0.

1 trường hợp đào tạo => k = 1: Trong quá trình đào tạo, cửa hàng jms-1-lân cận gần nhất chính xác với trường hợp này. Trong ứng dụng trên cùng một tập huấn luyện, một thể hiện là gần nhất với thể hiện đào tạo được lưu trữ (vì chúng giống nhau), do đó lỗi đào tạo là 0.

Vì vậy, tôi đồng ý, kích thước VC ít nhất là 1.

2 trường hợp đào tạo => k = 2: Chỉ có thể có vấn đề nếu các nhãn khác nhau. Trong trường hợp này, câu hỏi là, quyết định cho nhãn lớp được đưa ra như thế nào. Phiếu bầu đa số không dẫn đến kết quả (VC = 0?), Nếu chúng ta sử dụng phiếu bầu đa số có trọng số ngược theo khoảng cách, kích thước VC là 2 (giả sử rằng không được phép có cùng một ví dụ đào tạo hai lần với các nhãn khác nhau, trong đó trong trường hợp kích thước VC của tất cả các thuật toán sẽ là 0 (tôi đoán vậy)).

Không có thuật toán láng giềng k tiêu chuẩn gần nhất, nó là một gia đình có cùng ý tưởng cơ bản nhưng hương vị khác nhau khi nói đến chi tiết thực hiện.

Tài nguyên được sử dụng: slide kích thước VC của Andrew Moore


Cảm ơn, điều đó khá hữu ích. Tôi không biết các trường hợp bạn đánh giá mô hình trên phải giống với các trường hợp được sử dụng để huấn luyện tham số của nó. Tôi sẽ phải suy nghĩ một chút về câu trả lời của bạn và chấp nhận nó sau.
Julius Maximilian Steen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.