Kích thước VC của cây quyết định là gì?


17

Là gì chiều vc của một cây quyết định với k chia theo hai chiều? Giả sử mô hình là GIỎ HÀNG và các phân chia được phép duy nhất song song với các trục.

Vì vậy, đối với một lần phân chia, chúng ta có thể sắp xếp 3 điểm trong một hình tam giác và sau đó cho bất kỳ ghi nhãn nào về các điểm chúng ta có thể có được dự đoán hoàn hảo (ví dụ: các điểm bị phá vỡ)

Nhưng những gì về 2 chia, hoặc bất kỳ k chung?

Câu trả lời:


13

Tôi không chắc đây là một câu hỏi với một câu trả lời đơn giản, tôi cũng không tin đó là một câu hỏi thậm chí cần phải được hỏi về cây quyết định.

Tham khảo ý kiến Aslan et al. , Tính toán kích thước VC của cây (2009). Họ giải quyết vấn đề này bằng cách thực hiện tìm kiếm toàn diện, trong các cây nhỏ, và sau đó cung cấp một công thức đệ quy gần đúng để ước tính kích thước VC trên các cây lớn hơn. Sau đó, họ sử dụng công thức này như là một phần của thuật toán cắt tỉa. Đã có câu trả lời dạng đóng cho câu hỏi của bạn, tôi chắc chắn họ sẽ cung cấp nó. Họ cảm thấy cần phải lặp đi lặp lại qua những cái cây khá nhỏ.

Giá trị hai xu của tôi. Tôi không chắc rằng việc nói về chiều kích của VC cho các quyết định là điều có ý nghĩa. Xem xét một phản ứng chiều , trong đó mỗi mục là kết quả nhị phân. Đây là tình huống được xem xét bởi Aslan et al. Có kết quả có thể có trong không gian mẫu này và các mẫu phản ứng có thể. Nếu tôi xây dựng một cây hoàn chỉnh, với các cấp và lá, thì tôi có thể phá vỡ bất kỳ mẫu nào củad2d2dd2d2dphản ứng. Nhưng không ai phù hợp với cây hoàn chỉnh. Thông thường, bạn quá phù hợp và sau đó cắt tỉa lại bằng cách sử dụng xác nhận chéo. Những gì bạn nhận được ở cuối là một cây nhỏ hơn và đơn giản hơn, nhưng bộ giả thuyết của bạn vẫn còn lớn. Aslan et al. cố gắng ước tính kích thước VC của các họ cây đẳng cấu. Mỗi gia đình là một giả thuyết được đặt với kích thước VC riêng.

nhập mô tả hình ảnh ở đây

Bức ảnh trước minh họa một cây cho một không gian có phá vỡ 4 điểm: . Mục thứ tư là "phản hồi". Aslan et al. sẽ coi một cây có hình dạng giống nhau, nhưng sử dụng và , giả sử, là đẳng cấu và là một phần của cùng một giả thuyết được đặt. Vì vậy, mặc dù chỉ có 3 lá trên mỗi cây này, nhưng nhóm cây như vậy có thể phá vỡ 4 điểm và kích thước VC là 4 trong trường hợp này. Tuy nhiên, cùng một cây có thể xảy ra trong một không gian có 4 biến, trong trường hợp đó, kích thước VC sẽ là 5. Vì vậy, nó phức tạp.d= =3(1,0,0,1),(1,1,1,0),(0,1,0,1),(1,1,0,1)x1x2

Giải pháp vũ lực của Aslan dường như hoạt động khá tốt, nhưng những gì họ nhận được không thực sự là chiều kích của các thuật toán mà mọi người sử dụng, vì chúng dựa vào việc cắt tỉa và xác thực chéo. Thật khó để nói không gian giả thuyết thực sự là gì, vì về nguyên tắc, chúng ta bắt đầu với một số lượng cây có thể bị phá vỡ, nhưng sau đó cắt tỉa trở lại một cái gì đó hợp lý hơn. Ngay cả khi ai đó bắt đầu với một lựa chọn tiên nghiệm không vượt quá hai lớp, có thể, vẫn có thể cần phải tỉa cây. Và chúng tôi không thực sự cần kích thước VC, vì xác thực chéo sẽ xảy ra sau khi hết lỗi mẫu trực tiếp.

Để công bằng với Aslan và cộng sự, họ không sử dụng kích thước VC để mô tả không gian giả thuyết của họ. Họ tính toán kích thước VC của các nhánh và sử dụng số lượng đó để xác định xem có nên cắt nhánh đó không. Ở mỗi giai đoạn, họ sử dụng kích thước VC của cấu hình cụ thể của nhánh đang được xem xét. Họ không nhìn vào khía cạnh VC của vấn đề nói chung.

Nếu các biến của bạn là liên tục và phản hồi phụ thuộc vào việc đạt đến ngưỡng, thì về cơ bản, cây quyết định sẽ tạo ra một loạt các tri giác, do đó, kích thước VC có lẽ sẽ lớn hơn thế (vì bạn phải ước tính điểm cắt để phân tách) . Nếu phản hồi phụ thuộc đơn điệu vào phản hồi liên tục, GIỎI sẽ cắt nó thành một loạt các bước, cố gắng tạo lại mô hình hồi quy. Tôi sẽ không sử dụng cây trong trường hợp đó - có thể là gam hoặc hồi quy.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.