Đây là một câu hỏi kỳ lạ, tôi biết.
Tôi chỉ là một người mới và cố gắng tìm hiểu về các tùy chọn phân loại khác nhau và cách chúng hoạt động. Vì vậy, tôi đang đặt câu hỏi:
Đưa ra một tập dữ liệu về các kích thước n1 và n2 trong đó mỗi quan sát có thể được phân loại thành các nhóm n3, thuật toán này hiệu quả nhất (lý tưởng chỉ với một lần lặp đào tạo) tạo ra một mô hình (ranh giới phân loại) sẽ phân loại hoàn hảo mọi quan sát trong tập dữ liệu (hoàn toàn quá sức)?
Nói cách khác, làm thế nào để một người dễ dàng phù hợp nhất?
(Xin đừng giảng cho tôi về 'không quá mức'. Đây chỉ là mục đích giáo dục lý thuyết.)
Tôi có một nghi ngờ rằng câu trả lời đại loại như sau: "Chà, nếu số lượng kích thước của bạn lớn hơn số lượng quan sát của bạn, hãy sử dụng thuật toán X để vẽ ranh giới, nếu không hãy sử dụng thuật toán Y."
Tôi cũng có một nghi ngờ rằng câu trả lời sẽ nói: "Bạn có thể vẽ một ranh giới trơn tru, nhưng nó đắt hơn về mặt tính toán so với việc vẽ các đường thẳng giữa tất cả các quan sát được phân loại khác nhau."
Nhưng đó là theo trực giác của tôi sẽ hướng dẫn tôi. Bạn có thể giúp?
Tôi có một ví dụ vẽ tay về những gì tôi nghĩ rằng tôi đang nói về 2D với phân loại nhị phân.
Về cơ bản, chỉ cần phân chia sự khác biệt, phải không? Thuật toán nào thực hiện điều này một cách hiệu quả cho kích thước n?