Vì vậy, tôi đã có một ma trận có kích thước khoảng 60 x 1000. Tôi đang xem nó như 60 đối tượng với 1000 tính năng; 60 đối tượng được nhóm thành 3 lớp (a, b, c). 20 đối tượng trong mỗi lớp, và chúng tôi biết phân loại thực sự. Tôi muốn học có giám sát trên bộ 60 ví dụ đào tạo này và tôi quan tâm đến cả độ chính xác của phân loại (và các số liệu liên quan) cũng như lựa chọn tính năng trên 1000 tính năng.
Đầu tiên, danh pháp của tôi như thế nào?
Bây giờ câu hỏi thực sự:
Tôi có thể ném các khu rừng ngẫu nhiên vào nó như đã nêu, hoặc bất kỳ số lượng phân loại khác. Nhưng có một sự tinh tế - tôi thực sự chỉ quan tâm đến việc phân biệt lớp c với lớp a và b. Tôi có thể gộp các lớp a và b, nhưng có cách nào tốt để sử dụng kiến thức tiên nghiệm rằng tất cả các đối tượng không phải c có thể tạo thành hai cụm khác nhau không? Tôi thích sử dụng các khu rừng ngẫu nhiên hoặc một biến thể của chúng, vì nó được chứng minh là có hiệu quả trên dữ liệu tương tự như của tôi. Nhưng tôi có thể bị thuyết phục để thử một số phương pháp khác.