Bạn đã biết mỗi nhóm thuộc về nhóm nào, vì vậy bạn cần chạy thuật toán phân cụm để đưa ra dự đoán này cho bạn. Câu hỏi của bạn là về khám phá dữ liệu: Bạn đang cố gắng hiểu dữ liệu của mình. Vấn đề thực tế của bạn là một vấn đề phân loại được giám sát (nhiều lớp) và các thuật toán phân cụm không phù hợp với điều đó, bởi vì chúng không được giám sát.
Tôi khuyên bạn nên làm hai việc: Thứ nhất, giảm tính chiều để có thể hình dung. Thứ hai, tính toán số liệu trên bộ dữ liệu chiều cao ban đầu để hiểu rõ hơn.
Để trực quan hóa dữ liệu, tôi khuyên bạn nên sử dụng t-SNE để trực quan hóa theo hai chiều và màu sắc với nhóm dân tộc . Điều này sẽ cho bạn một ý tưởng nếu dữ liệu của bạn tạo thành cụm trong không gian 10k chiều.
Sau đó, nếu bạn muốn cải thiện cảm giác hoặc trực giác về dữ liệu của mình hơn nữa, bằng cách nghĩ về nó theo cụm trong không gian 10 chiều, thì bạn có thể tính toán các số liệu cụm như điểm Silhouette , độ nén của cụm (khoảng cách trung bình đến giữa) hoặc hiển thị khoảng cách giữa các cụm trong bản đồ nhiệt . Bạn có thể hợp nhất hai cụm bằng cách cho chúng cùng một nhãn và xem kết quả của bạn thay đổi như thế nào.
Tôi không thể lường trước được kết quả mà bạn có thể nhận được, vì vậy nó có thể rất sáng, có nghĩa là bạn có thể nói rằng một số cụm rất nhỏ gọn, một số khác rất rộng, một số rất giống với những cái khác, v.v. Nhưng có lẽ, bằng cách sử dụng các phương pháp trên, bạn hoàn toàn không thể hiểu được dữ liệu của mình. Nếu điều đó xảy ra, thì tôi sẽ nói rằng đã đến lúc ngừng suy nghĩ về dữ liệu của bạn như là các điểm trong "không gian gen", với sự khác biệt giữa những người chỉ ra "khoảng cách", v.v. Trong trường hợp này, có thể là ánh xạ từ gen sang sắc tộc việc phân nhóm phức tạp hơn (phi tuyến tính) so với phân cụm không gian, vì vậy bạn cần sử dụng thuật toán phân loại có khả năng mã hóa tính phi tuyến tính này.
Học sâu không có nhiều điều kiện tiên quyết nhưng một trong số đó là nó chỉ có thể mã hóa các chức năng liên tục. Mạng nơ-ron cũng yêu cầu các tính năng đầu vào số, có giá trị thực. Vì vấn đề của bạn có dữ liệu nhị phân và không có lý do gì để nghĩ rằng gen lập bản đồ dân tộc là một chức năng trơn tru, có lẽ các thuật toán dựa trên cây quyết định là một nơi tốt để bắt đầu.
Chúc may mắn! :-)