Đây là câu hỏi rất rộng , mà tôi nghĩ không thể bao quát toàn diện trong một câu trả lời. Do đó, tôi nghĩ rằng sẽ có ích hơn khi cung cấp một số gợi ý cho các câu trả lời và / hoặc tài nguyên có liên quan. Đây chính xác là những gì tôi sẽ làm bằng cách cung cấp thông tin và suy nghĩ sau đây của tôi.
Trước hết, tôi nên đề cập đến hướng dẫn tuyệt vời và toàn diện về giảm kích thước của Burges (2009) từ Microsoft Research. Ông thường xuyên chạm vào các khía cạnh chiều cao của dữ liệu trong suốt chuyên khảo. Công trình này, đề cập đến việc giảm kích thước như giảm kích thước , trình bày giới thiệu lý thuyết về vấn đề này , gợi ý một cách phân loại các phương pháp giảm kích thước, bao gồm các phương pháp chiếu và phương pháp mô hình hóa , cũng như cung cấp tổng quan về nhiều phương pháp trong mỗi loại.
Các phương pháp "theo đuổi dự án " được xem xét bao gồm phân tích thành phần độc lập (ICA) , phân tích thành phần chính (PCA) và các biến thể của nó, như PCA nhân và PCA xác suất , phân tích tương quan chính tắc (CCA) và biến thể CCA hạt nhân , phân tích phân biệt tuyến tính (LDA ) , giảm kích thước kernel (KDR) và một số thứ khác. Các phương pháp đa dạng được xem xét bao gồm chia tỷ lệ đa chiều (MDS) và biến thể MDS mang tính bước ngoặt của nó , Isomap , Nhúng tuyến tính cục bộvà các phương pháp đồ họa, chẳng hạn như bản đồ điện tử Laplacian và phân cụm phổ . Tôi sẽ liệt kê hầu hết các phương pháp được xem xét ở đây trong trường hợp, nếu ấn phẩm gốc không thể truy cập được cho bạn, trực tuyến (liên kết ở trên) hoặc ngoại tuyến (Tài liệu tham khảo).
Có một sự cảnh báo cho thuật ngữ "toàn diện" mà tôi đã áp dụng cho công việc nêu trên. Mặc dù nó thực sự khá toàn diện, nhưng điều này chỉ là tương đối, vì một số cách tiếp cận để giảm kích thước không được thảo luận trong chuyên khảo, đặc biệt là các phương pháp, tập trung vào các biến không quan sát được (tiềm ẩn) . Tuy nhiên, một số trong số chúng được đề cập với các tài liệu tham khảo đến một nguồn khác - một cuốn sách về giảm kích thước.
Bây giờ, tôi sẽ đề cập ngắn gọn một số khía cạnh hẹp hơn của chủ đề được đề cập bằng cách tham khảo các câu trả lời có liên quan hoặc liên quan của tôi. Liên quan đến các phương pháp tiếp cận hàng xóm (NN) gần nhất với dữ liệu chiều cao, vui lòng xem câu trả lời của tôi ở đây (tôi đặc biệt khuyên bạn nên kiểm tra bài số 4 trong danh sách của tôi). Một trong những ảnh hưởng của lời nguyền về chiều là dữ liệu chiều cao thường xuyên thưa thớt . Xem xét thực tế này, tôi tin rằng các câu trả lời có liên quan của tôi ở đây và ở đây về hồi quy và PCA cho dữ liệu thưa thớt và chiều cao có thể hữu ích.
Người giới thiệu
Burges, CJC (2010). Giảm kích thước: Một tour du lịch có hướng dẫn. Nền tảng và Xu hướng® trong Học máy, 2 (4), 275-365. doi: 10.1561 / 2200000002