Dữ liệu chiều cao: các kỹ thuật hữu ích cần biết là gì?


14

Do những lời nguyền khác nhau về chiều , độ chính xác và tốc độ của nhiều kỹ thuật dự đoán phổ biến làm suy giảm dữ liệu chiều cao. Một số kỹ thuật / thủ thuật / heuristic hữu ích nhất giúp xử lý dữ liệu chiều cao hiệu quả là gì? Ví dụ,

  • Các phương pháp thống kê / mô hình nhất định có thực hiện tốt trên các tập dữ liệu chiều cao không?
  • Chúng ta có thể cải thiện hiệu suất của các mô hình dự đoán của mình trên dữ liệu chiều cao bằng cách sử dụng một số (xác định các khái niệm thay thế về khoảng cách) hoặc hạt nhân (xác định các khái niệm thay thế của sản phẩm chấm) không?
  • Các kỹ thuật hữu ích nhất để giảm kích thước cho dữ liệu chiều cao là gì?

Câu trả lời:


10

Đây là câu hỏi rất rộng , mà tôi nghĩ không thể bao quát toàn diện trong một câu trả lời. Do đó, tôi nghĩ rằng sẽ có ích hơn khi cung cấp một số gợi ý cho các câu trả lời và / hoặc tài nguyên có liên quan. Đây chính xác là những gì tôi sẽ làm bằng cách cung cấp thông tin và suy nghĩ sau đây của tôi.

Trước hết, tôi nên đề cập đến hướng dẫn tuyệt vời và toàn diện về giảm kích thước của Burges (2009) từ Microsoft Research. Ông thường xuyên chạm vào các khía cạnh chiều cao của dữ liệu trong suốt chuyên khảo. Công trình này, đề cập đến việc giảm kích thước như giảm kích thước , trình bày giới thiệu lý thuyết về vấn đề này , gợi ý một cách phân loại các phương pháp giảm kích thước, bao gồm các phương pháp chiếuphương pháp mô hình hóa , cũng như cung cấp tổng quan về nhiều phương pháp trong mỗi loại.

Các phương pháp "theo đuổi dự án " được xem xét bao gồm phân tích thành phần độc lập (ICA) , phân tích thành phần chính (PCA) và các biến thể của nó, như PCA nhânPCA xác suất , phân tích tương quan chính tắc (CCA) và biến thể CCA hạt nhân , phân tích phân biệt tuyến tính (LDA ) , giảm kích thước kernel (KDR) và một số thứ khác. Các phương pháp đa dạng được xem xét bao gồm chia tỷ lệ đa chiều (MDS) và biến thể MDS mang tính bước ngoặt của nó , Isomap , Nhúng tuyến tính cục bộvà các phương pháp đồ họa, chẳng hạn như bản đồ điện tử Laplacianphân cụm phổ . Tôi sẽ liệt kê hầu hết các phương pháp được xem xét ở đây trong trường hợp, nếu ấn phẩm gốc không thể truy cập được cho bạn, trực tuyến (liên kết ở trên) hoặc ngoại tuyến (Tài liệu tham khảo).

Có một sự cảnh báo cho thuật ngữ "toàn diện" mà tôi đã áp dụng cho công việc nêu trên. Mặc dù nó thực sự khá toàn diện, nhưng điều này chỉ là tương đối, vì một số cách tiếp cận để giảm kích thước không được thảo luận trong chuyên khảo, đặc biệt là các phương pháp, tập trung vào các biến không quan sát được (tiềm ẩn) . Tuy nhiên, một số trong số chúng được đề cập với các tài liệu tham khảo đến một nguồn khác - một cuốn sách về giảm kích thước.

Bây giờ, tôi sẽ đề cập ngắn gọn một số khía cạnh hẹp hơn của chủ đề được đề cập bằng cách tham khảo các câu trả lời có liên quan hoặc liên quan của tôi. Liên quan đến các phương pháp tiếp cận hàng xóm (NN) gần nhất với dữ liệu chiều cao, vui lòng xem câu trả lời của tôi ở đây (tôi đặc biệt khuyên bạn nên kiểm tra bài số 4 trong danh sách của tôi). Một trong những ảnh hưởng của lời nguyền về chiều là dữ liệu chiều cao thường xuyên thưa thớt . Xem xét thực tế này, tôi tin rằng các câu trả lời có liên quan của tôi ở đâyở đây về hồi quyPCA cho dữ liệu thưa thớt và chiều cao có thể hữu ích.

Người giới thiệu

Burges, CJC (2010). Giảm kích thước: Một tour du lịch có hướng dẫn. Nền tảng và Xu hướng® trong Học máy, 2 (4), 275-365. doi: 10.1561 / 2200000002


0

Aleksander đã đưa ra một câu trả lời rất toàn diện nhưng có một số ít bị kiện rất rộng rãi:

Để giảm kích thước, PCA được sử dụng. Tuy nhiên, điều này chỉ thực hiện chuyển đổi tuyến tính và để giảm kích thước phi tuyến tính, học tập Manifold là những gì bạn đang tìm kiếm.

Chiếu dữ liệu chiều thấp hơn đến kích thước cao hơn có thể được thực hiện bằng hạt nhân. Bạn thường làm điều này, khi trình phân loại của bạn không thể tìm thấy mặt phẳng phân tách tuyến tính theo chiều hiện tại nhưng sẽ có thể tìm thấy một siêu phẳng tuyến tính phân tách các lớp ở chiều cao hơn. Hạt nhân được sử dụng rộng rãi trong SVM.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.