Giảm kích thước hiệu quả cho tập dữ liệu lớn


12

Tôi có một bộ dữ liệu với ~ 1M hàng và ~ 500K tính năng thưa thớt. Tôi muốn giảm kích thước xuống một nơi nào đó theo thứ tự các tính năng dày đặc 1K-5K.

sklearn.decomposition.PCAkhông hoạt động trên dữ liệu thưa thớt và tôi đã thử sử dụng sklearn.decomposition.TruncatedSVDnhưng gặp lỗi bộ nhớ khá nhanh. Lựa chọn của tôi để giảm kích thước hiệu quả trên quy mô này là gì?

Câu trả lời:


11

Bạn đã nghe nói về Phép tính xấp xỉ và phép chiếu đồng nhất (UMAP) chưa?

UMAP (Phép tính xấp xỉ và phép chiếu đồng nhất) là một kỹ thuật học đa dạng mới lạ để giảm kích thước phi tuyến tính. UMAP được xây dựng từ một khung lý thuyết dựa trên hình học Riemannian và cấu trúc liên kết đại số. Kết quả là một thuật toán có thể mở rộng thực tế áp dụng cho dữ liệu trong thế giới thực. Thuật toán UMAP cạnh tranh với t-SNE về chất lượng hình ảnh và được cho là bảo tồn nhiều hơn cấu trúc toàn cầu với hiệu suất thời gian chạy vượt trội. Hơn nữa, UMAP như được mô tả không có hạn chế tính toán đối với kích thước nhúng, khiến nó trở thành một kỹ thuật giảm kích thước mục đích chung cho học máy.

Kiểm tra giấy tờ gốc của họ để biết danh sách ưu và nhược điểm, nó rất dễ sử dụng.

Thông tin nhanh: UMAP có thể xử lý các bộ dữ liệu lớn và nhanh hơn t-SNE và cũng hỗ trợ phù hợp với dữ liệu ma trận thưa thớt, và trái với t-SNE, một kỹ thuật giảm kích thước mục đích chung, có nghĩa là không chỉ có thể được sử dụng để hiển thị mà còn để giảm không gian tính năng cho ăn vào các mô hình học máy khác.

Ví dụ cụ thể: Tôi đã điểm chuẩn phương pháp và so sánh nó với một số máy tính xách tay chuẩn kỹ thuật giảm kích thước khác , nếu muốn có một cái nhìn nhanh và bắt đầu nhảy.


2
(+1) - UMAP thực sự tuyệt vời! Bạn có thể xem xét cải tổ một chút: Đoạn văn của bạn ở giữa và các gạch đầu dòng follwing lặp lại cùng một thông tin. Ngoài ra, bạn có thể làm cho nó một trích dẫn, vì nó (ít nhiều) được sao chép từ trang web của họ.
n1k31t4

2
Chắc chắn, tôi chắc chắn có thể giảm nó, tôi chỉ muốn chỉ ra chúng ở đây và một số điểm được điều chỉnh lại một chút. Cảm ơn. Dù sao tôi cũng thích UMAP.
TwinPenguins

1
Cảm ơn vì lời giới thiệu! Tôi biết nó như là một thay thế cho t-SNE để trực quan hóa, nhưng không nhận ra rằng nó cũng tốt cho việc giảm kích thước chung.
timleathart

1

Chỉ trong trường hợp mọi người đi qua bài đăng này thấy UMAP không đủ hiệu quả, đây là một số kỹ thuật khác mà tôi đã tìm thấy thậm chí còn hiệu quả hơn (nhưng không phải là chất lượng cao):

  • d × mdmsklearn.random_projection

  • mmsklearn.feature_extraction.FeatureHasher

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.