Giảm kích thước


9

Xem xét số lượng các tính năng không đổi, Barnes-Hut t-SNE có độ phức tạp là , các phép chiếu ngẫu nhiên và PCA có độ phức tạp của làm cho chúng "có giá phải chăng" cho các tập dữ liệu rất lớn.O ( n )O(nlogn)O(n)

Mặt khác, các phương pháp dựa trên tỷ lệ đa chiều có độ phức tạp .O(n2)

Có các kỹ thuật giảm kích thước khác (ngoài các kỹ thuật tầm thường, như nhìn vào các cột đầu tiên , tất nhiên) có độ phức tạp thấp hơn không?O ( n log n )kO(nlogn)

Câu trả lời:


5

Một lựa chọn thú vị sẽ là khám phá giảm kích thước dựa trên thần kinh. Loại mạng được sử dụng phổ biến nhất để giảm kích thước, bộ mã hóa tự động, có thể được đào tạo với chi phí , trong đó đại diện cho các lần lặp đào tạo (là một siêu tham số độc lập với dữ liệu đào tạo) . Do đó, độ phức tạp đào tạo đơn giản hóa thành .i O ( n )O(in)iO(n)

Bạn có thể bắt đầu bằng cách xem qua công việc hội thảo năm 2006 của Hinton và Salakhutdinov [1]. Kể từ đó, mọi thứ đã phát triển rất nhiều. Bây giờ hầu hết sự chú ý đều đạt được bởi Bộ biến đổi tự động biến đổi [2], nhưng ý tưởng cơ bản (một mạng tái tạo lại đầu vào ở lớp đầu ra của nó với lớp nút cổ chai ở giữa) vẫn giữ nguyên. Lưu ý rằng, trái ngược với PCA và RP, bộ tự động thực hiện giảm kích thước phi tuyến. Ngoài ra, trái ngược với t-SNE, bộ tự động có thể biến đổi các mẫu không nhìn thấy mà không cần phải đào tạo lại toàn bộ mô hình.

Về mặt thực tế, tôi khuyên bạn nên xem bài đăng này , trong đó cung cấp chi tiết về cách triển khai các loại trình tự động khác nhau với thư viện tuyệt vời Keras.

[1] Hinton, GE, & Salakhutdinov, RR (2006). Giảm tính chiều của dữ liệu với các mạng thần kinh. khoa học, 313 (5786), 504-507.

[2] Kingma, DP, & Welling, M. (2013). Vịnh biến đổi tự động mã hóa. bản in sẵn arXiv arXiv: 1312.6114.


1
về mặt kỹ thuật, bạn không phải đào tạo lại mô hình cho các mẫu mới với t-SNE bằng cách sử dụng phương pháp cụ thể này: lvdmaaten.github.io/publications/ con / SASTATS_2009.pdf
bibliolytic

Chắc chắn rồi. Tác giả cũng đề nghị đào tạo một công cụ hồi quy đa biến để dự đoán các mẫu dữ liệu đầu vào của vị trí bản đồ như một cách tiếp cận tiềm năng. Trong bài báo bạn đề cập đến tác giả đào tạo một mạng lưới thần kinh để trực tiếp giảm thiểu tổn thất t-SNE. Tuy nhiên, trong cả hai trường hợp, bạn phải xác định một mô hình hoặc hàm rõ ràng để ánh xạ các điểm dữ liệu tới không gian kết quả, do đó nó phải đủ mạnh (đủ lớp / nơ-ron) để học cách nhúng, nhưng không quá nhiều để tránh khớp quá mức ... Đó là sự hy sinh một số khả năng sử dụng của t-SNE tiêu chuẩn.
Daniel López

Không có bất đồng nào ở đó, tôi chỉ nghĩ rằng nó hơi không chính xác để tương phản với bộ tự động và t-SNE như bạn làm trong câu trả lời của mình, xem như t-SNE có thể được sử dụng như một sự mất mát để giảm kích thước
bibliolytic 22/11/17

Mặc dù bây giờ tôi đã đọc lại, một câu hỏi: chúng ta thực sự có thể nói rằng các mạng thần kinh là , khi chúng không được đảm bảo để thực sự hội tụ? Ký hiệu Big-O là giới hạn trường hợp xấu nhất, phải không? O(n)
bibliolytic

Tôi không muốn đưa nó vào câu trả lời kể từ khi tính toán mất t-SNE khi đào tạo một mạng mất trong đó là kích thước lô nhỏ. mO(m2)m
Daniel López

0

Bên cạnh các trình tự động đã được đề cập, người ta có thể thử khai thác bổ đề của Johnson-Lindenstrauss với các phép chiếu ngẫu nhiên hoặc các phương thức không gian con ngẫu nhiên. Các phép chiếu ngẫu nhiên là , với số lượng mẫu có kích thước và kích thước đích, cf [1].N d kO(kdN)Ndk

Một chút googling sẽ giúp bạn có một số kết quả gần đây, đặc biệt là cho các bộ dữ liệu thưa thớt.

[1] Phép chiếu ngẫu nhiên trong việc giảm kích thước: ứng dụng cho dữ liệu hình ảnh và văn bản .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.