Tuyên bố miễn trừ trách nhiệm: Tôi chỉ có kiến thức tiếp tuyến về chủ đề này, nhưng vì không có ai trả lời, tôi sẽ thử.
Khoảng cách rất quan trọng
Bất kỳ kỹ thuật giảm kích thước dựa trên khoảng cách (tSNE, UMAP, MDS, PCoA và có thể khác) chỉ tốt bằng số liệu khoảng cách bạn sử dụng. Như @amoeba chỉ ra một cách chính xác, không thể có giải pháp phù hợp với một kích thước, bạn cần có một thước đo khoảng cách nắm bắt những gì bạn cho là quan trọng trong dữ liệu, tức là các hàng bạn sẽ xem xét tương tự có khoảng cách nhỏ và các hàng bạn sẽ xem xét khác nhau có khoảng cách lớn.
Làm thế nào để bạn chọn một số liệu khoảng cách tốt? Đầu tiên, hãy để tôi làm một trò chơi nhỏ:
Truyền bá
Ngay trước thời kỳ huy hoàng của máy học hiện đại, các nhà sinh thái học cộng đồng (và rất có thể là những người khác) đã cố gắng tạo ra những âm mưu tốt đẹp để phân tích khám phá dữ liệu đa chiều. Họ gọi quá trình phối và nó là một từ khóa hữu ích để tìm kiếm trong các tài liệu sinh thái sẽ trở lại ít nhất đến năm 70 và vẫn còn đang mạnh mẽ hiện nay.
Điều quan trọng là các nhà sinh thái học có bộ dữ liệu rất đa dạng và xử lý các hỗn hợp các tính năng nhị phân, số nguyên và giá trị thực (ví dụ: sự hiện diện / vắng mặt của loài, số lượng mẫu vật quan sát được, pH, nhiệt độ). Họ đã dành rất nhiều thời gian để suy nghĩ về khoảng cách và biến đổi để làm cho các sắc phong hoạt động tốt. Tôi không hiểu rõ về lĩnh vực này, nhưng ví dụ đánh giá về sự đa dạng Beta của Legendre và De Cáceres Beta vì sự khác biệt của dữ liệu cộng đồng: sự khác biệt về hệ số và phân vùng cho thấy số lượng khoảng cách có thể bạn muốn kiểm tra.
Chia tỷ lệ đa chiều
Công cụ chuyển đổi để phân phối là chia tỷ lệ đa chiều (MDS), đặc biệt là biến thể không số liệu (NMDS) mà tôi khuyến khích bạn thử ngoài t-SNE. Tôi không biết về thế giới Python, nhưng việc triển khai R trong metaMDS
chức năng của vegan
gói thực hiện rất nhiều thủ thuật cho bạn (ví dụ: chạy nhiều lần chạy cho đến khi tìm thấy hai tương tự nhau).
Điều này đã bị tranh cãi, xem các bình luận: Phần hay của MDS là nó cũng chiếu các tính năng (cột), vì vậy bạn có thể thấy các tính năng nào thúc đẩy việc giảm kích thước. Điều này giúp bạn diễn giải dữ liệu của bạn.
Hãy nhớ rằng t-SNE đã bị chỉ trích là một công cụ để đạt được sự hiểu biết, ví dụ như khám phá về những cạm bẫy của nó - Tôi đã nghe UMAP giải quyết một số vấn đề, nhưng tôi không có kinh nghiệm với UMAP. Tôi cũng không nghi ngờ một phần lý do các nhà sinh thái học sử dụng NMDS là văn hóa và quán tính, có thể UMAP hoặc t-SNE thực sự tốt hơn. Tôi thực sự không biết.
Lăn ra khoảng cách của riêng bạn
Nếu bạn hiểu cấu trúc dữ liệu của mình, các khoảng cách và biến đổi được tạo sẵn có thể không phù hợp nhất với bạn và bạn có thể muốn xây dựng một thước đo khoảng cách tùy chỉnh. Mặc dù tôi không biết dữ liệu của bạn đại diện cho cái gì, nhưng có thể hợp lý để tính khoảng cách riêng cho các biến có giá trị thực (ví dụ: sử dụng khoảng cách Euclide nếu điều đó hợp lý) và cho các biến nhị phân và thêm chúng. Khoảng cách phổ biến cho dữ liệu nhị phân là ví dụ khoảng cách Jaccard hoặc khoảng cách Cosine . Bạn có thể cần suy nghĩ về một số hệ số nhân cho khoảng cách vì cả Jaccard và Cosine đều có giá trị trong bất kể số lượng tính năng trong khi cường độ của khoảng cách Euclide phản ánh số lượng tính năng.[0,1]
Một lời cảnh báo
Tất cả thời gian bạn nên nhớ rằng vì bạn có quá nhiều nút điều chỉnh, bạn có thể dễ dàng rơi vào cái bẫy điều chỉnh cho đến khi bạn thấy những gì bạn muốn thấy. Điều này là khó tránh hoàn toàn trong phân tích thăm dò, nhưng bạn nên thận trọng.