Làm thế nào để chiếu không gian chiều cao vào mặt phẳng hai chiều?


11

Tôi có một tập hợp các điểm dữ liệu trong không gian N chiều. Ngoài ra, tôi cũng có một nhân mã trong không gian N chiều này. Có cách tiếp cận nào có thể cho phép tôi chiếu các điểm dữ liệu này vào không gian hai chiều trong khi vẫn giữ thông tin khoảng cách tương đối của chúng trong không gian ban đầu. PCA có đúng không?


1
Nếu bạn muốn cố gắng giữ khoảng cách, suy nghĩ đầu tiên của tôi sẽ là nhân rộng đa chiều trên chính khoảng cách (có liên quan đến PCA), nhưng vì bạn có vị trí và không chỉ khoảng cách, theo cách hiểu của tôi, PCA nên hoạt động cho điều đó .
Glen_b -Reinstate Monica

1
@Glen_b, Điểm mấu chốt không phải là MDS dành cho đầu vào khoảng cách và PCA dành cho đầu vào tọa độ, MDS lặp lại phù hợp với một vài kích thước trong khi PCA giữ lại một vài chiều. Vì vậy, MDS bảo tồn khoảng cách tốt hơn một chút so với PCA cổ điển. Câu trả lời cho câu hỏi là Có, PCA phù hợp, nhưng MDS phù hợp hơn.
ttnphns

1
Đây phần lớn là những gì được nghiên cứu trong lĩnh vực nhúng không gian số liệu , tức là làm thế nào bạn có thể giảm tính chiều của dữ liệu trong khi giảm thiểu biến dạng khoảng cách.
Bitwise

Câu trả lời:


6

Một khung chung giải quyết vấn đề của bạn được gọi là giảm kích thước. Bạn muốn chiếu dữ liệu từ N chiều lên 2 chiều, trong khi vẫn giữ "thông tin cần thiết" trong dữ liệu của mình. Phương pháp phù hợp nhất phụ thuộc vào việc phân phối dữ liệu của bạn, tức là đa tạp N chiều. PCA sẽ phù hợp với một mặt phẳng sử dụng tiêu chí bình phương tối thiểu. Điều này có thể sẽ hoạt động kém cho ví dụ "swiss roll": swiss roll .

Các phương pháp hiện đại hơn bao gồm Kernel PCA, LLE, bản đồ khuếch tán và các biểu diễn từ điển thưa thớt. Liên quan đến bảo toàn khoảng cách, một số phương pháp có thể bảo tồn khoảng cách phi euclide.


2
Điều quan trọng cần lưu ý là các phương pháp "giảm kích thước" thường không duy trì "thông tin khoảng cách tương đối". Việc họ có làm hay không phụ thuộc một phần vào phương pháp và một phần vào "khoảng cách" dự định.
whuber

2

Như đã đề cập trong câu trả lời trước, có một số phương pháp giảm kích thước và một điều quan trọng cần xem xét là bạn đang cố gắng thể hiện điều gì - bạn có quan tâm đến các biện pháp khoảng cách Euclide không? Hoặc một số liệu tương tự trên các mẫu?

Đối với trước đây, PCA có thể thích hợp. Nó thường được sử dụng với các biện pháp liên tục như đo mẫu (động vật, thực vật, v.v ...). Tôi cũng sẽ xem xét các đề cập hiện đại hơn trong câu trả lời trước đó.

Đối với trường hợp sau, trong đó bạn có thể đang cố gắng so sánh độ tương tự bằng cách sử dụng thước đo khoảng cách phi hạt nhân, một vài phương pháp tốt tồn tại như Nguyên tắc phổ biến thành phần nguyên tắc (PCoA) và Thang đo đa chiều không đo (NMDS). Một ví dụ về thời điểm bạn có thể sử dụng những thứ này là khi bạn so sánh các cộng đồng sinh thái giữa các khu vực khác nhau và bạn có số lượng các loại sinh vật khác nhau được tìm thấy. Vì vậy, dữ liệu của bạn là dữ liệu "đếm". Có một số số liệu tương tự như Jaccard, Sorensen, Bray-Curtis, cho phép bạn ước tính mức độ tương tự của các trang web trong thành phần sinh vật của chúng. PCoA và NMDS về cơ bản cho phép bạn vẽ các mẫu (trang web) để biểu thị khoảng cách sinh thái (độ tương tự) và bạn có điểm cho trang web trên mỗi trục.

Có rất nhiều sách hay và các tài nguyên khác để phân tích đa biến. Tìm kiếm "Phổ biến" trên Google. Ngoài ra, có một gói R được gọi là "thuần chay" thực sự tốt cho việc thực hiện rất nhiều công việc này.


0

Vấn đề của bạn có vẻ giống như một ứng dụng sách giáo khoa cho quy mô đa chiều . Một giới thiệu tốt có thể được tìm thấy ở đây: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htmlm

Tất nhiên bạn có thể thử PCA. Nhưng PCA không có ý định giữ thông tin khoảng cách tương đối trong không gian ban đầu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.