Sự khác biệt giữa phân tích thành phần chính và nhân rộng đa chiều là gì?


133

PCA và MDS cổ điển khác nhau như thế nào? Làm thế nào về MDS so với MDS phi kim? Có khi nào bạn thích cái này hơn cái kia không? Làm thế nào để giải thích khác nhau?

Câu trả lời:


96

MDS số liệu cổ điển của Torgerson thực sự được thực hiện bằng cách chuyển đổi khoảng cách thành các điểm tương đồng và thực hiện PCA (phân tách riêng hoặc phân tách giá trị số ít) trên các số đó. [Tên khác của quy trình này ( distances between objects -> similarities between them -> PCAtheo đó các tải là tọa độ tìm kiếm) là Phân tích tọa độ chính hoặc PCoA .] Vì vậy, PCA có thể được gọi là thuật toán của MDS đơn giản nhất.

MDS không số liệu dựa trên thuật toán lặp ALSCAL hoặc PROXSCAL (hoặc thuật toán tương tự với chúng), đây là một kỹ thuật ánh xạ linh hoạt hơn PCA và cũng có thể được áp dụng cho MDS số liệu. Trong khi PCA giữ m kích thước quan trọng đối với bạn, ALSCAL / PROXSCAL phù hợp cấu hình để m kích thước (bạn trước xác định m ) và nó tái tạo dissimilarities trên bản đồ trực tiếp hơn và chính xác hơn PCA có thể thường xuyên (xem phần minh họa dưới đây).

Do đó, MDS và PCA có thể không cùng cấp hoặc thẳng hàng với nhau. PCA chỉ là một phương pháp trong khi MDS là một lớp phân tích. Như ánh xạ, PCA là một trường hợp cụ thể của MDS. Mặt khác, PCA là một trường hợp cụ thể của phân tích nhân tố, việc giảm dữ liệu, không chỉ là ánh xạ, trong khi MDS chỉ là ánh xạ.

Đối với câu hỏi của bạn về MDS số liệu so với MDS không số liệu, có rất ít nhận xét vì câu trả lời rất đơn giản. Nếu tôi tin rằng sự khác biệt đầu vào của tôi rất gần với khoảng cách euclide mà một phép biến đổi tuyến tính sẽ đủ để ánh xạ chúng trong không gian m chiều, tôi sẽ thích MDS số liệu. Nếu tôi không tin, thì biến đổi đơn điệu là cần thiết, ngụ ý sử dụng MDS không số liệu.


Một lưu ý về thuật ngữ cho một người đọc. Thuật ngữ cổ điển (al) MDS (CMDS) có thể có hai ý nghĩa khác nhau trong một tài liệu rộng lớn về MDS, vì vậy nó mơ hồ và nên tránh. Một định nghĩa là CMDS là từ đồng nghĩa với số liệu MDS của Torgerson. Một định nghĩa khác là CMDS là bất kỳ MDS nào (bằng bất kỳ thuật toán nào; phân tích số liệu hoặc phi kim) với một đầu vào ma trận (đối với các mô hình tồn tại phân tích nhiều ma trận cùng một lúc - Mô hình "INDSCAL" riêng lẻ và mô hình sao chép).


Minh họa cho câu trả lời . Một số đám mây điểm (hình elip) đang được ánh xạ trên bản đồ mds một chiều. Một cặp điểm được hiển thị trong các chấm đỏ.

nhập mô tả hình ảnh ở đây

MDS lặp hoặc "đúng" nhằm thẳng vào việc tái cấu trúc khoảng cách theo cặp giữa các đối tượng. Đối với nó là nhiệm vụ của bất kỳ MDS . Căng thẳng hoặc misfit tiêu chí khác nhau có thể được giảm thiểu giữa o khoảng cách riginal và khoảng cách trên m ap: , D 2 o - D 2 m1 , D o - D m 1CƯỜI MỞ MIỆNGo-CƯỜI MỞ MIỆNGm22CƯỜI MỞ MIỆNGo2-CƯỜI MỞ MIỆNGm21CƯỜI MỞ MIỆNGo-CƯỜI MỞ MIỆNGm1 . Một thuật toán có thể (MDS không số liệu) hoặc có thể không (MDS số liệu) bao gồm chuyển đổi đơn điệu theo cách này.

MDS dựa trên PCA (Torgerson's hoặc PCoA) không thẳng. Nó giảm thiểu khoảng cách bình phương giữa các vật thể trong không gian ban đầu và hình ảnh của chúng trên bản đồ. Đây không phải là nhiệm vụ MDS chính hãng; đó là thành công, như MDS, chỉ ở mức độ mà các trục cơ sở bị loại bỏ yếu. Nếu giải thích phương sai nhiều hơn P 2, thì trước đây một mình có thể phản ánh đáng kể khoảng cách theo cặp trong đám mây, đặc biệt là đối với các điểm nằm cách xa nhau dọc theo hình elip. MDS lặp sẽ luôn giành chiến thắng và đặc biệt là khi bản đồ được muốn rất thấp. MDS lặp cũng vậy, sẽ thành công hơn khi hình elip trên mây mỏng, nhưng sẽ hoàn thành nhiệm vụ mds tốt hơn PCoA. Theo tính chất của ma trận tập trung kép (mô tả ở đâyP1P2) Có vẻ như PCoA giảm thiểu , đó là khác nhau từ bất kỳ minimizations trên.CƯỜI MỞ MIỆNGo22-CƯỜI MỞ MIỆNGm22

Một lần nữa, PCA dự án các điểm của đám mây trên không gian con tiết kiệm toàn diện có lợi nhất. Nó không chiếu các khoảng cách theo cặp , vị trí tương đối của các điểm trên một không gian con tiết kiệm nhất về mặt đó , như MDS lặp đi lặp lại. Tuy nhiên, PCoA / PCA trong lịch sử được xem là một trong những phương pháp của MDS.


3
(+1) Tôi thích cả hai câu trả lời, câu hỏi này có lẽ nhiều hơn một chút.
Dmitrij Celov

Liên kết của PDF liên quan đến PCoA. Nó có thể được tìm thấy trên Lưu trữ web: web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/ trộm
Pierre

49

Ừ ... khá khác biệt. Trong PCA, bạn được cung cấp dữ liệu liên tục đa biến (một vectơ đa biến cho từng đối tượng) và bạn đang cố gắng tìm hiểu xem bạn có cần nhiều chiều đó để khái niệm hóa chúng không. Trong (số liệu) MDS, bạn được cung cấp ma trận khoảng cách giữa các đối tượng và bạn đang cố gắng tìm ra vị trí của các đối tượng này trong không gian (và liệu bạn có cần không gian 1D, 2D, 3D, v.v.) không. Trong MDS không số liệu, bạn chỉ biết rằng các đối tượng 1 và 2 ở xa hơn các đối tượng 2 và 3, vì vậy bạn cố gắng định lượng điều đó, bên trên việc tìm kích thước và vị trí.

Với khả năng tưởng tượng đáng chú ý, bạn có thể nói rằng mục tiêu chung của PCA và MDS là trực quan hóa các vật thể trong 2D hoặc 3D. Nhưng cho dù các đầu vào khác nhau như thế nào, các phương pháp này sẽ không được thảo luận vì thậm chí có liên quan xa trong bất kỳ sách giáo khoa đa biến nào. Tôi đoán rằng bạn có thể chuyển đổi dữ liệu có thể sử dụng cho PCA thành dữ liệu có thể sử dụng được cho MDS (giả sử, bằng cách tính khoảng cách Mahalanobis giữa các đối tượng, sử dụng ma trận hiệp phương sai mẫu), nhưng điều đó sẽ ngay lập tức dẫn đến mất thông tin: MDS chỉ được xác định đến vị trí và xoay, và hai cái sau có thể được thực hiện nhiều thông tin hơn với PCA.

Nếu tôi trình bày ngắn gọn cho ai đó về kết quả của MDS không số liệu và muốn cung cấp cho họ ý tưởng sơ bộ về những gì nó làm mà không đi sâu vào chi tiết, tôi có thể nói:

Đưa ra các biện pháp tương đồng hoặc không giống nhau mà chúng ta có, chúng tôi đang cố gắng lập bản đồ các đối tượng / đối tượng của mình theo cách mà các "thành phố" mà chúng tạo ra có khoảng cách giữa chúng gần với các biện pháp tương tự như chúng ta có thể tạo ra. Chúng tôi chỉ có thể lập bản đồ chúng một cách hoàn hảo trong không gian ba chiều, mặc dù, vì vậy tôi đang đại diện cho hai chiều thông tin nhất ở đây - kinda như bạn sẽ làm gì trong PCA nếu bạn cho thấy một bức tranh với hai thành phần chính hàng đầu.viết sai rồi


18
Không phải PCA được áp dụng trên ma trận tương quan tương đương với MDS với khoảng cách euclide được tính trên các biến tiêu chuẩn?
chl

Vì vậy, nếu tôi trình bày ngắn gọn cho ai đó về kết quả của MDS không số liệu và muốn cung cấp cho họ ý tưởng sơ bộ về những gì nó làm mà không đi sâu vào chi tiết, tôi có thể nói "điều này có gì đó tương tự PCA" mà không bị sai lệch không?
Freya Harrison

6
Tôi sẽ nói: "Đưa ra các biện pháp tương tự hoặc không giống nhau mà chúng tôi có, chúng tôi đang cố gắng lập bản đồ các đối tượng / đối tượng của mình theo cách mà các" thành phố "mà chúng tạo ra có khoảng cách giữa chúng gần với các biện pháp tương tự này như chúng ta có thể làm cho họ chúng tôi chỉ có thể lập bản đồ chúng một cách hoàn hảo trong. không gian ba chiều, vì vậy tôi đang đại diện cho các kích thước thông tin nhất ở đây - kinda như bạn sẽ làm gì trong PCA nếu bạn cho thấy một bức tranh với hai thành phần chính hàng đầu". viết sai rồi
StasK

+1 Tuyệt vời - đối với tôi, nhận xét này gắn kết câu trả lời của bạn một cách độc đáo. Cảm ơn.
Freya Harrison

47

Hai loại số liệu MDS

Nhiệm vụ mở rộng quy mô đa chiều metric (MDS) có thể được xây dựng một cách trừu tượng như sau: cho một ma trận D khoảng cách cặp giữa n điểm, hãy tìm một nhúng thấp chiều của điểm dữ liệu trong R k đến nỗi khoảng cách Euclide giữa chúng xấp xỉ khoảng cách nhất định: x i - x jD i j .viết sai rồi×viết sai rồiCƯỜI MỞ MIỆNGviết sai rồiRk

xTôi-xjCƯỜI MỞ MIỆNGTôij.

Nếu "gần đúng" ở đây được hiểu theo nghĩa thông thường của lỗi tái thiết, tức là nếu mục tiêu là để giảm thiểu hàm chi phí gọi là "căng thẳng": sau đó giải pháp là không tương đương với PCA. Giải pháp không được đưa ra bởi bất kỳ công thức đóng nào và phải được tính toán bằng thuật toán lặp chuyên dụng.

Nhấn mạnh~CƯỜI MỞ MIỆNG-xTôi-xj2,

"Cổ điển MDS", còn được gọi là "Torgerson MDS", thay thế cho hàm chi phí này bằng một liên quan nhưng không tương đương với một, gọi là "căng thẳng": tìm cách để giảm thiểu lỗi xây dựng lại các sản phẩm vô hướng trung tâm thay vì khoảng cách. Hóa ra K c có thể được tính từ D (nếu D là khoảng cách Euclide) và giảm thiểu lỗi tái cấu trúc của K c chính xác là những gì PCA làm, như được trình bày trong phần tiếp theo.

Sự căng thẳng, quá tải~Kc-xTôi,xj2,
KcCƯỜI MỞ MIỆNGCƯỜI MỞ MIỆNGKc

MDS cổ điển (Torgerson) trên khoảng cách Euclide tương đương với PCA

Để dữ liệu được thu thập trong ma trận có kích thước n × k với các quan sát trong các hàng và các tính năng trong các cột. Đặt X c là ma trận trung tâm với các phương tiện cột bị trừ.Xviết sai rồi×kXc

Sau đó, PCA số tiền để làm giá trị ít phân hủy , với các cột của U S là thành phần chủ yếu. Một cách phổ biến để có được chúng là thông qua sự xuất tinh của ma trận hiệp phương sai 1Xc= =BạnSVBạnS , nhưng một cách khác có thể là để thực hiện một eigendecomposition của Gram ma trậnKc=X1viết sai rồiXcXc: thành phần chủ yếu là vector riêng của nó thu nhỏ lại bởi rễ vuông tương ứng giá trị bản địa.Kc= =XcXc= =BạnS2Bạn

Dễ dàng thấy rằng Xc= =(Tôi-1viết sai rồi1viết sai rồi)X1viết sai rồiviết sai rồi×viết sai rồi

Kc= =(Tôi-1viết sai rồiviết sai rồi)K(Tôi-1viết sai rồiviết sai rồi)= =K-1viết sai rồiviết sai rồiK-K1viết sai rồiviết sai rồi+1viết sai rồiviết sai rồiK1viết sai rồiviết sai rồi,
K= =XXXKKc

viết sai rồi×viết sai rồiCƯỜI MỞ MIỆNGCƯỜI MỞ MIỆNGTôij= =xTôi-xjKc

CƯỜI MỞ MIỆNGTôij2= =xTôi-xj2= =xTôi-x¯2+xj-x¯2-2xTôi-x¯,xj-x¯= =xTôi-x¯2+xj-x¯2-2[Kc]Tôij.
-CƯỜI MỞ MIỆNG2/2KcCƯỜI MỞ MIỆNG2Kc
Kc= =-(Tôi-1viết sai rồiviết sai rồi)CƯỜI MỞ MIỆNG22(Tôi-1viết sai rồiviết sai rồi).

CƯỜI MỞ MIỆNGCƯỜI MỞ MIỆNGKcBạnS

xTôi-xj

Tham khảo: Các yếu tố của học thống kê , phần 18.5.2.


XXTviết sai rồi×viết sai rồi

Cảm ơn, @cbeleites, tất nhiên là bạn đúng - đó chỉ là một lỗi đánh máy. Sẽ sửa nó ngay. Hãy cho tôi biết nếu bạn thấy các lỗi khác (hoặc thoải mái chỉnh sửa trực tiếp).
amip

1
+1. Và cảm ơn bạn đã cho thấy bằng toán học những gì đã được nêu trong đoạn đầu tiên của câu trả lời của tôi.
ttnphns

2
+1 Tôi muốn đây là câu trả lời được chấp nhận / hàng đầu. Tôi nghĩ rằng nó dễ dàng xứng đáng được.
Zhubarb

35

PCA mang lại kết quả CHÍNH XÁC tương tự như MDS cổ điển nếu sử dụng khoảng cách Euclide.

Tôi đang trích dẫn Cox & Cox (2001), trang 43-44:

Có sự đối ngẫu giữa phân tích thành phần chính và PCO [phân tích tọa độ chính, hay còn gọi là MDS cổ điển] trong đó sự khác biệt được đưa ra bởi khoảng cách Euclide.

Phần trong Cox & Cox giải thích nó khá rõ ràng:

  • Xviết sai rồip
  • X'Xξμ
  • XXX'vλ
  • XX'X'XTôi<pμTôiλTôi
  • TôithX'XvTôi= =λTôivTôi
  • vTôiX'(X'X)X'vTôi= =λTôiX'vTôi
  • X'XξTôi= =μTôiξTôiλTôi= =μTôiξTôi= =X'vTôiTôi<p

2
Tôi đã thực hiện một số mã hóa trong R và sử dụng cmdscale như là một triển khai của MDS và prcomp cổ điển cho PCA - tuy nhiên kết quả là không giống nhau ... tôi có thiếu điểm nào không?!
dùng4581

3
same results as classical MDS. Theo "MDS cổ điển", bạn phải có nghĩa là MDS của Torgerson ở đây. Sau đó, tuyên bố này thực sự đúng, vì MDS của Torgerson thực sự PCA (chỉ bắt đầu từ ma trận khoảng cách). Nếu định nghĩa "MDS cổ điển" khác nhau (xem câu trả lời của tôi) thì tuyên bố đó không đúng.
ttnphns

7
Đợi đã, làm thế nào XX 'cung cấp khoảng cách Euclide ?? XX 'là một sản phẩm bên trong - nếu ma trận được tiêu chuẩn hóa thì nó sẽ mang lại sự tương tự cosin. Khoảng cách Euclide yêu cầu một phép trừ và căn bậc hai.
ShainaR

XX'vTôi= =λTôivTôi

4

So sánh: "Số liệu MDS cho kết quả CÙNG như PCA" - theo thủ tục - khi chúng tôi xem xét cách sử dụng SVD để đạt được mức tối ưu. Nhưng, các tiêu chí chiều cao được bảo tồn là khác nhau. PCA sử dụng ma trận hiệp phương sai trung tâm trong khi MDS sử dụng ma trận gram thu được bằng ma trận khoảng cách định tâm kép.

Tr(XT(Tôi-1viết sai rồieeT)X)XXZTZXY||G-YTY||ĐỤ2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.