PCA và MDS cổ điển khác nhau như thế nào? Làm thế nào về MDS so với MDS phi kim? Có khi nào bạn thích cái này hơn cái kia không? Làm thế nào để giải thích khác nhau?
PCA và MDS cổ điển khác nhau như thế nào? Làm thế nào về MDS so với MDS phi kim? Có khi nào bạn thích cái này hơn cái kia không? Làm thế nào để giải thích khác nhau?
Câu trả lời:
MDS số liệu cổ điển của Torgerson thực sự được thực hiện bằng cách chuyển đổi khoảng cách thành các điểm tương đồng và thực hiện PCA (phân tách riêng hoặc phân tách giá trị số ít) trên các số đó. [Tên khác của quy trình này ( distances between objects -> similarities between them -> PCA
theo đó các tải là tọa độ tìm kiếm) là Phân tích tọa độ chính hoặc PCoA .] Vì vậy, PCA có thể được gọi là thuật toán của MDS đơn giản nhất.
MDS không số liệu dựa trên thuật toán lặp ALSCAL hoặc PROXSCAL (hoặc thuật toán tương tự với chúng), đây là một kỹ thuật ánh xạ linh hoạt hơn PCA và cũng có thể được áp dụng cho MDS số liệu. Trong khi PCA giữ m kích thước quan trọng đối với bạn, ALSCAL / PROXSCAL phù hợp cấu hình để m kích thước (bạn trước xác định m ) và nó tái tạo dissimilarities trên bản đồ trực tiếp hơn và chính xác hơn PCA có thể thường xuyên (xem phần minh họa dưới đây).
Do đó, MDS và PCA có thể không cùng cấp hoặc thẳng hàng với nhau. PCA chỉ là một phương pháp trong khi MDS là một lớp phân tích. Như ánh xạ, PCA là một trường hợp cụ thể của MDS. Mặt khác, PCA là một trường hợp cụ thể của phân tích nhân tố, việc giảm dữ liệu, không chỉ là ánh xạ, trong khi MDS chỉ là ánh xạ.
Đối với câu hỏi của bạn về MDS số liệu so với MDS không số liệu, có rất ít nhận xét vì câu trả lời rất đơn giản. Nếu tôi tin rằng sự khác biệt đầu vào của tôi rất gần với khoảng cách euclide mà một phép biến đổi tuyến tính sẽ đủ để ánh xạ chúng trong không gian m chiều, tôi sẽ thích MDS số liệu. Nếu tôi không tin, thì biến đổi đơn điệu là cần thiết, ngụ ý sử dụng MDS không số liệu.
Một lưu ý về thuật ngữ cho một người đọc. Thuật ngữ cổ điển (al) MDS (CMDS) có thể có hai ý nghĩa khác nhau trong một tài liệu rộng lớn về MDS, vì vậy nó mơ hồ và nên tránh. Một định nghĩa là CMDS là từ đồng nghĩa với số liệu MDS của Torgerson. Một định nghĩa khác là CMDS là bất kỳ MDS nào (bằng bất kỳ thuật toán nào; phân tích số liệu hoặc phi kim) với một đầu vào ma trận (đối với các mô hình tồn tại phân tích nhiều ma trận cùng một lúc - Mô hình "INDSCAL" riêng lẻ và mô hình sao chép).
Minh họa cho câu trả lời . Một số đám mây điểm (hình elip) đang được ánh xạ trên bản đồ mds một chiều. Một cặp điểm được hiển thị trong các chấm đỏ.
MDS lặp hoặc "đúng" nhằm thẳng vào việc tái cấu trúc khoảng cách theo cặp giữa các đối tượng. Đối với nó là nhiệm vụ của bất kỳ MDS . Căng thẳng hoặc misfit tiêu chí khác nhau có thể được giảm thiểu giữa o khoảng cách riginal và khoảng cách trên m ap: , ‖ D 2 o - D 2 m ‖ 1 , ‖ D o - D m ‖ 1 . Một thuật toán có thể (MDS không số liệu) hoặc có thể không (MDS số liệu) bao gồm chuyển đổi đơn điệu theo cách này.
MDS dựa trên PCA (Torgerson's hoặc PCoA) không thẳng. Nó giảm thiểu khoảng cách bình phương giữa các vật thể trong không gian ban đầu và hình ảnh của chúng trên bản đồ. Đây không phải là nhiệm vụ MDS chính hãng; đó là thành công, như MDS, chỉ ở mức độ mà các trục cơ sở bị loại bỏ yếu. Nếu giải thích phương sai nhiều hơn P 2, thì trước đây một mình có thể phản ánh đáng kể khoảng cách theo cặp trong đám mây, đặc biệt là đối với các điểm nằm cách xa nhau dọc theo hình elip. MDS lặp sẽ luôn giành chiến thắng và đặc biệt là khi bản đồ được muốn rất thấp. MDS lặp cũng vậy, sẽ thành công hơn khi hình elip trên mây mỏng, nhưng sẽ hoàn thành nhiệm vụ mds tốt hơn PCoA. Theo tính chất của ma trận tập trung kép (mô tả ở đây) Có vẻ như PCoA giảm thiểu , đó là khác nhau từ bất kỳ minimizations trên.
Một lần nữa, PCA dự án các điểm của đám mây trên không gian con tiết kiệm toàn diện có lợi nhất. Nó không chiếu các khoảng cách theo cặp , vị trí tương đối của các điểm trên một không gian con tiết kiệm nhất về mặt đó , như MDS lặp đi lặp lại. Tuy nhiên, PCoA / PCA trong lịch sử được xem là một trong những phương pháp của MDS.
Ừ ... khá khác biệt. Trong PCA, bạn được cung cấp dữ liệu liên tục đa biến (một vectơ đa biến cho từng đối tượng) và bạn đang cố gắng tìm hiểu xem bạn có cần nhiều chiều đó để khái niệm hóa chúng không. Trong (số liệu) MDS, bạn được cung cấp ma trận khoảng cách giữa các đối tượng và bạn đang cố gắng tìm ra vị trí của các đối tượng này trong không gian (và liệu bạn có cần không gian 1D, 2D, 3D, v.v.) không. Trong MDS không số liệu, bạn chỉ biết rằng các đối tượng 1 và 2 ở xa hơn các đối tượng 2 và 3, vì vậy bạn cố gắng định lượng điều đó, bên trên việc tìm kích thước và vị trí.
Với khả năng tưởng tượng đáng chú ý, bạn có thể nói rằng mục tiêu chung của PCA và MDS là trực quan hóa các vật thể trong 2D hoặc 3D. Nhưng cho dù các đầu vào khác nhau như thế nào, các phương pháp này sẽ không được thảo luận vì thậm chí có liên quan xa trong bất kỳ sách giáo khoa đa biến nào. Tôi đoán rằng bạn có thể chuyển đổi dữ liệu có thể sử dụng cho PCA thành dữ liệu có thể sử dụng được cho MDS (giả sử, bằng cách tính khoảng cách Mahalanobis giữa các đối tượng, sử dụng ma trận hiệp phương sai mẫu), nhưng điều đó sẽ ngay lập tức dẫn đến mất thông tin: MDS chỉ được xác định đến vị trí và xoay, và hai cái sau có thể được thực hiện nhiều thông tin hơn với PCA.
Nếu tôi trình bày ngắn gọn cho ai đó về kết quả của MDS không số liệu và muốn cung cấp cho họ ý tưởng sơ bộ về những gì nó làm mà không đi sâu vào chi tiết, tôi có thể nói:
Đưa ra các biện pháp tương đồng hoặc không giống nhau mà chúng ta có, chúng tôi đang cố gắng lập bản đồ các đối tượng / đối tượng của mình theo cách mà các "thành phố" mà chúng tạo ra có khoảng cách giữa chúng gần với các biện pháp tương tự như chúng ta có thể tạo ra. Chúng tôi chỉ có thể lập bản đồ chúng một cách hoàn hảo trong không gian ba chiều, mặc dù, vì vậy tôi đang đại diện cho hai chiều thông tin nhất ở đây - kinda như bạn sẽ làm gì trong PCA nếu bạn cho thấy một bức tranh với hai thành phần chính hàng đầu.
Nhiệm vụ mở rộng quy mô đa chiều metric (MDS) có thể được xây dựng một cách trừu tượng như sau: cho một ma trận D khoảng cách cặp giữa n điểm, hãy tìm một nhúng thấp chiều của điểm dữ liệu trong R k đến nỗi khoảng cách Euclide giữa chúng xấp xỉ khoảng cách nhất định: ‖ x i - x j ‖ ≈ D i j .
Nếu "gần đúng" ở đây được hiểu theo nghĩa thông thường của lỗi tái thiết, tức là nếu mục tiêu là để giảm thiểu hàm chi phí gọi là "căng thẳng": sau đó giải pháp là không tương đương với PCA. Giải pháp không được đưa ra bởi bất kỳ công thức đóng nào và phải được tính toán bằng thuật toán lặp chuyên dụng.
"Cổ điển MDS", còn được gọi là "Torgerson MDS", thay thế cho hàm chi phí này bằng một liên quan nhưng không tương đương với một, gọi là "căng thẳng": tìm cách để giảm thiểu lỗi xây dựng lại các sản phẩm vô hướng trung tâm thay vì khoảng cách. Hóa ra K c có thể được tính từ D (nếu D là khoảng cách Euclide) và giảm thiểu lỗi tái cấu trúc của K c chính xác là những gì PCA làm, như được trình bày trong phần tiếp theo.
Để dữ liệu được thu thập trong ma trận có kích thước n × k với các quan sát trong các hàng và các tính năng trong các cột. Đặt X c là ma trận trung tâm với các phương tiện cột bị trừ.
Sau đó, PCA số tiền để làm giá trị ít phân hủy , với các cột của U S là thành phần chủ yếu. Một cách phổ biến để có được chúng là thông qua sự xuất tinh của ma trận hiệp phương sai 1 , nhưng một cách khác có thể là để thực hiện một eigendecomposition của Gram ma trậnKc=X ⊤: thành phần chủ yếu là vector riêng của nó thu nhỏ lại bởi rễ vuông tương ứng giá trị bản địa.
Dễ dàng thấy rằng
Tham khảo: Các yếu tố của học thống kê , phần 18.5.2.
PCA mang lại kết quả CHÍNH XÁC tương tự như MDS cổ điển nếu sử dụng khoảng cách Euclide.
Tôi đang trích dẫn Cox & Cox (2001), trang 43-44:
Có sự đối ngẫu giữa phân tích thành phần chính và PCO [phân tích tọa độ chính, hay còn gọi là MDS cổ điển] trong đó sự khác biệt được đưa ra bởi khoảng cách Euclide.
Phần trong Cox & Cox giải thích nó khá rõ ràng:
same results as classical MDS
. Theo "MDS cổ điển", bạn phải có nghĩa là MDS của Torgerson ở đây. Sau đó, tuyên bố này thực sự đúng, vì MDS của Torgerson thực sự là PCA (chỉ bắt đầu từ ma trận khoảng cách). Nếu định nghĩa "MDS cổ điển" khác nhau (xem câu trả lời của tôi) thì tuyên bố đó không đúng.
So sánh: "Số liệu MDS cho kết quả CÙNG như PCA" - theo thủ tục - khi chúng tôi xem xét cách sử dụng SVD để đạt được mức tối ưu. Nhưng, các tiêu chí chiều cao được bảo tồn là khác nhau. PCA sử dụng ma trận hiệp phương sai trung tâm trong khi MDS sử dụng ma trận gram thu được bằng ma trận khoảng cách định tâm kép.