Mối quan hệ giữa phân cụm k-nghĩa và PCA là gì?


61

Đó là một thực tế phổ biến để áp dụng PCA (phân tích thành phần chính) trước một thuật toán phân cụm (chẳng hạn như phương tiện k). Người ta tin rằng nó cải thiện kết quả phân cụm trong thực tế (giảm nhiễu).

Tuy nhiên, tôi quan tâm đến một nghiên cứu so sánh và chuyên sâu về mối quan hệ giữa PCA và k-mean. Ví dụ, Chris Đinh và Xiaofeng He, 2004, K-nghĩa là Phân cụm thông qua Phân tích thành phần chính cho thấy "các thành phần chính là giải pháp liên tục cho các chỉ số thành viên cụm rời rạc cho phân cụm K-nghĩa". Tuy nhiên, tôi có thời gian khó hiểu bài báo này và Wikipedia thực sự tuyên bố rằng nó sai .

Ngoài ra, kết quả của hai phương pháp có phần khác nhau theo nghĩa PCA giúp giảm số lượng "tính năng" trong khi duy trì phương sai, trong khi phân cụm làm giảm số lượng "điểm dữ liệu" bằng cách tóm tắt một số điểm theo kỳ vọng / phương tiện của chúng (trong trường hợp k-nghĩa). Vì vậy, nếu tập dữ liệu bao gồm VIẾT SAI RỒI điểm với các tính năng T mỗi, PCA nhằm mục đích nén các tính năng T trong khi phân cụm nhằm mục đích nén các điểm dữ liệu VIẾT SAI RỒI

Tôi đang tìm kiếm một lời giải thích của giáo dân về mối quan hệ giữa hai kỹ thuật này + một số bài viết kỹ thuật hơn liên quan đến hai kỹ thuật.


2
Phân cụm cũng có thể được coi là giảm tính năng. Nơi bạn thể hiện từng mẫu bằng cách gán cụm của nó hoặc mã hóa thưa thớt chúng (do đó giảm xuống k ). Cả hai cách tiếp cận này đều giữ số lượng điểm dữ liệu không đổi, đồng thời giảm kích thước "tính năng". Tk
jeff

Câu trả lời:


73

Đúng là K-nghĩa là phân cụm và PCA dường như có những mục tiêu rất khác nhau và thoạt nhìn dường như không liên quan. Tuy nhiên, như được giải thích trong bài viết của K & nghĩa là K & nghĩa là phân cụm thông qua phân tích thành phần chính , có một mối liên hệ sâu sắc giữa chúng.

Trực giác là PCA tìm cách biểu diễn tất cả vectơ dữ liệu dưới dạng kết hợp tuyến tính của một số lượng nhỏ các hàm riêng, và thực hiện nó để giảm thiểu lỗi tái tạo bình phương trung bình. Ngược lại, K-có nghĩa là tìm cách biểu diễn tất cả n vectơ dữ liệu thông qua số lượng nhỏ các cụm sao, nghĩa là biểu diễn chúng dưới dạng kết hợp tuyến tính của một số lượng nhỏ các vectơ trung tâm cụm trong đó trọng số kết hợp tuyến tính phải bằng 0 trừ 1 đơn lẻ . Điều này cũng được thực hiện để giảm thiểu lỗi tái tạo bình phương trung bình.viết sai rồiviết sai rồi1

Vì vậy, K-nghĩa có thể được coi là một PCA siêu thưa thớt.

Những gì giấy của Đinh & He làm, nó làm cho kết nối này chính xác hơn.


Thật không may, bài viết của Ding & He chứa một số công thức cẩu thả (tốt nhất) và có thể dễ dàng bị hiểu lầm. Ví dụ, có vẻ như Đinh & Ông tuyên bố đã chứng minh rằng các cụm trung tâm của giải pháp phân cụm K-nghĩa nằm trong không gian con PCA hai chiều :(K-1)

Định lý 3.3. Không gian con centroid cụm được kéo dài theo các hướng chính đầu tiên [...].K-1

Với điều này có nghĩa là các phép chiếu trên trục PC1 sẽ nhất thiết là âm đối với một cụm và dương đối với một cụm khác, tức là trục PC2 sẽ phân tách các cụm một cách hoàn hảo.K= =2

Đây là một sai lầm hoặc một số văn bản cẩu thả; trong mọi trường hợp, được thực hiện theo nghĩa đen, tuyên bố cụ thể này là sai.

Hãy bắt đầu với việc xem xét một số ví dụ về đồ chơi trong 2D với . Tôi đã tạo ra một số mẫu từ hai phân phối bình thường với cùng một ma trận hiệp phương sai nhưng phương tiện khác nhau. Sau đó tôi đã chạy cả K-nghĩa và PCA. Hình dưới đây cho thấy biểu đồ phân tán dữ liệu ở trên và cùng dữ liệu được tô màu theo giải pháp K-mean bên dưới. Tôi cũng chỉ ra hướng chính đầu tiên là một đường màu đen và các lớp trung tâm được tìm thấy bởi K-mean với các chữ thập màu đen. Trục PC2 được hiển thị với đường màu đen nét đứt. K-mean được lặp lại 100 lần với các hạt ngẫu nhiên để đảm bảo hội tụ đến mức tối ưu toàn cầu.K= =2100

PCA vs K-nghĩa

Người ta có thể thấy rõ rằng mặc dù các lớp trung tâm có xu hướng khá gần với hướng PC đầu tiên, nhưng chúng không rơi chính xác vào nó. Hơn nữa, mặc dù trục PC2 phân tách các cụm một cách hoàn hảo trong các ô con 1 và 4, có một vài điểm ở phía sai của nó trong các ô con 2 và 3.

Vì vậy, thỏa thuận giữa K-nghĩa và PCA là khá tốt, nhưng nó không chính xác.

Vậy Đinh & He đã chứng minh điều gì? Để đơn giản, tôi sẽ chỉ xem xét trường hợp . Đặt số điểm được gán cho mỗi cụm là n 1n 2 và tổng số điểm n = n 1 + n 2 . Sau Ding & He, chúng ta hãy xác định chỉ số cụm vector qR n như sau: q i = K= =2viết sai rồi1viết sai rồi2viết sai rồi= =viết sai rồi1+viết sai rồi2 qRviết sai rồi nếui-TH điểm thuộc cụm 1 vàqi=-qTôi= =viết sai rồi2/viết sai rồiviết sai rồi1TôiqTôi= =-viết sai rồi1/viết sai rồiviết sai rồi2q i = 0q= =1ΣqTôi= =0

Ding & He chỉ ra rằng hàm mất K-nghĩa là (thuật toán K- giảm thiểu) có thể được viết lại một cách tương đương như , trong đó là ma trận Gram của các sản phẩm vô hướng giữa tất cả các điểm: , trong đó là ma trận dữ liệu và là ma trận dữ liệu trung tâm.ΣkΣTôi(xTôi-μk)2-qGqGviết sai rồi×viết sai rồiG= =XcXcXviết sai rồi×2Xc

(Lưu ý: Tôi đang sử dụng ký hiệu và thuật ngữ hơi khác so với giấy của họ nhưng tôi thấy rõ ràng hơn).

Vì vậy, giải pháp K-nghĩa là là một vectơ đơn vị trung tâm tối đa hóa . Thật dễ dàng để chỉ ra rằng thành phần chính đầu tiên (khi được chuẩn hóa để có tổng đơn vị bình phương) là hàm riêng của ma trận Gram, nghĩa là nó cũng là một vector đơn vị trung tâm tối đa hóa . Sự khác biệt duy nhất là bị ràng buộc bổ sung chỉ có hai giá trị khác nhau trong khi không có ràng buộc này.qqGqpq ppGpqp

Nói cách khác, K-mean và PCA tối đa hóa cùng một chức năng mục tiêu , với sự khác biệt duy nhất là K-mean có thêm ràng buộc "phân loại".

Lý do là hầu hết các giải pháp K-mean (bị ràng buộc) và PCA (không bị ràng buộc) sẽ rất gần nhau, như chúng ta đã thấy ở trên trong mô phỏng, nhưng người ta không nên hy vọng chúng giống hệt nhau. Lấy và đặt tất cả các phần tử âm của nó bằng và tất cả các phần tử dương của nó thành nói chung sẽ không cung cấp chính xác - p-viết sai rồi1/viết sai rồiviết sai rồi2 qviết sai rồi2/viết sai rồiviết sai rồi1q .

Đinh và anh ta dường như hiểu rõ điều này vì họ xây dựng định lý của họ như sau:

Định lý 2.2. Đối với K-có nghĩa là phân cụm trong đó , giải pháp liên tục của vectơ chỉ báo cụm là thành phần chính [đầu tiên]K= =2

Lưu ý rằng từ "giải pháp liên tục". Sau khi chứng minh định lý này, họ nhận xét thêm rằng PCA có thể được sử dụng để khởi tạo các phép lặp K có nghĩa là hoàn toàn hợp lý khi chúng ta mong đợi gần với . Nhưng người ta vẫn cần thực hiện các lần lặp, bởi vì chúng không giống nhau.pqp

Tuy nhiên, sau đó, Đinh và Anh tiếp tục phát triển một phương pháp điều trị tổng quát hơn cho và kết thúc xây dựng Định lý 3.3 nhưK>2

Định lý 3.3. Không gian con centroid cụm được kéo dài theo các hướng chính đầu tiên [...].K-1

Tôi đã không trải qua toán học của Phần 3, nhưng tôi tin rằng thực tế định lý này cũng đề cập đến "giải pháp liên tục" của phương tiện K, tức là tuyên bố của nó nên đọc "không gian trung tâm cụm của giải pháp liên tục của phương tiện K là kéo dài [...] ".

Tuy nhiên, Ding & He không tạo ra phẩm chất quan trọng này, và hơn nữa viết vào bản tóm tắt của họ rằng

Ở đây chúng tôi chứng minh rằng các thành phần chính là các giải pháp liên tục cho các chỉ số thành viên cụm rời rạc cho phân cụm K-nghĩa. Tương tự, chúng tôi chỉ ra rằng không gian con được kéo dài bởi các tâm của cụm được đưa ra bằng cách mở rộng phổ của ma trận hiệp phương sai dữ liệu được cắt ở các số hạng .K-1

Câu đầu tiên là hoàn toàn chính xác, nhưng câu thứ hai thì không. Tôi không rõ ràng nếu đây là một văn bản (rất) cẩu thả hoặc một sai lầm thực sự. Tôi đã gửi email rất lịch sự cho cả hai tác giả yêu cầu làm rõ. (Cập nhật hai tháng sau: Tôi chưa bao giờ nghe lại từ họ.)


Mã mô phỏng Matlab

figure('Position', [100 100 1200 600])

n = 50;
Sigma = [2 1.8; 1.8 2];

for i=1:4
    means = [0 0; i*2 0];

    rng(42)
    X = [bsxfun(@plus, means(1,:), randn(n,2) * chol(Sigma)); ...
         bsxfun(@plus, means(2,:), randn(n,2) * chol(Sigma))];
    X = bsxfun(@minus, X, mean(X));
    [U,S,V] = svd(X,0);
    [ind, centroids] = kmeans(X,2, 'Replicates', 100);

    subplot(2,4,i)
    scatter(X(:,1), X(:,2), [], [0 0 0])

    subplot(2,4,i+4)
    hold on
    scatter(X(ind==1,1), X(ind==1,2), [], [1 0 0])
    scatter(X(ind==2,1), X(ind==2,2), [], [0 0 1])
    plot([-1 1]*10*V(1,1), [-1 1]*10*V(2,1), 'k', 'LineWidth', 2)
    plot(centroids(1,1), centroids(1,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(1,1), centroids(1,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)
    plot(centroids(2,1), centroids(2,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(2,1), centroids(2,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)

    plot([-1 1]*5*V(1,2), [-1 1]*5*V(2,2), 'k--')
end

for i=1:8
    subplot(2,4,i)
    axis([-8 8 -8 8])
    axis square
    set(gca,'xtick',[],'ytick',[])
end    

2
Tôi vừa liếc nhìn vào tờ giấy Đinh & Anh. Trong định lý 2.2, họ nói rằng nếu bạn thực hiện phương tiện k (với k = 2) của một số đám mây dữ liệu chiều và cũng thực hiện PCA (dựa trên hiệp phương sai) của dữ liệu, thì tất cả các điểm thuộc cụm A sẽ âm và tất cả điểm thuộc cụm B sẽ dương, trên điểm PC1. Tuyên bố thú vị, - nó nên được thử nghiệm trong các mô phỏng. Tuy nhiên, vấn đề là nó giả định giải pháp K-nghĩa tối ưu toàn cầu, tôi nghĩ vậy; nhưng làm thế nào để chúng ta biết nếu phân cụm đạt được là tối ưu?
ttnphns

1
@ttnphns, tôi đã cập nhật mô phỏng và số liệu của mình để kiểm tra yêu cầu này rõ ràng hơn. Nếu các phép chiếu trên PC1 phải dương và âm đối với các lớp A và B, điều đó có nghĩa là trục PC2 sẽ đóng vai trò là ranh giới giữa chúng. Điều này rất gần với trường hợp trong 4 mô phỏng đồ chơi của tôi, nhưng trong ví dụ 2 và 3 có một vài điểm ở phía sai của PC2. Về hội tụ, tôi đã chạy kmeanschức năng với 100 lần lặp lại: nó chọn một khởi tạo ngẫu nhiên khác nhau mỗi lần và sau đó chọn giải pháp tốt nhất, vì vậy hy vọng sẽ đảm bảo đạt được tối ưu toàn cầu.
amip nói phục hồi Monica

1
@ttnphns: Tôi nghĩ rằng tôi đã tìm ra những gì đang xảy ra, xin vui lòng xem cập nhật của tôi.
amip nói phục hồi Monica

amip, cảm ơn bạn đã tiêu hóa bài báo đang được thảo luận cho tất cả chúng tôi và đã đưa ra kết luận của bạn (+2); và cho tôi biết cá nhân! Hy vọng tôi sẽ quay lại sau vài ngày để đọc và điều tra câu trả lời của bạn. Nhưng đánh giá cao nó bây giờ.
ttnphns

Bài nổi bật. Có một lý do tại sao bạn sử dụng Matlab mà không phải R? Chỉ tò mò vì tôi đang tham gia khóa học ML Coursera và Andrew Ng cũng sử dụng Matlab, trái ngược với R hoặc Python. Có phải là một sự lựa chọn ML chung?
Antoni Parellada

10

PCA và K-có nghĩa là làm những việc khác nhau.

PCA được sử dụng để giảm kích thước / lựa chọn tính năng / học tập đại diện, ví dụ như khi không gian tính năng chứa quá nhiều tính năng không liên quan hoặc dư thừa. Mục đích là để tìm ra chiều kích nội tại của dữ liệu.

Đây là một ví dụ hai chiều có thể được khái quát cho các không gian chiều cao hơn. Tập dữ liệu có hai tính năng, và , mỗi vòng tròn là một điểm dữ liệu.yxy

nhập mô tả hình ảnh ở đây

Trong ảnh có cường độ lớn hơn . Đây là những Eigenvector. Kích thước của dữ liệu được giảm từ hai chiều xuống một chiều (không có nhiều sự lựa chọn trong trường hợp này) và điều này được thực hiện bằng cách chiếu theo hướng của vectơ (sau khi xoay trong đó trở nên song song hoặc vuông góc với một trong các trục) . Điều này là do trực giao với hướng của phương sai lớn nhất. Một cách để nghĩ về nó, là mất thông tin tối thiểu. (Vẫn còn một mất mát vì một trục tọa độ bị mất).v 2 v 2 v 2 v 2v1v2v2v2v2

K-mean là một thuật toán phân cụm trả về việc nhóm các điểm dữ liệu tự nhiên, dựa trên sự giống nhau của chúng. Đây là trường hợp đặc biệt của Mô hình hỗn hợp Gaussian .

X

nhập mô tả hình ảnh ở đây

PCA hoặc các kỹ thuật giảm kích thước khác được sử dụng trước cả hai phương pháp không giám sát hoặc giám sát trong học máy. Ngoài các lý do được nêu ra bởi bạn và những lý do tôi đã đề cập ở trên, nó cũng được sử dụng cho mục đích trực quan hóa (chiếu sang 2D hoặc 3D từ các kích thước cao hơn).

Đối với bài viết, tôi không tin có bất kỳ kết nối nào, PCA không có thông tin liên quan đến việc phân nhóm dữ liệu tự nhiên và hoạt động trên toàn bộ dữ liệu, không phải tập hợp con (nhóm). Nếu một số nhóm có thể được giải thích bởi một eigenvector (chỉ vì cụm cụ thể đó được trải dọc theo hướng đó) chỉ là một sự trùng hợp ngẫu nhiên và không nên được coi là một quy tắc chung.

"PCA nhằm mục đích nén các tính năng T trong khi phân cụm nhằm mục đích nén các điểm dữ liệu N."

xTôi= =Cười mở miệng(μTôi,δTôi)Cười mở miệngδTôixTôiμTôiCười mở miệngTôi

Phân cụm thêm thông tin thực sự. Tôi nghĩ về việc phân chia dữ liệu thành các nhóm tự nhiên (không nhất thiết phải tách rời nhau) mà không biết nhãn của mỗi nhóm nghĩa là gì (tốt, cho đến khi bạn xem dữ liệu trong các nhóm).


3
Cách PC của bạn được dán nhãn trong cốt truyện dường như không nhất quán với cuộc thảo luận tương ứng trong văn bản. Lưu ý rằng, mặc dù PCA thường được áp dụng cho các cột, & k-nghĩa cho các hàng, cả hai đều có thể được áp dụng cho một trong hai. Tôi chưa đọc bài báo, nhưng tôi cá rằng đó là những gì họ đang nói.
gung - Phục hồi Monica

Xin lỗi, ý tôi là con số trên cùng: viz., Nhãn v1 & v2 cho PC.
gung - Phục hồi Monica

Điểm hay, nó có thể hữu ích (không thể tìm ra để làm gì) để nén các nhóm điểm dữ liệu. Tìm các nhóm sử dụng phương tiện k, nén các bản ghi thành ít hơn bằng cách sử dụng pca. Đối với nhóm các tính năng, điều đó có thể thực sự hữu ích.
shuriken x màu xanh

2
Vì vậy, về cơ bản bạn đang nói rằng bài báo là sai? Nó tuyên bố rõ ràng (xem câu thứ 3 và thứ 4 trong bản tóm tắt) và tuyên bố đã chứng minh về mặt toán học rằng có một kết nối cụ thể, trong khi bạn nói rằng không có kết nối.
amip nói rằng Phục hồi lại

Những gì tôi nhận được từ nó: PCA cải thiện các giải pháp phân cụm K-nghĩa. Kết nối là cấu trúc cụm được nhúng trong các thành phần chính K - 1 đầu tiên. Đây là sự đóng góp.
shuriken x màu xanh

7

Ôi(viết sai rồiCười mở miệng2+Cười mở miệng3)

viết sai rồi2Ôi(viết sai rồi2Cười mở miệng+viết sai rồi3)Ôi(kviết sai rồiTôiCười mở miệng)viết sai rồik= =2. K-mean là một vấn đề tối ưu hóa bình phương nhỏ nhất, PCA cũng vậy. k-nghĩa là cố gắng tìm phân vùng bình phương nhỏ nhất của dữ liệu. PCA tìm thấy vector thành viên cụm bình phương nhỏ nhất.

Eigenvector đầu tiên có phương sai lớn nhất, do đó phân tách trên vectơ này (giống như thành viên cụm, không phải tọa độ dữ liệu đầu vào!) Có nghĩa là tối đa hóa giữa phương sai cụm . Bằng cách tối đa hóa giữa phương sai cụm, bạn cũng giảm thiểu phương sai trong cụm.

Nhưng đối với các vấn đề thực sự, điều này là vô ích. Nó chỉ là lợi ích lý thuyết.


2
Sẽ thật tuyệt khi thấy một số lời giải thích / tổng quan cụ thể hơn về bài viết của Đinh & He (mà OP liên kết với). Tôi không quen thuộc với nó (chưa), nhưng đã thấy nó được đề cập đủ lần để khá tò mò.
amip nói rằng Phục hồi lại

3
Ý bạn là sao ? Vâng, tôi cũng đã đi qua nó; Tôi nghĩ rằng nó chỉ thêm vào sự nhầm lẫn của tôi. Tôi đã hy vọng rằng đây sẽ là chủ đề có thể làm rõ nó cho tôi ... Bây giờ tôi nghĩ về nó, có lẽ tôi nên đặt tiền thưởng cho nó. Tôi không nghĩ rằng tôi sẽ có thời gian trong những ngày tiếp theo để tự học chủ đề này.
amip nói phục hồi Monica

3
Đoạn wiki này rất kỳ lạ. Nó nói rằng Đinh và Anh (2001/2004) đều sai và không phải là kết quả mới! Để chứng minh rằng nó không mới, nó trích dẫn một bài báo năm 2004 (?!). Để chứng minh rằng nó đã sai, nó đã trích dẫn một bài báo mới hơn năm 2014 thậm chí không trích dẫn Đinh & Anh. Cá.
amip nói rằng Phục hồi lại

3
Có thể trích dẫn thư rác một lần nữa. Wikipedia có đầy đủ các quảng cáo tự.
Anony-Mousse

1
viết sai rồi×viết sai rồikk

4

Việc giải các phương tiện k trên xấp xỉ thứ hạng thấp O (k / epsilon) của nó (nghĩa là chiếu vào khoảng của các vectơ số ít lớn nhất đầu tiên như trong PCA) sẽ mang lại xấp xỉ (1 + epsilon) về sai số nhân.

Đặc biệt, Chiếu trên vectơ lớn nhất k sẽ mang lại xấp xỉ 2.

Trong thực tế, tổng khoảng cách bình phương cho BẤT K set tập hợp k trung tâm có thể được xấp xỉ bằng phép chiếu này. Sau đó, chúng ta có thể tính toán lõi trên dữ liệu giảm để giảm điểm đầu vào thành điểm poly (k / eps) gần bằng tổng này.

Xem: Dan Feldman, Melanie Schmidt, Christian Sohler: Biến dữ liệu lớn thành dữ liệu nhỏ: lõi có kích thước không đổi cho phương tiện k, PCA và phân cụm chiếu. SODA 2013: 1434-1453


3

Mối quan hệ trực quan của PCA và KMeans

  1. Về mặt lý thuyết phân tích chiều PCA (giữ lại chiều K đầu tiên cho biết 90% phương sai ... không cần phải có mối quan hệ trực tiếp với cụm K Means), tuy nhiên giá trị của việc sử dụng PCA đến từ một) sự cân nhắc thực tế dựa trên bản chất của các đối tượng chúng tôi phân tích có xu hướng phân cụm một cách tự nhiên xung quanh / phát triển từ (một phân đoạn nhất định) các thành phần chính của chúng (tuổi, giới tính ..) b) PCA loại bỏ các chiều phương sai thấp đó (tiếng ồn), do đó, chính nó làm tăng giá trị (và hình thành ý nghĩa tương tự như phân cụm ) bằng cách tập trung vào các chiều chính đó Nói một cách đơn giản, nó giống như trục XY là thứ giúp chúng ta nắm vững bất kỳ khái niệm toán học trừu tượng nào nhưng theo cách tiến bộ hơn.

  2. K Có nghĩa là cố gắng giảm thiểu khoảng cách tổng thể trong một cụm cho một K nhất định

  3. Đối với một tập hợp các đối tượng có tham số thứ nguyên N, theo mặc định, các đối tượng tương tự sẽ có các tham số MOST khác tương tự, ngoại trừ một vài khác biệt chính (ví dụ: một nhóm sinh viên CNTT trẻ, vũ công trẻ, con người sẽ có một số tính năng rất giống nhau (phương sai thấp) nhưng một vài tính năng chính vẫn còn khá đa dạng và nắm bắt được những "Hiệu trưởng chính" đó nắm bắt phần lớn phương sai, ví dụ như màu sắc, khu vực cư trú .... Do đó, độ méo thấp nếu chúng ta bỏ qua các tính năng khác biệt nhỏ hoặc chuyển đổi sang PC thấp hơn sẽ không mất nhiều thông tin
  4. Do đó, rất có thể là rất nhiều người và rất tự nhiên, việc nhóm chúng lại với nhau để xem xét sự khác biệt (các biến thể) có ý nghĩa cho việc đánh giá dữ liệu (ví dụ: nếu bạn thực hiện 1.000 khảo sát trong một tuần trên đường phố chính, phân cụm chúng dựa trên dân tộc , tuổi tác hoặc nền tảng giáo dục như PC có ý nghĩa) Theo nhiệm vụ của K Means, chúng tôi cố gắng thiết lập một số lượng K hợp lý để các thành phần nhóm đó (trong một cụm) có khoảng cách nhỏ nhất (tối thiểu hóa) giữa Centroid và trong khi chi phí để thiết lập và chạy các cụm K là tối ưu (mỗi thành viên như một cụm không có ý nghĩa vì điều đó quá tốn kém để duy trì và không có giá trị)
  5. Việc phân nhóm K có thể dễ dàng được kiểm tra trực quan bởi tối ưu hóa, nếu K ở cùng với các Thành phần chính (ví dụ: nếu đối với những người ở độ tuổi khác nhau, các nhóm dân tộc / đáng tiếc họ có xu hướng bày tỏ ý kiến ​​tương tự vì vậy nếu bạn phân nhóm các khảo sát đó dựa trên Những PC đó, sau đó đạt được mục tiêu thu nhỏ (tham khảo 1) Ngoài ra, những PC đó (dân tộc, tuổi tác, tôn giáo ..) thường là trực giao, do đó khác biệt về mặt thị giác bằng cách xem PCA
  6. Tuy nhiên, suy luận trực quan này dẫn đến một điều kiện đủ nhưng không cần thiết. (Tham khảo 2: Tuy nhiên, PCA là một sự thư giãn hữu ích của phân cụm k-mean không phải là một kết quả mới (xem, ví dụ, [35]), và thật đơn giản để phát hiện ra các mẫu đối lập với tuyên bố rằng không gian con của cụm sao được kéo dài theo các hướng chính. [36])

Chọn các cụm dựa trên / dọc theo CP có thể thoải mái dẫn đến cơ chế phân bổ thoải mái

Đây có thể là một ví dụ nếu x là PC đầu tiên dọc theo trục X: (........... CC1 ............... CC2 ..... ....... Trục CC3 X) trong đó trục X cho biết chiếm hơn 9 lần phương sai và nói là PC duy nhất

6. Cuối cùng, PCA cũng được sử dụng để trực quan hóa sau khi K Means được thực hiện (Tham khảo 4)

Nếu PCA hiển thị * kết quả phân cụm K của chúng ta là trực giao hoặc gần với, thì đó là dấu hiệu cho thấy phân cụm của chúng ta là âm thanh, mỗi phân vùng biểu hiện các đặc điểm duy nhất

(* vì theo định nghĩa, PCA tìm ra / hiển thị các kích thước chính đó (1D đến 3D) sao cho K (PCA) sẽ thu được có lẽ trên phần lớn phương sai.

Vì vậy, PCA vừa hữu ích trong việc trực quan hóa vừa xác nhận một cụm tốt, cũng như một yếu tố hữu ích nội tại trong việc xác định phân cụm K Means - sẽ được sử dụng trước sau Keans.

Tài liệu tham khảo:

  1. https://msdn.microsoft.com/en-us/l Library / azure / dn905944.aspx
  2. https://en.wikipedia.org/wiki/Principal_component_analysis
  3. CLUSTERING SỬ DỤNG PHÂN TÍCH THÀNH PHẦN CHÍNH HÃNG: ỨNG DỤNG TỰ ĐỘNG HÓA NHÂN DÂN TUYỆT VỜI (Combes & Azema)
  4. http://cs229.stanford.edu/notes/cs229-notes10.pdf Andrew Ng
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.