Sự khác biệt giữa các thuật toán k-mean tiêu chuẩn và hình cầu


28

Tôi muốn hiểu, sự khác biệt thực hiện chính giữa các thuật toán phân cụm k-nghĩa tiêu chuẩn và hình cầu là gì.

Trong mỗi bước, k-có nghĩa là tính khoảng cách giữa các vectơ phần tử và trọng tâm cụm và gán lại tài liệu cho cụm này, mà centroid là điểm gần nhất. Sau đó, tất cả các nhân giáp được tính toán lại.

Trong phương tiện k hình cầu, tất cả các vectơ được chuẩn hóa và khoảng cách đo là độ không tương tự cosin.

Đó là tất cả, hay có cái gì khác?

Câu trả lời:


23

Câu hỏi là:

Sự khác biệt giữa phương tiện k cổ điển và phương tiện k hình cầu là gì?

K-nghĩa cổ điển:

Trong phương tiện k cổ điển, chúng tôi tìm cách giảm thiểu khoảng cách Euclide giữa trung tâm cụm và các thành viên của cụm. Trực giác đằng sau điều này là khoảng cách xuyên tâm từ tâm cụm đến vị trí phần tử nên "có độ chính xác" hoặc "tương tự" đối với tất cả các phần tử của cụm đó.

Thuật toán là:

  • Đặt số lượng cụm (còn gọi là số cụm)
  • Khởi tạo bằng cách gán ngẫu nhiên các điểm trong không gian cho các chỉ mục cụm
  • Lặp lại cho đến khi hội tụ
    • Đối với mỗi điểm, tìm cụm gần nhất và gán điểm cho cụm
    • Đối với mỗi cụm, tìm giá trị trung bình của điểm thành viên và trung bình cập nhật
    • Lỗi là định mức khoảng cách của cụm

K-có nghĩa là hình cầu:

Trong phương tiện k hình cầu, ý tưởng là đặt tâm của mỗi cụm sao cho nó đồng nhất và tối thiểu góc giữa các thành phần. Trực giác giống như nhìn vào các ngôi sao - các điểm nên có khoảng cách nhất quán giữa nhau. Khoảng cách đó đơn giản hơn để định lượng là "độ tương tự cosin", nhưng điều đó có nghĩa là không có các thiên hà "dải ngân hà" tạo thành những vệt sáng lớn trên bầu trời dữ liệu. (Vâng, tôi đang cố gắng nói chuyện với bà trong phần mô tả này.)

Phiên bản kỹ thuật hơn:

Hãy nghĩ về các vectơ, những thứ bạn vẽ biểu đồ như mũi tên có định hướng và chiều dài cố định. Nó có thể được dịch ở bất cứ đâu và là cùng một vector. tham chiếu

nhập mô tả hình ảnh ở đây

Hướng của điểm trong không gian (góc của nó từ đường tham chiếu) có thể được tính bằng đại số tuyến tính, đặc biệt là sản phẩm chấm.

Nếu chúng ta di chuyển tất cả dữ liệu sao cho đuôi của chúng ở cùng một điểm, chúng ta có thể so sánh "vectơ" theo góc của chúng và nhóm các dữ liệu tương tự thành một cụm.

nhập mô tả hình ảnh ở đây

Để rõ ràng, độ dài của các vectơ được chia tỷ lệ, do đó chúng dễ so sánh với "nhãn cầu" hơn.

nhập mô tả hình ảnh ở đây

Bạn có thể nghĩ về nó như một chòm sao. Các ngôi sao trong một cụm duy nhất gần nhau theo một nghĩa nào đó. Đây là nhãn cầu của tôi được coi là chòm sao.

nhập mô tả hình ảnh ở đây

Giá trị của cách tiếp cận chung là nó cho phép chúng ta tạo ra các vectơ mà nếu không có kích thước hình học, chẳng hạn như trong phương pháp tf-idf, trong đó các vectơ là tần số từ trong tài liệu. Hai từ "và" được thêm vào không bằng "the". Các từ không liên tục và không số. Chúng không phải là vật lý theo nghĩa hình học, nhưng chúng ta có thể tạo ra chúng theo hình học, và sau đó sử dụng các phương pháp hình học để xử lý chúng. Phương tiện k hình cầu có thể được sử dụng để phân cụm dựa trên các từ.

[x1y1x2y2grobạnp0-0,8-0.2013-0,7316B-0,80,1-0,95240,3639Một0,20,30,2061-0,1434C0,80,10,47870,153B-0,70,2-0,72760,3825Một0,90,90,7480,6793C]

Một số điểm:

  • Họ dự kiến ​​một quả cầu đơn vị để tính sự khác biệt về chiều dài tài liệu.

Chúng ta hãy làm việc thông qua một quá trình thực tế và xem mức độ "tệ hại" của tôi.

Thủ tục là:

  1. (ẩn trong vấn đề) kết nối các vectơ đuôi ở gốc
  2. dự án vào phạm vi đơn vị (để tính sự khác biệt về độ dài tài liệu)
  3. sử dụng phân cụm để giảm thiểu "sự khác biệt cosin "

J= =Σtôid(xtôi,pc(tôi))

d(x,p)= =1-coS(x,p)= =x,pxp

(sắp có thêm chỉnh sửa)

Liên kết:

  1. http://epub.wu.ac.at/4000/1/apers.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/ con / refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-alacticm
  6. https://ocw.mit.edu/cifts/sloan-school-of-manloyment/15-097-predtions-machine-learning-and-statistic-spring-2012/projects/MIT15_097S12_proj1.pdf

Trong các tệp văn bản, tôi nghĩ rằng chức năng "diff" sắp xếp các ký tự hoặc biểu thị các thay đổi theo trọng số, có thể là tiền xử lý hữu ích của các văn bản "gần nhau" để cải thiện việc phân cụm có ý nghĩa
EngrStudent - Tái tạo lại

Tôi nhận được "Truy cập bị cấm" tại liên kết trong # 1 ( sci.utah.edu/~weiliu/research/clustering_fmri/ trộm )
David Doria

@David - tôi cũng vậy. Luôn luôn chuyển động là ... internet? Đợi một chút.
EngrStudent - Phục hồi Monica

1
Sau một chút do dự, tôi đã chọn để hạ thấp câu trả lời này. Đó không chỉ là lời giải thích quá "bà", nó không chính xác. radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that clusterÂm thanh đơn giản không chính xác hoặc cùn. Trong both uniform and minimal the angle between components"thành phần" không được xác định. Tôi hy vọng rằng bạn có thể cải thiện câu trả lời có khả năng lớn nếu bạn làm nó nghiêm ngặt hơn một chút và mở rộng.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.