Câu hỏi là:
Sự khác biệt giữa phương tiện k cổ điển và phương tiện k hình cầu là gì?
K-nghĩa cổ điển:
Trong phương tiện k cổ điển, chúng tôi tìm cách giảm thiểu khoảng cách Euclide giữa trung tâm cụm và các thành viên của cụm. Trực giác đằng sau điều này là khoảng cách xuyên tâm từ tâm cụm đến vị trí phần tử nên "có độ chính xác" hoặc "tương tự" đối với tất cả các phần tử của cụm đó.
Thuật toán là:
- Đặt số lượng cụm (còn gọi là số cụm)
- Khởi tạo bằng cách gán ngẫu nhiên các điểm trong không gian cho các chỉ mục cụm
- Lặp lại cho đến khi hội tụ
- Đối với mỗi điểm, tìm cụm gần nhất và gán điểm cho cụm
- Đối với mỗi cụm, tìm giá trị trung bình của điểm thành viên và trung bình cập nhật
- Lỗi là định mức khoảng cách của cụm
K-có nghĩa là hình cầu:
Trong phương tiện k hình cầu, ý tưởng là đặt tâm của mỗi cụm sao cho nó đồng nhất và tối thiểu góc giữa các thành phần. Trực giác giống như nhìn vào các ngôi sao - các điểm nên có khoảng cách nhất quán giữa nhau. Khoảng cách đó đơn giản hơn để định lượng là "độ tương tự cosin", nhưng điều đó có nghĩa là không có các thiên hà "dải ngân hà" tạo thành những vệt sáng lớn trên bầu trời dữ liệu. (Vâng, tôi đang cố gắng nói chuyện với bà trong phần mô tả này.)
Phiên bản kỹ thuật hơn:
Hãy nghĩ về các vectơ, những thứ bạn vẽ biểu đồ như mũi tên có định hướng và chiều dài cố định. Nó có thể được dịch ở bất cứ đâu và là cùng một vector. tham chiếu
Hướng của điểm trong không gian (góc của nó từ đường tham chiếu) có thể được tính bằng đại số tuyến tính, đặc biệt là sản phẩm chấm.
Nếu chúng ta di chuyển tất cả dữ liệu sao cho đuôi của chúng ở cùng một điểm, chúng ta có thể so sánh "vectơ" theo góc của chúng và nhóm các dữ liệu tương tự thành một cụm.
Để rõ ràng, độ dài của các vectơ được chia tỷ lệ, do đó chúng dễ so sánh với "nhãn cầu" hơn.
Bạn có thể nghĩ về nó như một chòm sao. Các ngôi sao trong một cụm duy nhất gần nhau theo một nghĩa nào đó. Đây là nhãn cầu của tôi được coi là chòm sao.
Giá trị của cách tiếp cận chung là nó cho phép chúng ta tạo ra các vectơ mà nếu không có kích thước hình học, chẳng hạn như trong phương pháp tf-idf, trong đó các vectơ là tần số từ trong tài liệu. Hai từ "và" được thêm vào không bằng "the". Các từ không liên tục và không số. Chúng không phải là vật lý theo nghĩa hình học, nhưng chúng ta có thể tạo ra chúng theo hình học, và sau đó sử dụng các phương pháp hình học để xử lý chúng. Phương tiện k hình cầu có thể được sử dụng để phân cụm dựa trên các từ.
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢x 10- 0,80,20,8- 0,70,9y1- 0,80,10,30,10,20,9x 2- 0.2013- 0,95240,20610,4787- 0,72760,748y2- 0,73160,3639- 0,14340,1530,38250,6793gr o u pBMộtCBMộtC⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
Một số điểm:
- Họ dự kiến một quả cầu đơn vị để tính sự khác biệt về chiều dài tài liệu.
Chúng ta hãy làm việc thông qua một quá trình thực tế và xem mức độ "tệ hại" của tôi.
Thủ tục là:
- (ẩn trong vấn đề) kết nối các vectơ đuôi ở gốc
- dự án vào phạm vi đơn vị (để tính sự khác biệt về độ dài tài liệu)
- sử dụng phân cụm để giảm thiểu "sự khác biệt cosin "
J= ∑tôid( xtôi, pc ( i ))
d( X , p ) = 1 - c o s ( x , p ) = ⟨ x , p ⟩∥ x ∥ ∥ p ∥
(sắp có thêm chỉnh sửa)
Liên kết:
- http://epub.wu.ac.at/4000/1/apers.pdf
- http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.111.8125&rep=rep1&type=pdf
- http://www.cs.gsu.edu/~wkim/index_files/ con / refinehd.pdf
- https://www.jstatsoft.org/article/view/v050i10
- http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-alacticm
- https://ocw.mit.edu/cifts/sloan-school-of-manloyment/15-097-predtions-machine-learning-and-statistic-spring-2012/projects/MIT15_097S12_proj1.pdf