Tại sao chúng ta sử dụng phương tiện k thay vì các thuật toán khác?


14

Tôi đã nghiên cứu về phương tiện k và đây là những gì tôi nhận được: k-mean là một trong những thuật toán đơn giản nhất sử dụng phương pháp học tập không giám sát để giải quyết các vấn đề phân cụm đã biết. Nó hoạt động thực sự tốt với các bộ dữ liệu lớn.

Tuy nhiên, cũng có nhược điểm của K-Means là:

  • Nhạy cảm mạnh mẽ với các ngoại lệ và tiếng ồn
  • Không hoạt động tốt với hình dạng cụm không tròn - số lượng cụm và giá trị hạt ban đầu cần được chỉ định trước
  • Khả năng thấp để vượt qua tối ưu địa phương.

Có điều gì tuyệt vời về phương tiện k, bởi vì dường như những nhược điểm vượt ra ngoài những điều tốt đẹp về phương tiện k.

Xin hãy dạy tôi.


3
Không có thứ gọi là phương pháp tốt hay thuật toán tốt mà không có bối cảnh của vấn đề được sử dụng. Vì vậy, chúng tôi sử dụng phương tiện k vì có những vấn đề mà k-nghĩa là một giải pháp tối ưu (;

Câu trả lời:


8

Các thuật toán phân cụm khác với các tính năng tốt hơn có xu hướng đắt hơn. Trong trường hợp này, k-mean trở thành một giải pháp tuyệt vời cho việc phân cụm trước, giảm không gian thành các không gian con nhỏ hơn, nơi các thuật toán phân cụm khác có thể được áp dụng.


Đắt hơn như trong chi phí của chương trình? hoặc là ?
Sọ vàng với hoa văn

5
Đắt hơn như chậm và tốn nhiều bộ nhớ.
Martin O'Leary

Ồ tôi hiểu rồi. Có bất kỳ lợi ích nào khác ngoài nhanh, mạnh mẽ và dễ hiểu hơn không? Và dù sao cũng cảm ơn vì những câu trả lời @ MartinO'Leary và @ zeferino
Sọ vàng với Hoa văn

6

K-nghĩa là đơn giản nhất. Để thực hiện và để chạy. Tất cả bạn cần làm là chọn "k" và chạy nó một số lần.

Hầu hết các thuật toán thông minh hơn (đặc biệt là các thuật toán tốt) khó thực hiện hiệu quả hơn nhiều (bạn sẽ thấy các yếu tố 100 lần khác biệt về thời gian chạy) và có nhiều tham số hơn để đặt.

Thêm, hầu hết mọi người không cần cụm chất lượng . Họ thực sự hài lòng với bất cứ điều gì từ xa làm việc cho họ. Thêm vào đó, họ không thực sự biết phải làm gì khi có các cụm phức tạp hơn. K-mean, mô hình các cụm sử dụng mô hình đơn giản nhất từ ​​trước đến nay - một centroid - chính xác là những gì họ cần: giảm dữ liệu lớn xuống centroid .


0

K-mean giống như thuật toán Exchange Sort. Dễ hiểu, giúp người ta đi vào chủ đề, nhưng không bao giờ nên được sử dụng cho bất cứ điều gì thực sự, bao giờ hết. Trong trường hợp Exchange Sort, ngay cả Bubble Sort cũng tốt hơn vì nó có thể dừng sớm nếu mảng được sắp xếp một phần. Trong trường hợp của phương tiện K, thuật toán EM là thuật toán tương tự nhưng giả sử các phân phối Gaussian cho các cụm thay vì giả định phân phối thống nhất của phương tiện K. K-mean là trường hợp cạnh của EM khi tất cả các cụm có ma trận hiệp phương sai chéo. Cấu trúc Gaussian có nghĩa là các cụm co lại tự bọc dữ liệu theo một cách rất hay. Điều này nhận được xung quanh những phản đối nghiêm trọng mà bạn nêu chính xác trong câu hỏi. Và EM thực sự không đắt hơn nhiều so với K-mean, thực sự. (Tôi có thể triển khai cả hai trong bảng tính Excel.) Nhưng đối với các ứng dụng phân cụm nghiêm trọng,

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.