Bạn làm gì khi không có điểm khuỷu tay để phân cụm


13

Tôi đã học được rằng khi chọn một số cụm, bạn nên tìm một điểm khuỷu tay cho các giá trị khác nhau của K. Tôi đã vẽ các giá trị của các giá trị cho các giá trị của k từ 1 đến 10, nhưng tôi không thấy rõ khuỷu tay. Bạn làm gì trong trường hợp như thế này?

Quốc gia phiền hà


2
Tồn tại nhiều tiêu chí phân cụm, quy tắc "khuỷu tay SS" chỉ là một và không phải là tốt nhất. Hãy thử khác. Cũng có khả năng là bạn không có cụm trong dữ liệu của mình.
ttnphns

@ttnphns Điều này bí ẩn khác mà bạn nói đến là gì? Làm thế nào tôi có thể không có cụm trong dữ liệu của tôi? Làm sao tôi biết?
Glen

Câu trả lời:


7

Phương pháp sai?

Có thể bạn đang sử dụng thuật toán sai cho vấn đề của bạn.

Sai tiền xử lý?

K-nghĩa là rất nhạy cảm với tiền xử lý. Nếu một thuộc tính ở quy mô lớn hơn nhiều so với các thuộc tính khác, nó sẽ chiếm ưu thế đầu ra. Đầu ra của bạn sau đó sẽ có hiệu quả 1 chiều

Hình dung kết quả

Dù bạn làm gì, bạn cần xác nhận kết quả của mình bằng một cái gì đó ngoài việc bắt đầu từ một số như SSQ. Thay vào đó, hãy xem xét trực quan .

Trực quan cũng có thể cho bạn biết rằng có thể chỉ có một cụm duy nhất trong dữ liệu của bạn.


Một số tùy chọn trực quan tốt cho dữ liệu đa chiều là gì?
Jeremy

1
Phụ thuộc vào dữ liệu của bạn. Một số dữ liệu có thể được chiếu tốt, bởi vì nó có chiều kích nội tại thấp hơn nhiều. Chuỗi thời gian có thể dễ dàng được vẽ, và nếu dữ liệu của bạn là một hình ảnh nối tiếp, hãy hình dung nó như hình ảnh? Bằng mọi cách, trực quan hóa phụ thuộc vào dữ liệu của bạn , sẽ không bao giờ có giải pháp một kích cỡ phù hợp cho tất cả.
Có QUIT - Anony-Mousse

3

Một cách là kiểm tra thủ công các thành viên trong cụm của bạn để tìm một k cụ thể để xem các nhóm có hợp lý không (chúng có thể phân biệt được không?). Điều này có thể được thực hiện thông qua các bảng dự phòng và phương tiện có điều kiện. Làm điều này cho nhiều loại k và bạn có thể xác định giá trị nào là phù hợp.

Một cách ít chủ quan hơn là sử dụng Giá trị Silhouette:

/programming/18285434/how-do-i-choose-k-when-USE-k-means-clustering-with-sil Silhouette-feft

Điều này có thể được tính toán với gói phần mềm yêu thích của bạn. Từ liên kết:

Phương pháp này chỉ so sánh sự tương đồng giữa các nhóm với sự tương tự nhóm gần nhất. Nếu bất kỳ khoảng cách trung bình thành viên dữ liệu nào với các thành viên khác trong cùng cụm cao hơn khoảng cách trung bình với một số thành viên cụm khác, thì giá trị này là âm và phân cụm không thành công. Mặt khác, các giá trị silhuette gần bằng 1 biểu thị hoạt động phân cụm thành công. 0,5 không phải là một biện pháp chính xác để phân cụm.


Glen, cá nhân tôi nghĩ rằng câu trả lời của bạn là không đầy đủ. Đoạn 1 có vẻ không rõ ràng. "Kiểm tra thủ công" là gì, bạn có thể mô tả các thủ tục xin vui lòng? Vậy thì, Silhouette "ít chủ quan" hơn cái gì ? Và tại sao?
ttnphns

@ttnphns trả lời cập nhật.
Glen

contingency tables and conditional meansĐiều này là huyền bí hơn nữa. Tôi nên làm gì với họ để đến "chủ quan" ở một k tốt?
ttnphns

@ttnphns Nếu người đăng có câu hỏi về nó tôi sẽ theo dõi. Như tôi đã nói, bạn nên kiểm tra xem các nhóm có thể phân biệt được không. Nó có vẻ rõ ràng với tôi.
Glen

Vì vậy, nếu tôi nhận được các giá trị hình bóng thấp (~ .35), nó có thể chỉ ra rằng dữ liệu này không thực sự có các cụm tốt?
Jeremy

0
  • Không có khuỷu tay trong K-nghĩa không có nghĩa là không có cụm trong dữ liệu;
  • Không có khuỷu tay có nghĩa là thuật toán được sử dụng không thể tách các cụm; (nghĩ về K-nghĩa cho các vòng tròn đồng tâm, so với DBSCAN)

Nói chung, bạn có thể xem xét:

  • điều chỉnh thuật toán của bạn;
  • sử dụng thuật toán khác;
  • làm tiền xử lý dữ liệu.

-1

Chúng ta có thể sử dụng gói NbClust để tìm giá trị tối ưu nhất của k. Nó cung cấp 30 chỉ số để xác định số lượng cụm và đề xuất kết quả tốt nhất.

NbClust (data = df, distance = "euclidean", min.nc = 2, max.nc = 15, method = "kmeans", index = "all")


Chào mừng đến với trang web! Bạn có thể mở rộng về câu trả lời này? Mặc dù hữu ích, một chút chi tiết sẽ làm cho nó hữu ích hơn.
mkt - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.