Gán nhãn lớp cho cụm k-nghĩa


10

Tôi có một câu hỏi rất cơ bản về phân cụm. Sau khi tôi đã tìm thấy k cụm với trọng tâm của chúng, làm thế nào để tôi diễn giải các lớp của các điểm dữ liệu mà tôi đã phân cụm (gán nhãn lớp có ý nghĩa cho mỗi cụm). Tôi không nói về việc xác nhận các cụm được tìm thấy.

Có thể thực hiện được một tập hợp các điểm dữ liệu được dán nhãn nhỏ, tính toán cụm điểm mà các điểm được gắn nhãn này thuộc về loại nào và dựa trên loại và số điểm mà mỗi cụm nhận được, quyết định nhãn? Điều này có vẻ khá rõ ràng nhưng tôi không biết việc gán nhãn cho các cụm theo cách này là chuẩn như thế nào.

Để rõ ràng, tôi muốn thực hiện phân cụm không giám sát mà không sử dụng bất kỳ nhãn nào để tìm cụm đầu tiên của tôi. Sau đó, khi tìm thấy các cụm, tôi muốn gán nhãn lớp có ý nghĩa cho các cụm dựa trên các thuộc tính của một vài biểu dữ liệu mẫu.


Tôi không chắc chắn để hiểu câu hỏi của bạn: thông thường, mọi thuật toán k-mean sẽ trả về thông tin về tư cách thành viên lớp cho mỗi điểm dữ liệu. Bạn đang nói về các điểm dữ liệu thực tế hoặc quan sát mới?
chl

@chi Tôi nghi ngờ Riyaz quan tâm đến việc tìm tên để gắn nhãn cho cụm và đang nói về một tiên nghiệm đặt tên cho một số điểm và sau đó sử dụng một số thuật toán xem xét ưu thế của các điểm được đặt tên trong cụm để đặt tên cho các cụm đó.
Glen_b -Reinstate Monica

2
@Riyaz, chúng tôi có thể sử dụng phép tương tự sau đây để phân tích nhân tố để hiểu câu hỏi của bạn không? Thường thì ai đó sẽ phân tích một tập hợp các biến để phân cụm chúng thành các nhóm biến có vẻ như 'kết hợp với nhau', nhưng sau đó nhà phân tích cần suy nghĩ về bản chất của các biến tạo nên mỗi cụm để đưa ra một tên cho / cách suy nghĩ về mỗi cụm (yếu tố) là gì . Đó thực chất là những gì bạn đang nhận được ở đây?
gung - Tái lập Monica

Câu trả lời:


4

Đúng. Những gì bạn đề xuất là hoàn toàn tiêu chuẩn và đó là cách mà phần mềm k-nghĩa tiêu chuẩn hoạt động tự động. Trong trường hợp k-nghĩa là bạn tính khoảng cách euclide giữa mỗi lần quan sát (điểm dữ liệu) và từng trung bình cụm (centroid) và gán các quan sát cho cụm tương tự nhất. Sau đó, nhãn của cụm được xác định bằng cách kiểm tra các đặc điểm trung bình của các quan sát được phân loại cho cụm tương ứng với mức trung bình của các cụm so với các cụm khác.


3

Nếu bạn nhìn vào tên trong đối tượng kmeans của bạn, bạn sẽ nhận thấy rằng có một đối tượng "cụm". Điều này chứa các nhãn lớp được sắp xếp giống như dữ liệu đầu vào của bạn. Dưới đây là một ví dụ đơn giản liên kết các nhãn cụm lại với dữ liệu của bạn.

x <- data.frame(X=rnorm(100, sd=0.3), Y=rnorm(100, mean=1, sd=0.3))

k <- kmeans(x, 2) 
names(k)
x <- data.frame(x, K=k$cluster)

# You can also directly return the clusters
x <- data.frame(x, K=kmeans(x, 2)$cluster)

0

Các nhãn cho cụm có thể dựa trên lớp mẫu đa số trong một cụm. Nhưng điều này chỉ đúng nếu số lượng cụm bằng số lượng lớp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.