Khi chúng tôi phân loại và hồi quy, chúng tôi thường đặt các bộ kiểm tra và đào tạo để giúp chúng tôi xây dựng và cải thiện các mô hình.
Tuy nhiên, khi chúng ta phân cụm chúng ta cũng cần phải thiết lập các bộ kiểm tra và đào tạo? Tại sao?
Khi chúng tôi phân loại và hồi quy, chúng tôi thường đặt các bộ kiểm tra và đào tạo để giúp chúng tôi xây dựng và cải thiện các mô hình.
Tuy nhiên, khi chúng ta phân cụm chúng ta cũng cần phải thiết lập các bộ kiểm tra và đào tạo? Tại sao?
Câu trả lời:
Có, bởi vì phân cụm cũng có thể bị vấn đề quá phù hợp. Ví dụ: tăng số lượng cụm sẽ luôn "tăng hiệu suất".
Đây là một bản demo sử dụng phân cụm K-Means:
Hàm mục tiêu của K-mean là (chi tiết ký hiệu có thể tìm thấy ở đây )
Với mục tiêu như vậy, thấp hơn có nghĩa là mô hình "tốt hơn".
Giả sử chúng ta có dữ liệu sau (dữ liệu mống mắt), chọn số cụm là 3 5 4 J = 0 sẽ luôn "tốt hơn" so với chọn số cụm là . Sau đó chọn cụm sẽ tốt hơn cụm. Chúng ta có thể tiếp tục theo dõi này và kết thúc với chi phí : chỉ cần tạo số cụm bằng số lượng điểm dữ liệu và đặt tất cả tâm cụm trên các điểm tương ứng.
d=iris[,c(3,4)]
res4=kmeans(d, 4,nstart=20)
res3=kmeans(d, 3,nstart=20)
par(mfrow=c(1,2))
plot(d,col=factor(res4$cluster),
main=paste("4 clusters J=",round(res4$tot.withinss,4)))
plot(d,col=factor(res3$cluster),
main=paste("3 clusters J=",round(res3$tot.withinss,4)))
Nếu chúng tôi đã giữ dữ liệu để kiểm tra, nó sẽ ngăn chúng tôi phù hợp quá mức. Ví dụ tương tự, giả sử chúng ta đang chọn các cụm số lượng lớn và đặt mọi trung tâm cụm vào các điểm dữ liệu đào tạo. Lỗi kiểm tra sẽ lớn, vì các điểm dữ liệu kiểm tra sẽ không trùng với dữ liệu huấn luyện.
Không, điều này thường sẽ không thể.
Có rất ít cụm mà bạn có thể sử dụng như một bộ phân loại. Chỉ với phương tiện k, PAM, v.v. bạn có thể đánh giá "tổng quát hóa", nhưng việc phân cụm đã trở nên đa dạng hơn (và thú vị) kể từ đó. Và trên thực tế, ngay cả cụm phân cấp cũ cũng không khái quát tốt cho dữ liệu 'mới'. Phân cụm không phân loại. Nhiều phương pháp từ phân loại không chuyển tốt sang phân cụm; bao gồm tối ưu hóa siêu tham số.
Nếu bạn chỉ có một phần dữ liệu được gắn nhãn, bạn có thể sử dụng các nhãn này để tối ưu hóa các tham số. Nhưng kịch bản chung của phân cụm sẽ là bạn muốn tìm hiểu thêm về tập dữ liệu của mình; vì vậy bạn chạy phân cụm nhiều lần, điều tra các cụm thú vị (vì thông thường, một số cụm rõ ràng quá nhỏ hoặc quá lớn để trở nên thú vị!) và ghi lại một số hiểu biết bạn có. Phân cụm là một công cụ giúp con người khám phá một tập dữ liệu , không phải là một thứ tự động. Nhưng bạn sẽ không "triển khai" một cụm. Chúng quá không đáng tin cậy, và một cụm duy nhất sẽ không bao giờ "kể toàn bộ câu chuyện".
Không. Bạn không sử dụng đào tạo và kiểm tra trong học tập không giám sát. Không có chức năng khách quan trong học tập không giám sát để kiểm tra hiệu năng của thuật toán.