kkbảng phân loại cho các cặp nhãn: nếu kết quả đồng ý, nó sẽ là bội số của ma trận hoán vị. Nghĩa là, mỗi hàng và mỗi cột phải có chính xác một ô khác. Đó là một kiểm tra đơn giản để lập trình. Cũng rất đơn giản để theo dõi những sai lệch nhỏ từ lý tưởng này trở lại các điểm dữ liệu riêng lẻ để bạn có thể thấy chính xác hai câu trả lời khác nhau như thế nào nếu chúng khác nhau. Tôi sẽ không bận tâm để tính toán các biện pháp thỏa thuận thống kê: có thỏa thuận hoàn hảo (cho phép hoán vị) hoặc không có, và trong trường hợp sau, bạn cần theo dõi tất cả các điểm bất đồng để hiểu cách chúng xảy ra. Các kết quả hoặc đồng ý hoặc họ không; bất kỳ số lượng bất đồng nào, thậm chí tại một thời điểm, cần kiểm tra.
Bạn có thể muốn sử dụng một số loại bộ dữ liệu để thử nghiệm: (1) bộ dữ liệu được xuất bản với kết quả k-mean được công bố; (2) bộ dữ liệu tổng hợp với các cụm mạnh rõ ràng; (3) bộ dữ liệu tổng hợp không có phân cụm rõ ràng. (1) là một môn học tốt để sử dụng bất cứ khi nào bạn viết bất kỳ chương trình toán học hoặc thống kê nào. (2) dễ dàng thực hiện theo nhiều cách, chẳng hạn như bằng cách tạo một số điểm ngẫu nhiên để đóng vai trò là trung tâm của cụm và sau đó tạo ra các đám mây điểm bằng cách thay thế ngẫu nhiên các trung tâm cụm tương đối nhỏ. (3) cung cấp một số kiểm tra ngẫu nhiên có khả năng phát hiện ra các hành vi bất ngờ; một lần nữa, đó là một kỷ luật kiểm tra chung tốt.
ivvi0,1,2,…,n−1nknk
d≥2uv2dxzxz
w=z−(z⋅x)x.
ywxyxydncos(2πk/n)x+sin(2πk/n)yk0n−1