Có rất nhiều phương pháp phân cụm, có tính chất khám phá và tôi không nghĩ rằng bất kỳ phương pháp nào, dù là phân cấp hay dựa trên phân vùng, đều dựa trên loại giả định mà người ta phải đáp ứng để phân tích phương sai.
Xem tài liệu [MV] trong Stata để trả lời câu hỏi của bạn, tôi thấy câu trích dẫn thú vị này ở trang 85:
Mặc dù một số người đã nói rằng có nhiều phương pháp phân tích cụm như có những người thực hiện phân tích cụm. Đây là một cách nói thô thiển! Tồn tại vô số cách để thực hiện phân tích cụm so với những người thực hiện chúng.
Trong bối cảnh đó, tôi nghi ngờ rằng có bất kỳ giả định nào áp dụng trên phương pháp phân cụm. Phần còn lại của văn bản chỉ đặt ra một quy tắc chung rằng bạn cần một số dạng "thước đo độ không giống nhau", thậm chí không cần là một khoảng cách số liệu, để tạo các cụm.
Tuy nhiên, có một ngoại lệ, đó là khi bạn phân cụm các quan sát như là một phần của phân tích sau ước lượng. Trong Stata, vce
lệnh đi kèm với cảnh báo sau, tại trang 86 của cùng một nguồn:
Nếu bạn đã quen thuộc với các lệnh ước lượng lớn của Stata, hãy cẩn thận để phân biệt giữa phân tích cụm (lệnh cụm) và tùy chọn vce (cụm clustvar) được phép với nhiều lệnh ước tính. Phân tích cụm tìm thấy các nhóm trong dữ liệu. Tùy chọn vce (cluster clustvar) được phép với các lệnh ước tính khác nhau cho thấy rằng các quan sát là độc lập giữa các nhóm được xác định bởi tùy chọn nhưng không nhất thiết phải độc lập trong các nhóm đó. Một biến nhóm được tạo bởi lệnh cluster sẽ hiếm khi thỏa mãn giả định đằng sau việc sử dụng tùy chọn vce (cluster clustvar).
Dựa vào đó, tôi cho rằng các quan sát độc lập không bắt buộc bên ngoài trường hợp cụ thể đó. Theo trực giác, tôi sẽ thêm rằng phân tích cụm thậm chí có thể được sử dụng cho mục đích chính xác là khám phá mức độ quan sát độc lập hay không.
Tôi sẽ kết thúc bằng cách đề cập rằng, tại trang 356 của Thống kê với Stata , Lawrence Hamilton đã đề cập đến các biến được tiêu chuẩn hóa như một khía cạnh "thiết yếu" của phân tích cụm, mặc dù ông không đi sâu hơn về vấn đề này.