Một trong những vấn đề lớn nhất với phân tích cụm là chúng ta có thể phải rút ra kết luận khác nhau khi dựa trên các phương pháp phân cụm khác nhau (bao gồm các phương pháp liên kết khác nhau trong phân cụm theo phân cấp).
Tôi muốn biết ý kiến của bạn về điều này - bạn sẽ chọn phương pháp nào, và làm thế nào. Người ta có thể nói "phương pháp phân cụm tốt nhất là cho bạn câu trả lời đúng"; nhưng tôi có thể đặt câu hỏi để đáp lại rằng phân tích cụm được cho là một kỹ thuật không được giám sát - vậy làm thế nào để tôi biết phương pháp hoặc liên kết nào là câu trả lời đúng?
Nói chung: một cụm có đủ mạnh để dựa vào không? Hoặc chúng ta cần một phương pháp thứ hai và nhận được một kết quả được chia sẻ dựa trên cả hai?
Câu hỏi của tôi không chỉ là về các cách có thể để xác nhận / đánh giá hiệu suất phân cụm, mà còn rộng hơn - trên cơ sở nào chúng ta chọn / thích một phương pháp / thuật toán phân cụm hơn một phương pháp khác. Ngoài ra, có những cảnh báo phổ biến mà chúng ta nên xem xét xung quanh khi chúng ta đang chọn một phương thức để phân cụm dữ liệu của mình không?
Tôi biết rằng đó là câu hỏi rất chung chung và rất khó trả lời. Tôi chỉ muốn biết nếu bạn có bất kỳ bình luận hoặc bất kỳ lời khuyên hoặc bất kỳ đề nghị cho tôi để tìm hiểu thêm về điều này.