Điều này đã ở trong tâm trí tôi ít nhất một vài giờ. Tôi đã cố gắng tìm một k tối ưu cho đầu ra từ thuật toán k-mean (với số liệu tương tự cosine ) nên cuối cùng tôi đã tính toán biến dạng là một hàm của số cụm. Bộ dữ liệu của tôi là một bộ sưu tập 800 tài liệu trong một không gian 600 chiều.
Theo những gì tôi hiểu, việc tìm điểm đầu gối hoặc điểm khuỷu tay trên đường cong này sẽ cho tôi biết ít nhất là xấp xỉ số lượng cụm tôi cần để đưa dữ liệu của mình vào. Tôi đặt đồ thị bên dưới. Điểm tại đó đường thẳng đứng màu đỏ được vẽ bằng cách sử dụng phép thử đạo hàm thứ hai tối đa . Sau khi làm tất cả những điều này, tôi đã bị mắc kẹt ở một điều đơn giản hơn nhiều: biểu đồ này cho tôi biết gì về tập dữ liệu?
Nó có nói với tôi rằng nó không đáng để phân cụm và các tài liệu của tôi thiếu cấu trúc hoặc tôi cần đặt một k rất cao? Mặc dù vậy, có một điều kỳ lạ là ngay cả với mức k thấp, tôi vẫn thấy các tài liệu tương tự được nhóm lại với nhau nên tôi không chắc tại sao mình lại có đường cong này. Có suy nghĩ gì không?
terms x document
thu được sau khi thực hiện vectơ số ít phân hủy. Xin hãy sửa tôi nếu tôi nhầm.