Tôi không có kinh nghiệm trong ngành khai thác dữ liệu hoặc dữ liệu lớn vì vậy rất thích nghe bạn chia sẻ một số kinh nghiệm.
Có phải mọi người thực sự chạy k-mean, PAM, CLARA, v.v. trên một tập dữ liệu thực sự lớn? Hoặc họ chỉ chọn ngẫu nhiên một mẫu từ nó? Nếu họ chỉ lấy một mẫu của tập dữ liệu, kết quả có đáng tin không nếu tập dữ liệu không được phân phối bình thường?
Trong các tình huống thực tế khi chạy các thuật toán này, chúng ta có thể cho biết bao nhiêu lần lặp lại thông thường cho đến khi hội tụ xảy ra không? Hoặc số lần lặp luôn tăng theo kích thước dữ liệu?
Tôi đang hỏi điều này bởi vì tôi đang nghĩ đến việc phát triển một cách tiếp cận để chấm dứt các thuật toán lặp trước khi hội tụ, nhưng kết quả vẫn được chấp nhận. Tôi nghĩ rằng nó đáng để thử nếu số lần lặp là hơn 1.000, vì vậy chúng ta có thể tiết kiệm một số chi phí tính toán và thời gian. Bạn nghĩ sao?
number of iterations always grow with the data size
Không cần thiết.