Như các ghi chú của whuber, các tác giả của thuật toán phân cụm tán cho thấy rằng T1 và T2 có thể được thiết lập với xác thực chéo. Tuy nhiên, các tham số này có thể được điều chỉnh theo cùng một cách với bất kỳ tham số siêu khác nào khác. Một trong những kỹ thuật phổ biến nhất là tìm kiếm lưới, trong đó một phạm vi được chỉ định cho từng tham số, cũng như kích thước bước cho cách thay đổi tham số ở mỗi lần lặp. Ví dụ: giả sử chúng tôi đã chỉ định T1 có phạm vi giá trị từ 25 đến 100 với kích thước bước là 25. Điều này có nghĩa là các giá trị có thể có của T1 sẽ thử là (25, 50, 75, 100). Tương tự, chúng ta có thể đặt T2 có các giá trị có thể trong khoảng 1-4, với kích thước bước là 1, sao cho các giá trị có thể là (1,2,3,4). Điều này có nghĩa là có 16 bộ tham số có thể thử. Giống như bất kỳ thuật toán phân loại hoặc phân cụm nào khác, bạn sẽ đánh giá hiệu quả của nó bằng cách tính điểm F1, độ chính xác / lỗi hoặc chỉ số hiệu suất khác để xác định bộ 16 tham số tốt nhất. Ngoài tìm kiếm dạng lưới, các thuật toán tối ưu hóa siêu tham số khác bao gồm Nelder-Mead ,thuật toán di truyền , ủ mô phỏng và tối ưu hóa dòng hạt , trong số nhiều thứ khác. Các thuật toán này sẽ giúp bạn xác định các giá trị phù hợp cho T1 và T2 theo cách tự động.
Bạn đã lưu ý ở trên rằng bạn có bộ dữ liệu 100K chiều. Bạn đang đề cập đến số lượng hàng hoặc số cột trong dữ liệu của bạn? Nếu bạn đang đề cập đến số lượng cột, tôi khuyên bạn nên thực hiện một số kết hợp lựa chọn tính năng dựa trên phương sai của các tính năng riêng lẻ và trích xuất tính năng thông qua phân tích thành phần chính (PCA) hoặc Kernel-PCA . Ngay cả khi nhiều tính năng của bạn hữu ích (nghĩa là cung cấp mức tăng thông tin theo hướng phân biệt giữa các cụm / lớp / giá trị biến đầu ra), có quá nhiều tính năng có thể có nghĩa là thuật toán phân cụm của bạn không thể xác định khoảng cách phù hợp giữa các trường hợp.