Làm cách nào để xác định thuật toán các giá trị của T1 & T2 cho phân cụm tán?

Tôi đang cố gắng sử dụng phân cụm tán để cung cấp các cụm ban đầu cho người KMeans trong mõm.

Có cách nào để xác định / xấp xỉ các giá trị của ngưỡng khoảng cách T1 & T2 theo thuật toán không? Ngay bây giờ tôi có T1 = 100 và T2 = 1 dường như không làm được gì tốt.

clustering

— Rohan Monga
nguồn

Tài liệu tham khảo này gợi ý mơ hồ rằng T1 và T2 có thể được thiết lập với "xác thực chéo". Lưu ý rằng các ngưỡng này phụ thuộc mật thiết vào bản chất của số liệu, vào khía cạnh của vấn đề và thậm chí là phân phối dữ liệu.

— whuber

Tôi có một bộ dữ liệu khá lớn, với kích thước> 100K (một vài hợp đồng biểu diễn), có cách nào để ước tính kỹ thuật phân phối / lấy mẫu sẽ hoạt động không?

— Rohan Monga

Vì vậy, nó có một vài trăm k kích thước. Có bao nhiêu hàng? Là nó liên tục, hoặc phân loại? Làm thế nào là thưa thớt? Tại sao bạn tập trung vào nó - mục đích là gì? Bạn đã thử phương tiện k bình thường chưa? Nếu bạn không thích tính chiều của mình - bạn đã xem xét giảm chiều hay tầm quan trọng của biến chưa?

— EngrStudent

Như các ghi chú của whuber, các tác giả của thuật toán phân cụm tán cho thấy rằng T1 và T2 có thể được thiết lập với xác thực chéo. Tuy nhiên, các tham số này có thể được điều chỉnh theo cùng một cách với bất kỳ tham số siêu khác nào khác. Một trong những kỹ thuật phổ biến nhất là tìm kiếm lưới, trong đó một phạm vi được chỉ định cho từng tham số, cũng như kích thước bước cho cách thay đổi tham số ở mỗi lần lặp. Ví dụ: giả sử chúng tôi đã chỉ định T1 có phạm vi giá trị từ 25 đến 100 với kích thước bước là 25. Điều này có nghĩa là các giá trị có thể có của T1 sẽ thử là (25, 50, 75, 100). Tương tự, chúng ta có thể đặt T2 có các giá trị có thể trong khoảng 1-4, với kích thước bước là 1, sao cho các giá trị có thể là (1,2,3,4). Điều này có nghĩa là có 16 bộ tham số có thể thử. Giống như bất kỳ thuật toán phân loại hoặc phân cụm nào khác, bạn sẽ đánh giá hiệu quả của nó bằng cách tính điểm F1, độ chính xác / lỗi hoặc chỉ số hiệu suất khác để xác định bộ 16 tham số tốt nhất. Ngoài tìm kiếm dạng lưới, các thuật toán tối ưu hóa siêu tham số khác bao gồm Nelder-Mead ,thuật toán di truyền , ủ mô phỏng và tối ưu hóa dòng hạt , trong số nhiều thứ khác. Các thuật toán này sẽ giúp bạn xác định các giá trị phù hợp cho T1 và T2 theo cách tự động.

Bạn đã lưu ý ở trên rằng bạn có bộ dữ liệu 100K chiều. Bạn đang đề cập đến số lượng hàng hoặc số cột trong dữ liệu của bạn? Nếu bạn đang đề cập đến số lượng cột, tôi khuyên bạn nên thực hiện một số kết hợp lựa chọn tính năng dựa trên phương sai của các tính năng riêng lẻ và trích xuất tính năng thông qua phân tích thành phần chính (PCA) hoặc Kernel-PCA . Ngay cả khi nhiều tính năng của bạn hữu ích (nghĩa là cung cấp mức tăng thông tin theo hướng phân biệt giữa các cụm / lớp / giá trị biến đầu ra), có quá nhiều tính năng có thể có nghĩa là thuật toán phân cụm của bạn không thể xác định khoảng cách phù hợp giữa các trường hợp.

— Bệnh chàm
nguồn