Tôi muốn tìm hiểu (suy luận) trọng số thuộc tính cho thước đo độ không giống nhau của tôi mà tôi có thể sử dụng để phân cụm.
Tôi có một số ví dụ của các cặp đối tượng "tương tự" (nên nằm trong cùng một cụm), cũng như một số ví dụ của các cặp đối tượng "không giống nhau" (không nên ở trong cùng một cụm). Mỗi đối tượng có một số thuộc tính: nếu bạn thích, chúng ta có thể nghĩ đến từng đối tượng như một vector chiều các tính năng, trong đó mỗi tính năng là một số nguyên không âm. Có các kỹ thuật để sử dụng các ví dụ như vậy của các đối tượng tương tự / không giống nhau để ước tính từ chúng các trọng số tính năng tối ưu cho một phép đo khác nhau không?( c i , d i ) d
Nếu nó giúp, trong ứng dụng của tôi, có lẽ sẽ hợp lý khi tập trung vào việc học một thước đo khác biệt đó là một tiêu chuẩn L2 có trọng số:
trong đó các trọng số không được biết và nên được học. (Hoặc, một số loại biện pháp tương tự cosin có trọng số cũng có thể hợp lý.) Có thuật toán tốt để tìm hiểu các trọng số α j cho một biện pháp như vậy, cho các ví dụ không? Hoặc có bất kỳ phương pháp nào khác để học một biện pháp tương tự / đo lường khác nhau mà tôi nên xem xét?
Thật không may, số lượng kích thước rất lớn (hàng nghìn hoặc cao hơn; xuất phát từ các tính năng của từ). Tuy nhiên, tôi có nhiều hàng chục ngàn ví dụ. Sau đó tôi có hàng trăm ngàn đối tượng mà tôi muốn phân cụm, vì vậy điều quan trọng là phải khái quát hóa từ các ví dụ để tìm hiểu một số liệu khác biệt tốt.
Tôi tập hợp rằng điều này rơi vào nhóm các cụm bán giám sát và có vẻ như nó có thể là tĩnh mạch "thích ứng tương tự", nhưng tôi không thể tìm thấy các mô tả rõ ràng về thuật toán để sử dụng cho mục đích này.