Đây là một ý tưởng suy nghĩ đi ngang: Bạn có một số nhãn tích cực và bạn có thể ước tính nhóm dữ liệu tự nhiên bằng cách sử dụng học tập không giám sát. Cố gắng đo sự chồng chéo giữa thông tin đã biết và cách các nhóm dữ liệu kết hợp với nhau, sử dụng sự trùng lặp làm thước đo sự thật.
Vì vậy, thực hiện học tập không giám sát, xem dữ liệu được dán nhãn tương ứng với các cụm. Nếu bạn gặp may, thì các nhãn sẽ chỉ tương quan với một trong các cụm hoặc các ngoại lệ (có thể hóa ra là các cụm được cung cấp thêm dữ liệu).
Kết quả A - các nhóm dữ liệu rời rạc
Giả sử bạn có 10 nhãn từ 100 ví dụ chưa được gắn nhãn và sau khi phân cụm, hóa ra 10 nhãn đó thuộc về một cụm có 20 điểm dữ liệu. Đây là trường hợp hạnh phúc và bây giờ bạn có thể gắn nhãn tất cả 20 với 1 và mọi thứ khác là 0. Vấn đề được giải quyết, chỉ cần sử dụng AUC.
Kết quả B - hơn 2 nhóm, cụm mờ
Điều gì xảy ra nếu đây không phải là trường hợp? Còn các nhóm khác thì sao?
Nếu không, giả sử bạn có 9 nhãn theo cụm với 20 và 1 ở một trong các cụm khác (hy vọng là một nhãn khác). Lặp lại nhiều lần và đếm số lần nhãn 'đất' trong một nhóm nhất định. Tính toán thông tin lẫn nhau giữa dữ liệu được dán nhãn (ví dụ tích cực) và các nhóm qua nhiều cụm.XY
Tôi( X; Y) = =Σy∈ YΣx ∈ Xp ( x , y) đăng nhập(p ( x , y)p ( x )p ( y)) ,
Vì vậy, với cụm, cuối cùng bạn sẽ có cho mỗi nhóm. Giả sử rằng các giá trị này là sự thật cơ bản (giá trị đích) khi bạn đánh giá mô hình cuối cùng của mình.K= 3Tôik( X; Y)
Điều này dựa trên giả định rằng dự đoán của bạn cũng sẽ có các nhãn tích cực (hiện tại, nhiều trong số chúng) được phân phối theo một cách nhất định trong nhóm dữ liệu không được giám sát.