Từ những gì tôi đã đọc:
A Distant supervision algorithm usually has the following steps:
1] It may have some labeled training data
2] It "has" access to a pool of unlabeled data
3] It has an operator that allows it to sample from this unlabeled
data and label them and this operator is expected to be noisy in its labels
4] The algorithm then collectively utilizes the original labeled training data
if it had and this new noisily labeled data to give the final output.
Tự học ( Yates, Alexander, và cộng sự " Năm 2007 ):
Người học hoạt động theo hai bước. Đầu tiên, nó tự động gắn nhãn dữ liệu đào tạo của riêng mình là tích cực hoặc tiêu cực. Thứ hai, nó sử dụng dữ liệu được dán nhãn này để huấn luyện bộ phân loại Naive Bayes.
Giám sát yếu (Hoffmann, Raphael và cộng sự .):
Một cách tiếp cận hứa hẹn hơn, thường được gọi là giám sát yếu kém, hay giám sát, xa xôi, tạo ra dữ liệu huấn luyện của riêng mình bằng cách kết hợp một cách tự nhiên các nội dung của cơ sở dữ liệu với văn bản tương ứng.
Tất cả đều giống nhau đối với tôi, ngoại trừ việc tự đào tạo dường như hơi khác ở chỗ heuristic ghi nhãn là phân loại được đào tạo, và có một vòng lặp giữa giai đoạn ghi nhãn và giai đoạn đào tạo phân loại. Tuy nhiên, Yao, Limin, Sebastian Riedel và Andrew McCallum. " Trích xuất quan hệ tài liệu chéo tập thể mà không có dữ liệu được dán nhãn. " Kỷ yếu của Hội nghị 2010 về phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên. Hiệp hội Ngôn ngữ học tính toán, năm 2010 cho rằng giám sát ở xa == tự đào tạo == giám sát yếu.
Ngoài ra, có những từ đồng nghĩa khác ?