Có sự khác biệt nào giữa giám sát từ xa, tự đào tạo, tự học và giám sát yếu không?


12

Từ những gì tôi đã đọc:


Giám sát xa :

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

Tự đào tạo :

nhập mô tả hình ảnh ở đây


Tự học ( Yates, Alexander, và cộng sự " Năm 2007 ):

Người học hoạt động theo hai bước. Đầu tiên, nó tự động gắn nhãn dữ liệu đào tạo của riêng mình là tích cực hoặc tiêu cực. Thứ hai, nó sử dụng dữ liệu được dán nhãn này để huấn luyện bộ phân loại Naive Bayes.


Giám sát yếu (Hoffmann, Raphael và cộng sự .):

Một cách tiếp cận hứa hẹn hơn, thường được gọi là giám sát yếu kém, hay giám sát, xa xôi, tạo ra dữ liệu huấn luyện của riêng mình bằng cách kết hợp một cách tự nhiên các nội dung của cơ sở dữ liệu với văn bản tương ứng.


Tất cả đều giống nhau đối với tôi, ngoại trừ việc tự đào tạo dường như hơi khác ở chỗ heuristic ghi nhãn là phân loại được đào tạo, và có một vòng lặp giữa giai đoạn ghi nhãn và giai đoạn đào tạo phân loại. Tuy nhiên, Yao, Limin, Sebastian Riedel và Andrew McCallum. " Trích xuất quan hệ tài liệu chéo tập thể mà không có dữ liệu được dán nhãn. " Kỷ yếu của Hội nghị 2010 về phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên. Hiệp hội Ngôn ngữ học tính toán, năm 2010 cho rằng giám sát ở xa == tự đào tạo == giám sát yếu.

Ngoài ra, có những từ đồng nghĩa khác ?


Câu hỏi thú vị. Điều này có thể thuộc về Khoa học dữ liệu?
goangit

@goangit Có lẽ, giống như một đoạn tốt của trang web này;)
Franck Dernoncourt

Câu trả lời:


7

Có hai khía cạnh cho tất cả các thuật ngữ khác nhau mà bạn đã đưa ra: 1] Quá trình lấy dữ liệu đào tạo 2] Thuật toán đào tạo f

f , bất kể dữ liệu đào tạo thu được được giám sát như thế nào. Sự khác biệt trong giám sát từ xa, tự học, tự giám sát hoặc giám sát yếu, hoàn toàn nằm ở cách thức thu thập dữ liệu đào tạo.

Theo truyền thống, trong bất kỳ tài liệu học máy nào về học tập có giám sát, người ta sẽ thấy rằng bài báo giả định rằng dữ liệu đào tạo là có sẵn và với giá trị của nó, người ta thường cho rằng các nhãn là chính xác và không có sự mơ hồ trong nhãn được đưa ra cho các trường hợp trong dữ liệu đào tạo. Tuy nhiên, với các tài liệu giám sát ở xa / yếu, mọi người nhận ra rằng dữ liệu đào tạo của họ có nhãn không chính xác và điều họ muốn làm nổi bật trong công việc là họ có được kết quả tốt mặc dù có nhược điểm rõ ràng khi sử dụng nhãn không chính xác (và họ có thể có các cách thuật toán khác để khắc phục vấn đề nhãn không chính xác, bằng cách có thêm quy trình lọc, v.v. và thông thường các bài viết muốn nhấn mạnh rằng các quy trình bổ sung này rất quan trọng và hữu ích). Điều này đã dẫn đến các thuật ngữ "yếu" hoặc "ở xa" để chỉ ra rằng các nhãn trên dữ liệu đào tạo là không chính xác. Lưu ý rằng điều này không nhất thiết ảnh hưởng đến khía cạnh học tập của trình phân loại. Trình phân loại mà những kẻ này sử dụng vẫn mặc nhiên cho rằng các nhãn là chính xác và thuật toán đào tạo hầu như không thay đổi.

Tự đào tạo mặt khác có phần đặc biệt theo nghĩa đó. Như bạn đã quan sát, nó có được các nhãn từ trình phân loại riêng và có một chút vòng lặp phản hồi để sửa. Nói chung, chúng tôi nghiên cứu các trình phân loại được giám sát theo một số lượng lớn các thuật toán "quy nạp", trong đó trình phân loại đã học là một suy luận quy nạp được tạo ra từ dữ liệu đào tạo về toàn bộ dữ liệu. Mọi người đã nghiên cứu một hình thức khác, mà chúng tôi gọi là suy luận chuyển tải, trong đó suy luận quy nạp chung không phải là đầu ra của thuật toán, nhưng thuật toán này lấy cả dữ liệu huấn luyện và dữ liệu thử nghiệm làm đầu vào và tạo nhãn trên dữ liệu thử nghiệm. Tuy nhiên, mọi người đã tìm ra lý do tại sao không sử dụng suy luận chuyển tải trong học tập quy nạp để có được một bộ phân loại với dữ liệu đào tạo lớn hơn.

Hy vọng, tôi không làm bạn bối rối thêm nữa, hãy bình luận và yêu cầu làm rõ hơn nếu cần thiết.

[1] Có thể hữu ích - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf


Cảm ơn, câu trả lời của bạn rất thú vị! Tự học như thế nào? Tương tự như giám sát xa / yếu?
Franck Dernoncourt

1
Đúng. Tôi đặc biệt không thấy sự khác biệt giữa tự học và giám sát xa / yếu, vì các nhãn được lấy riêng từ một nguồn không chính xác và sau đó được đưa đến một bộ phân loại được giám sát.
TenaliRaman
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.