Học tập không giám sát, giám sát và bán giám sát


27

Trong bối cảnh học máy, sự khác biệt giữa

  • học tập không giám sát
  • học có giám sát và
  • học bán giám sát?

Và một số cách tiếp cận thuật toán chính để xem xét là gì?


8
Đầu tiên, hai dòng từ wiki: "Trong khoa học máy tính, học bán giám sát là một lớp các kỹ thuật học máy sử dụng cả dữ liệu được gắn nhãn và không nhãn cho đào tạo - thường là một lượng nhỏ dữ liệu được gắn nhãn với một lượng lớn dữ liệu không được gắn nhãn. Học tập có giám sát rơi vào giữa học tập không giám sát (không có bất kỳ dữ liệu đào tạo được dán nhãn nào) và học tập có giám sát (với dữ liệu đào tạo được dán nhãn hoàn toàn). " cái đó có giúp ích không?

Bạn có ý nghĩ gì với "Phương pháp tiếp cận thuật toán"? Tôi đã đưa ra một số ví dụ về các ứng dụng trong câu trả lời của tôi, đó có phải là những gì bạn đang tìm kiếm?
Peter Smit

Câu trả lời:


20

Nói chung, các vấn đề của học máy có thể được coi là các biến thể về ước tính hàm để phân loại, dự đoán hoặc mô hình hóa.

Trong học tập có giám sát, người ta được trang bị đầu vào ( x1 , x2 , ...,) và đầu ra ( y1 , y2 , ...,) và được thử thách với việc tìm một hàm xấp xỉ hành vi này theo cách tổng quát. Đầu ra có thể là nhãn lớp (trong phân loại) hoặc số thực (hồi quy) - đây là "giám sát" trong học tập có giám sát.

Trong trường hợp học tập không giám sát , trong trường hợp cơ sở, bạn nhận được đầu vào x1 , x2 , ..., nhưng không cung cấp mục tiêu đầu ra, cũng như phần thưởng từ môi trường của nó. Dựa trên vấn đề (phân loại hoặc dự đoán) và kiến ​​thức nền của bạn về không gian được lấy mẫu, bạn có thể sử dụng các phương pháp khác nhau: ước tính mật độ (ước tính một số PDF cơ bản để dự đoán), phân cụm k-nghĩa (phân loại dữ liệu có giá trị thực không được gắn nhãn), k- chế độ phân cụm (phân loại dữ liệu phân loại không nhãn), v.v.

Học bán giám sát liên quan đến ước tính chức năng trên dữ liệu được dán nhãn và không nhãn. Cách tiếp cận này được thúc đẩy bởi thực tế là dữ liệu được dán nhãn thường tốn kém để tạo ra, trong khi dữ liệu không được gắn nhãn nói chung là không. Thách thức ở đây chủ yếu liên quan đến câu hỏi kỹ thuật về cách xử lý dữ liệu hỗn hợp theo kiểu này. Xem Khảo sát Văn học Học bán giám sát này để biết thêm chi tiết về các phương pháp học bán giám sát.

Ngoài các kiểu học này, còn có các kiểu học khác, chẳng hạn như học tăng cường, theo đó phương pháp học tương tác với môi trường của nó bằng cách tạo ra các hành độnga1 ,a2 ,. . .. tạo ra phần thưởng hoặc hình phạtr1 ,r2 , ...


1
Câu trả lời của bạn ngụ ý rằng việc học có giám sát tốt hơn là học bán giám sát, khi nào khả thi. Đúng không? Nếu không, khi học bán giám sát có thể tốt hơn?
ness101

@ naught101 Làm thế nào để bạn đọc nó từ câu trả lời của anh ấy? Tôi đồng ý với những gì John nói, nhưng tôi sẽ nói ngược lại với những gì bạn nói, cụ thể là học bán giám sát tốt hơn là học có giám sát bất cứ khi nào có thể. Đó là, nếu bạn có một số dữ liệu được gắn nhãn và một số dữ liệu chưa được gắn nhãn (thường là nhiều hơn số lượng dữ liệu được gắn nhãn), bạn sẽ làm tốt hơn nếu bạn có thể sử dụng tất cả dữ liệu so với khi bạn chỉ có thể sử dụng dữ liệu được gắn nhãn. Toàn bộ quan điểm của việc sử dụng học tập có giám sát là vượt qua hiệu suất đạt được bằng cách học có giám sát hoặc học không giám sát.
HelloGoodbye

@Hello Goodbye: bởi vì lợi ích duy nhất được chỉ định cho việc học bán giám sát là nó rẻ hơn trong một số trường hợp, nhưng nó có thêm nhược điểm là khó khăn hơn. Nó có vẻ hợp lý với tôi rằng việc học được giám sát đầy đủ sẽ dễ dàng hơn và chính xác hơn (tất cả những thứ khác đều bằng nhau), với điều kiện là dữ liệu chân thực hơn được cung cấp. Vì vậy, tôi chỉ hỏi ví dụ, trong đó, đưa ra lựa chọn giữa hai người, bán giám sát sẽ được ưu tiên. Bạn nhận xét có ý nghĩa, nhưng có trường hợp tất cả dữ liệu được dán nhãn và bạn vẫn thích bán giám sát hơn?
ness101

@ naught101 Tôi đoán nếu tất cả dữ liệu được dán nhãn, bạn sẽ không giành được nhiều chiến thắng bằng cách sử dụng học tập có giám sát bán thay vì sử dụng phương pháp học có giám sát thông thường. Khi bạn có nhiều dữ liệu chưa được gắn nhãn và học bán giám sát, lý do chính khiến bạn thấy hiệu suất được cải thiện là do bạn học chuyển và cũng có thể rút kinh nghiệm từ dữ liệu chưa được gắn nhãn.
HelloGoodbye

@ naught101 Tuy nhiên, bằng cách giao cho mạng nhiệm vụ tái tạo dữ liệu đầu vào tốt nhất có thể từ dữ liệu đầu ra (tức là thực hiện bộ mã hóa tự động, là một dạng học tập không giám sát), mạng buộc phải học cách trình bày dữ liệu tốt. Điều này có thể hoạt động như một loại chính quy, do đó cũng có thể chứng minh lợi ích. Vì vậy, có lẽ có thể có một chiến thắng nhỏ khi sử dụng học bán giám sát thay vì học có giám sát thông thường, ngay cả khi tất cả dữ liệu sẽ được dán nhãn. Hiệu ứng này lớn đến mức nào, tôi không biết.
HelloGoodbye

13

Học tập không giám sát

Học tập không giám sát là khi bạn không có dữ liệu được dán nhãn để đào tạo. Ví dụ về điều này thường là các phương pháp phân cụm.

Học có giám sát

Trong trường hợp này, dữ liệu đào tạo của bạn tồn tại ngoài dữ liệu được dán nhãn. Vấn đề bạn giải quyết ở đây thường là dự đoán nhãn cho các điểm dữ liệu mà không có nhãn.

Học bán giám sát

Trong trường hợp này, cả dữ liệu được dán nhãn và dữ liệu không nhãn được sử dụng. Ví dụ, điều này có thể được sử dụng trong các mạng niềm tin sâu sắc, trong đó một số lớp đang tìm hiểu cấu trúc của dữ liệu (không được giám sát) và một lớp được sử dụng để phân loại (được đào tạo với dữ liệu được giám sát)


7

Tôi không nghĩ rằng giám sát / không giám sát là cách tốt nhất để suy nghĩ về nó. Để khai thác dữ liệu cơ bản, tốt hơn là suy nghĩ về những gì bạn đang cố gắng làm. Có bốn nhiệm vụ chính:

  1. dự đoán. nếu bạn dự đoán một số thực, nó được gọi là hồi quy. nếu bạn dự đoán toàn bộ số hoặc lớp, nó được gọi là phân loại.

  2. người mẫu mô hình hóa giống như dự đoán, nhưng mô hình có thể hiểu được bởi con người. Mạng lưới thần kinh và máy vectơ hỗ trợ hoạt động tuyệt vời, nhưng không tạo ra các mô hình dễ hiểu [1]. cây quyết định và hồi quy tuyến tính cổ điển là những ví dụ về các mô hình dễ hiểu.

  3. sự tương đồng nếu bạn đang cố gắng tìm các nhóm thuộc tính tự nhiên, nó được gọi là phân tích nhân tố. nếu bạn đang cố gắng tìm các nhóm quan sát tự nhiên, nó được gọi là phân cụm.

  4. hiệp hội. nó giống như sự tương quan, nhưng đối với các bộ dữ liệu nhị phân khổng lồ.

[1] Rõ ràng Goldman Sachs đã tạo ra vô số mạng lưới thần kinh tuyệt vời để dự đoán, nhưng sau đó không ai hiểu chúng, vì vậy họ phải viết các chương trình khác để cố gắng giải thích các mạng lưới thần kinh.


Bạn có thể cung cấp thêm thông tin về câu chuyện GS? (không chắc tại sao tôi không thể bình luận trực tiếp về bình luận của bạn)
YA

Tôi không thể nhớ chính xác nơi tôi đã đọc nó, nhưng đây là một số thông tin khác về AI @ GS: hplusmagazine.com/2009/08/06/ Kẻ
Neil McGuigan

Tôi có cảm giác rằng 1,2 mô tả việc học tập trong một môi trường được giám sát và 3,4 nằm trong một môi trường không giám sát. Ngoài ra: nếu bạn tìm kiếm sự tương đồng để dự đoán thì sao? Đó có được coi là người mẫu?
Ông Tsjolder
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.