Trong bối cảnh học máy, sự khác biệt giữa
- học tập không giám sát
- học có giám sát và
- học bán giám sát?
Và một số cách tiếp cận thuật toán chính để xem xét là gì?
Trong bối cảnh học máy, sự khác biệt giữa
Và một số cách tiếp cận thuật toán chính để xem xét là gì?
Câu trả lời:
Nói chung, các vấn đề của học máy có thể được coi là các biến thể về ước tính hàm để phân loại, dự đoán hoặc mô hình hóa.
Trong học tập có giám sát, người ta được trang bị đầu vào ( , , ...,) và đầu ra ( , , ...,) và được thử thách với việc tìm một hàm xấp xỉ hành vi này theo cách tổng quát. Đầu ra có thể là nhãn lớp (trong phân loại) hoặc số thực (hồi quy) - đây là "giám sát" trong học tập có giám sát.
Trong trường hợp học tập không giám sát , trong trường hợp cơ sở, bạn nhận được đầu vào , , ..., nhưng không cung cấp mục tiêu đầu ra, cũng như phần thưởng từ môi trường của nó. Dựa trên vấn đề (phân loại hoặc dự đoán) và kiến thức nền của bạn về không gian được lấy mẫu, bạn có thể sử dụng các phương pháp khác nhau: ước tính mật độ (ước tính một số PDF cơ bản để dự đoán), phân cụm k-nghĩa (phân loại dữ liệu có giá trị thực không được gắn nhãn), k- chế độ phân cụm (phân loại dữ liệu phân loại không nhãn), v.v.
Học bán giám sát liên quan đến ước tính chức năng trên dữ liệu được dán nhãn và không nhãn. Cách tiếp cận này được thúc đẩy bởi thực tế là dữ liệu được dán nhãn thường tốn kém để tạo ra, trong khi dữ liệu không được gắn nhãn nói chung là không. Thách thức ở đây chủ yếu liên quan đến câu hỏi kỹ thuật về cách xử lý dữ liệu hỗn hợp theo kiểu này. Xem Khảo sát Văn học Học bán giám sát này để biết thêm chi tiết về các phương pháp học bán giám sát.
Ngoài các kiểu học này, còn có các kiểu học khác, chẳng hạn như học tăng cường, theo đó phương pháp học tương tác với môi trường của nó bằng cách tạo ra các hành động , ,. . .. tạo ra phần thưởng hoặc hình phạt , , ...
Học tập không giám sát
Học tập không giám sát là khi bạn không có dữ liệu được dán nhãn để đào tạo. Ví dụ về điều này thường là các phương pháp phân cụm.
Học có giám sát
Trong trường hợp này, dữ liệu đào tạo của bạn tồn tại ngoài dữ liệu được dán nhãn. Vấn đề bạn giải quyết ở đây thường là dự đoán nhãn cho các điểm dữ liệu mà không có nhãn.
Học bán giám sát
Trong trường hợp này, cả dữ liệu được dán nhãn và dữ liệu không nhãn được sử dụng. Ví dụ, điều này có thể được sử dụng trong các mạng niềm tin sâu sắc, trong đó một số lớp đang tìm hiểu cấu trúc của dữ liệu (không được giám sát) và một lớp được sử dụng để phân loại (được đào tạo với dữ liệu được giám sát)
Tôi không nghĩ rằng giám sát / không giám sát là cách tốt nhất để suy nghĩ về nó. Để khai thác dữ liệu cơ bản, tốt hơn là suy nghĩ về những gì bạn đang cố gắng làm. Có bốn nhiệm vụ chính:
dự đoán. nếu bạn dự đoán một số thực, nó được gọi là hồi quy. nếu bạn dự đoán toàn bộ số hoặc lớp, nó được gọi là phân loại.
người mẫu mô hình hóa giống như dự đoán, nhưng mô hình có thể hiểu được bởi con người. Mạng lưới thần kinh và máy vectơ hỗ trợ hoạt động tuyệt vời, nhưng không tạo ra các mô hình dễ hiểu [1]. cây quyết định và hồi quy tuyến tính cổ điển là những ví dụ về các mô hình dễ hiểu.
sự tương đồng nếu bạn đang cố gắng tìm các nhóm thuộc tính tự nhiên, nó được gọi là phân tích nhân tố. nếu bạn đang cố gắng tìm các nhóm quan sát tự nhiên, nó được gọi là phân cụm.
hiệp hội. nó giống như sự tương quan, nhưng đối với các bộ dữ liệu nhị phân khổng lồ.
[1] Rõ ràng Goldman Sachs đã tạo ra vô số mạng lưới thần kinh tuyệt vời để dự đoán, nhưng sau đó không ai hiểu chúng, vì vậy họ phải viết các chương trình khác để cố gắng giải thích các mạng lưới thần kinh.