Chính xác thì sự khác biệt giữa học tập có giám sát và không giám sát là gì?


28

Tôi đang cố gắng để hiểu các phương pháp phân cụm.

Những gì tôi nghĩ tôi đã hiểu:

  1. Trong học tập có giám sát, dữ liệu danh mục / nhãn được gán cho được biết trước khi tính toán. Vì vậy, các nhãn, lớp hoặc danh mục đang được sử dụng để "tìm hiểu" các tham số thực sự có ý nghĩa đối với các cụm đó.

  2. Trong học tập không giám sát, các bộ dữ liệu được gán cho các phân đoạn, mà không có cụm được biết đến.

Điều đó có nghĩa là, nếu tôi thậm chí không biết tham số nào là quan trọng cho phân khúc, tôi nên học có giám sát hơn?


2
Lưu ý rằng phân cụm không phải là loại học tập không giám sát duy nhất.
George

1
Học tập có giám sát được ưa thích khi dữ liệu đào tạo được dán nhãn có sẵn. Bạn có thể phân vùng dữ liệu của mình bằng các phương pháp được giám sát hoặc không giám sát. Sự khác biệt chính là trong cài đặt được giám sát, bạn biết phân đoạn ĐÚNG cho dữ liệu đào tạo của mình.
Nick

Câu trả lời:


23

Sự khác biệt là trong việc học có giám sát, "danh mục", "lớp" hoặc "nhãn" được biết đến. Trong học tập không giám sát, họ không, và quá trình học tập cố gắng tìm "danh mục" thích hợp. Trong cả hai loại học tập, tất cả các tham số được xem xét để xác định loại nào phù hợp nhất để thực hiện phân loại.

Việc bạn chọn giám sát hay không giám sát nên dựa trên việc bạn có biết "danh mục" dữ liệu của mình hay không. Nếu bạn biết, sử dụng học tập có giám sát. Nếu bạn không biết, sau đó sử dụng không giám sát.

Khi bạn có một số lượng lớn các tham số và bạn không biết những tham số nào có liên quan, bạn có thể sử dụng một cái gì đó như phân tích thành phần nguyên tắc để giúp xác định các tham số có liên quan.


13

Lưu ý rằng có nhiều hơn 2 độ giám sát. Ví dụ, xem các trang 24-25 (6-7) trong luận án tiến sĩ của Christian Biemann, Xử lý ngôn ngữ tự nhiên không có giám sát và không có kiến ​​thức trong mô hình khám phá cấu trúc, 2007.

Luận án xác định 4 độ: giám sát, bán giám sát, giám sát yếu và không giám sát, và giải thích sự khác biệt, trong bối cảnh xử lý ngôn ngữ tự nhiên. Dưới đây là các định nghĩa liên quan:

  • Trong các hệ thống được giám sát , dữ liệu như được trình bày cho thuật toán học máy được dán nhãn đầy đủ. Điều đó có nghĩa là: tất cả các ví dụ được trình bày với một phân loại mà máy có nghĩa là để tái tạo. Đối với điều này, một trình phân loại được học từ dữ liệu, quá trình gán nhãn cho các trường hợp chưa thấy được gọi là phân loại.
  • Trong các hệ thống bán giám sát , máy được phép đưa thêm dữ liệu không ghi nhãn vào tài khoản. Do cơ sở dữ liệu lớn hơn, các hệ thống bán giám sát thường vượt trội so với các đối tác được giám sát của chúng bằng cách sử dụng các ví dụ được dán nhãn tương tự. Lý do cho sự cải tiến này là nhiều dữ liệu không ghi nhãn cho phép hệ thống mô hình hóa cấu trúc vốn có của dữ liệu chính xác hơn.
  • Bootstrapping, còn được gọi là tự đào tạo, là một hình thức học tập được thiết kế để sử dụng các ví dụ đào tạo thậm chí ít hơn, do đó đôi khi được gọi là giám sát yếu . Bootstrapping bắt đầu với một vài ví dụ đào tạo, huấn luyện một trình phân loại và sử dụng các ví dụ tích cực được cho là do trình phân loại này mang lại để đào tạo lại. Khi tập hợp các ví dụ đào tạo phát triển, bộ phân loại được cải thiện, với điều kiện là không có quá nhiều ví dụ tiêu cực bị phân loại sai thành tích cực, điều này có thể dẫn đến suy giảm hiệu suất.
  • Các hệ thống không giám sát không được cung cấp bất kỳ ví dụ đào tạo nào và tiến hành phân cụm. Đây là sự phân chia các trường hợp dữ liệu thành nhiều nhóm. Kết quả của các thuật toán phân cụm được điều khiển dữ liệu, do đó 'tự nhiên' hơn và phù hợp hơn với cấu trúc cơ bản của dữ liệu. Ưu điểm này cũng là nhược điểm lớn của nó: không có khả năng cho máy biết phải làm gì (như trong phân loại), rất khó để đánh giá chất lượng của kết quả phân cụm theo cách kết luận. Nhưng sự vắng mặt của việc chuẩn bị ví dụ đào tạo làm cho mô hình không giám sát rất hấp dẫn.

0

Trong học tập có giám sát, các lớp được biết trước và cả loại của họ, ví dụ, hai lớp khách hàng tốt và xấu. Khi đối tượng mới (khách hàng) xuất hiện trên cơ sở các thuộc tính của nó, khách hàng có thể được gán cho lớp khách hàng xấu hoặc tốt.

Trong việc học tập không giám sát, các nhóm / lớp chưa được biết đến, chúng tôi có các đối tượng (khách hàng), do đó, nhóm khách hàng có thói quen mua tương tự do đó các nhóm khác nhau được tạo ra từ các khách hàng tức là chưa biết dựa trên thói quen mua hàng tương tự.


0

Trong học có giám sát, đầu ra (biến phụ thuộc) phụ thuộc vào biến đầu vào (biến độc lập). Trong một số tập hợp giám sát nhất định, bộ phản hồi cố gắng tính toán mục tiêu mong muốn.

Trong học tập không giám sát, không có sự giám sát nên hệ thống cố gắng tự thích nghi với tình huống và học thủ công dựa trên một số biện pháp.

ví dụ: Giáo viên trong lớp học -supervision -supervised Học tự học trong lớp-Không có giám sát Học tập không giám sát

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.