Câu trả lời:
Vì bạn hỏi câu hỏi rất cơ bản này, có vẻ như nó đáng để xác định chính Machine Learning là gì.
Machine Learning là một lớp các thuật toán dựa trên dữ liệu, tức là không giống như các thuật toán "thông thường", đó là dữ liệu "cho biết" "câu trả lời tốt" là gì. Ví dụ: một thuật toán học phi máy giả định để phát hiện khuôn mặt trong ảnh sẽ cố gắng xác định khuôn mặt là gì (đĩa tròn giống như da, với vùng tối mà bạn mong đợi mắt, v.v.). Một thuật toán học máy sẽ không có định nghĩa được mã hóa như vậy, nhưng sẽ "học theo ví dụ": bạn sẽ hiển thị một số hình ảnh của khuôn mặt và khuôn mặt và thuật toán tốt cuối cùng sẽ học và có thể dự đoán được liệu có nhìn thấy hay không hình ảnh là một khuôn mặt.
Ví dụ cụ thể về phát hiện khuôn mặt này được giám sát , điều đó có nghĩa là các ví dụ của bạn phải được gắn nhãn hoặc nói rõ ràng khuôn mặt nào và khuôn mặt nào không.
Trong thuật toán không giám sát, các ví dụ của bạn không được gắn nhãn , tức là bạn không nói gì. Tất nhiên, trong trường hợp như vậy, bản thân thuật toán không thể "phát minh" ra khuôn mặt là gì, nhưng nó có thể cố gắng phân cụm dữ liệu thành các nhóm khác nhau, ví dụ như nó có thể phân biệt rằng các khuôn mặt rất khác với phong cảnh, rất khác với ngựa.
Vì một câu trả lời khác đề cập đến nó (mặc dù, theo một cách không chính xác): có các hình thức giám sát "trung gian", tức là học bán giám sát và học tập tích cực . Về mặt kỹ thuật, đây là những phương pháp được giám sát, trong đó có một số cách "thông minh" để tránh một số lượng lớn các ví dụ được dán nhãn. Trong học tập tích cực, thuật toán tự quyết định bạn nên dán nhãn gì (ví dụ: nó có thể khá chắc chắn về phong cảnh và con ngựa, nhưng nó có thể yêu cầu bạn xác nhận xem một con khỉ đột có thực sự là hình ảnh của khuôn mặt không). Trong học tập bán giám sát, có hai thuật toán khác nhau bắt đầu bằng các ví dụ được gắn nhãn và sau đó "nói" với nhau cách họ nghĩ về một số lượng lớn dữ liệu chưa được gắn nhãn. Từ "cuộc thảo luận" này, họ học hỏi.
Học có giám sát là khi dữ liệu bạn cung cấp thuật toán của bạn được "gắn thẻ" hoặc "được gắn nhãn", để giúp logic của bạn đưa ra quyết định.
Ví dụ: Bayes lọc thư rác, trong đó bạn phải gắn cờ một mục là thư rác để tinh chỉnh kết quả.
Học tập không giám sát là các loại thuật toán cố gắng tìm mối tương quan mà không có bất kỳ đầu vào bên ngoài nào ngoài dữ liệu thô.
Ví dụ: thuật toán phân cụm khai thác dữ liệu.
Các ứng dụng trong đó dữ liệu huấn luyện bao gồm các ví dụ về các vectơ đầu vào cùng với các vectơ đích tương ứng của chúng được gọi là các vấn đề học tập có giám sát.
Trong các vấn đề nhận dạng mẫu khác, dữ liệu huấn luyện bao gồm một tập các vectơ đầu vào x mà không có bất kỳ giá trị đích tương ứng nào. Mục tiêu trong các vấn đề học tập không được giám sát như vậy có thể là khám phá các nhóm ví dụ tương tự trong dữ liệu, nơi nó được gọi là phân cụm
Nhận dạng mẫu và học máy (Giám mục, 2006)
Trong học tập có giám sát, đầu vào x
được cung cấp với kết quả mong đợi y
(nghĩa là đầu ra mà mô hình được cho là tạo ra khi đầu vào là x
), thường được gọi là "lớp" (hoặc "nhãn") của đầu vào tương ứngx
.
Trong học tập không giám sát, "lớp" của một ví dụ x
không được cung cấp. Vì vậy, học tập không giám sát có thể được coi là tìm thấy "cấu trúc ẩn" trong tập dữ liệu không ghi nhãn.
Phương pháp tiếp cận học tập có giám sát bao gồm:
Phân loại (1R, Naive Bayes, thuật toán học cây quyết định, chẳng hạn như ID3 GIỎI, v.v.)
Dự đoán giá trị số
Phương pháp tiếp cận học tập không giám sát bao gồm:
Phân cụm (K-nghĩa là phân cụm)
Hiệp hội học tập quy tắc
Ví dụ, rất thường xuyên đào tạo một mạng lưới thần kinh được giám sát việc học: bạn đang nói với mạng về lớp nào tương ứng với vectơ đặc trưng mà bạn đang cho ăn.
Phân cụm là học tập không giám sát: bạn để thuật toán quyết định cách nhóm các mẫu thành các lớp có chung các thuộc tính chung.
Một ví dụ khác về việc học tập không giám sát là bản đồ tự tổ chức của Kohonen .
Tôi có thể cho bạn biết một ví dụ.
Giả sử bạn cần nhận ra xe nào là xe hơi và xe nào là xe máy.
Trong giám sát trường hợp học có tập dữ liệu đầu vào (đào tạo) của bạn cần được dán nhãn, nghĩa là, đối với mỗi yếu tố đầu vào trong tập dữ liệu đầu vào (đào tạo) của bạn, bạn nên chỉ định nếu nó đại diện cho ô tô hoặc xe máy.
Trong trường hợp học tập không giám sát , bạn không dán nhãn đầu vào. Mô hình không giám sát sẽ phân cụm đầu vào thành các cụm dựa trên các tính năng / thuộc tính tương tự. Vì vậy, trong trường hợp này, không có nhãn như "xe hơi".
Học có giám sát
Học tập có giám sát dựa trên việc đào tạo một mẫu dữ liệu từ nguồn dữ liệu với phân loại chính xác đã được chỉ định. Các kỹ thuật như vậy được sử dụng trong các mô hình feedforward hoặc MultiLayer Perceptron (MLP). Những MLP này có ba đặc điểm riêng biệt:
Những đặc điểm này cùng với việc học thông qua đào tạo giải quyết các vấn đề khó khăn và đa dạng. Học thông qua đào tạo trong mô hình ANN được giám sát cũng được gọi là thuật toán backpropagation lỗi. Thuật toán học sửa lỗi đào tạo mạng dựa trên các mẫu đầu vào-đầu ra và tìm thấy tín hiệu lỗi, đó là sự khác biệt của đầu ra được tính toán và đầu ra mong muốn và điều chỉnh trọng lượng synap của các nơ-ron tỷ lệ thuận với sản phẩm của lỗi tín hiệu và trường hợp đầu vào của trọng lượng synap. Dựa trên nguyên tắc này, lỗi truyền ngược học tập xảy ra trong hai lần:
Chuyển tiếp qua:
Ở đây, vector đầu vào được trình bày cho mạng. Tín hiệu đầu vào này truyền về phía trước, nơ ron bởi nơ ron thông qua mạng và xuất hiện ở đầu ra của mạng dưới dạng tín hiệu đầu ra: y(n) = φ(v(n))
trong đó v(n)
trường cục bộ cảm ứng của một nơron được xác định bởi v(n) =Σ w(n)y(n).
Đầu ra được tính ở lớp đầu ra o (n) so với phản ứng mong muốn d(n)
và tìm ra lỗi e(n)
cho nơ ron đó. Các trọng số synap của mạng trong quá trình vượt qua này vẫn giữ nguyên.
Đèo ngược:
Tín hiệu lỗi bắt nguồn từ nơ ron đầu ra của lớp đó được truyền ngược qua mạng. Điều này tính toán độ dốc cục bộ cho từng nơ ron trong mỗi lớp và cho phép các trọng số synap của mạng trải qua các thay đổi theo quy tắc delta như:
Δw(n) = η * δ(n) * y(n).
Tính toán đệ quy này được tiếp tục, với chuyển tiếp theo sau là thông qua ngược cho từng mẫu đầu vào cho đến khi mạng được hội tụ.
Mô hình học tập được giám sát của ANN là hiệu quả và tìm ra giải pháp cho một số vấn đề tuyến tính và phi tuyến tính như phân loại, kiểm soát nhà máy, dự báo, dự đoán, robot, v.v.
Học tập không giám sát
Các mạng thần kinh tự tổ chức học bằng thuật toán học không giám sát để xác định các mẫu ẩn trong dữ liệu đầu vào không ghi nhãn. Điều này không được giám sát đề cập đến khả năng tìm hiểu và sắp xếp thông tin mà không cung cấp tín hiệu lỗi để đánh giá giải pháp tiềm năng. Việc thiếu định hướng cho thuật toán học tập trong học tập không giám sát đôi khi có thể là lợi thế, vì nó cho phép thuật toán nhìn lại các mẫu chưa được xem xét trước đây. Các đặc điểm chính của Bản đồ tự tổ chức (SOM) là:
Lớp tính toán còn được gọi là lớp cạnh tranh vì các tế bào thần kinh trong lớp cạnh tranh với nhau để trở nên hoạt động. Do đó, thuật toán học tập này được gọi là thuật toán cạnh tranh. Thuật toán không giám sát trong SOM hoạt động theo ba giai đoạn:
Giai đoạn cạnh tranh:
đối với mỗi mẫu đầu vào x
, được trình bày trên mạng, sản phẩm bên trong có trọng lượng synap w
được tính toán và các nơ-ron trong lớp cạnh tranh tìm thấy một hàm phân biệt tạo ra sự cạnh tranh giữa các nơ-ron và vectơ trọng lượng gần với vectơ đầu vào trong khoảng cách Euclide được công bố là người chiến thắng trong cuộc thi. Tế bào thần kinh đó được gọi là tế bào thần kinh phù hợp nhất,
i.e. x = arg min ║x - w║.
Giai đoạn hợp tác:
tế bào thần kinh chiến thắng xác định trung tâm của một khu phố tôpô h
của các tế bào thần kinh hợp tác. Điều này được thực hiện bởi sự tương tác bên d
giữa các tế bào thần kinh hợp tác. Vùng lân cận tô pô này làm giảm kích thước của nó trong một khoảng thời gian.
Giai đoạn thích ứng:
cho phép tế bào thần kinh chiến thắng và tế bào thần kinh lân cận của nó tăng giá trị riêng của chúng về chức năng phân biệt đối xử với mẫu đầu vào thông qua các điều chỉnh trọng lượng khớp thần kinh phù hợp,
Δw = ηh(x)(x –w).
Sau khi trình bày lặp đi lặp lại các mẫu đào tạo, các vectơ trọng lượng synap có xu hướng tuân theo sự phân phối của các mẫu đầu vào do cập nhật lân cận và do đó ANN học mà không cần người giám sát.
Mô hình tự tổ chức tự nhiên đại diện cho hành vi sinh học thần kinh, và do đó được sử dụng trong nhiều ứng dụng trong thế giới thực như phân cụm, nhận dạng giọng nói, phân đoạn kết cấu, mã hóa v.v.
Tôi luôn thấy sự khác biệt giữa việc học tập không giám sát và giám sát là tùy tiện và hơi khó hiểu. Không có sự phân biệt thực sự giữa hai trường hợp, thay vào đó là một loạt các tình huống trong đó một thuật toán có thể có ít nhiều 'giám sát'. Sự tồn tại của học tập bán giám sát là một ví dụ rõ ràng trong đó dòng bị mờ.
Tôi có xu hướng nghĩ về giám sát là đưa ra phản hồi cho thuật toán về những giải pháp nào nên được ưu tiên. Đối với cài đặt được giám sát truyền thống, chẳng hạn như phát hiện thư rác, bạn nói với thuật toán "không mắc lỗi nào trên tập huấn luyện" ; đối với cài đặt không giám sát truyền thống, chẳng hạn như phân cụm, bạn nói với thuật toán "các điểm gần nhau sẽ nằm trong cùng một cụm" . Nó chỉ xảy ra như vậy, hình thức phản hồi đầu tiên cụ thể hơn rất nhiều so với hình thức sau.
Nói tóm lại, khi ai đó nói 'được giám sát', hãy suy nghĩ phân loại, khi họ nói 'không giám sát' hãy nghĩ đến việc phân cụm và cố gắng đừng quá lo lắng về điều đó.
Học máy: Nó khám phá nghiên cứu và xây dựng các thuật toán có thể học hỏi và đưa ra dự đoán về dữ liệu. Các thuật toán hoạt động bằng cách xây dựng một mô hình từ các đầu vào ví dụ để đưa ra các dự đoán hoặc quyết định dựa trên dữ liệu được thể hiện dưới dạng đầu ra, thay vì tuân thủ nghiêm ngặt hướng dẫn chương trình.
Học tập có giám sát: Đây là nhiệm vụ học máy để suy ra một chức năng từ dữ liệu đào tạo được dán nhãn. Dữ liệu đào tạo bao gồm một tập hợp các ví dụ đào tạo. Trong học tập có giám sát, mỗi ví dụ là một cặp bao gồm một đối tượng đầu vào (thường là vectơ) và giá trị đầu ra mong muốn (còn được gọi là tín hiệu giám sát). Một thuật toán học có giám sát sẽ phân tích dữ liệu đào tạo và tạo ra một hàm suy ra, có thể được sử dụng để ánh xạ các ví dụ mới.
Máy tính được trình bày với các đầu vào mẫu và đầu ra mong muốn của chúng, được đưa ra bởi một "giáo viên" và mục tiêu là tìm hiểu một quy tắc chung ánh xạ các đầu vào thành đầu ra. Đặc biệt, thuật toán học có giám sát lấy một bộ dữ liệu đầu vào đã biết và các phản hồi đã biết đến dữ liệu (đầu ra) và đào tạo một mô hình để tạo ra các dự đoán hợp lý cho phản ứng với dữ liệu mới.
Học không giám sát: Đó là học mà không có giáo viên. Một điều cơ bản mà bạn có thể muốn làm với dữ liệu là trực quan hóa nó. Nhiệm vụ của máy học là suy ra một chức năng để mô tả cấu trúc ẩn từ dữ liệu không được gắn nhãn. Vì các ví dụ đưa ra cho người học không được gắn nhãn, không có tín hiệu lỗi hoặc phần thưởng để đánh giá một giải pháp tiềm năng. Điều này phân biệt học tập không giám sát với học tập có giám sát. Học tập không giám sát sử dụng các quy trình cố gắng tìm các phân vùng tự nhiên của các mẫu.
Với việc học tập không giám sát, không có phản hồi dựa trên kết quả dự đoán, nghĩa là không có giáo viên để sửa lỗi cho bạn. Trong các phương pháp học tập không giám sát, không có ví dụ được dán nhãn nào và không có khái niệm nào về đầu ra trong quá trình học. Kết quả là, tùy thuộc vào sơ đồ / mô hình học tập để tìm các mẫu hoặc khám phá các nhóm dữ liệu đầu vào
Bạn nên sử dụng các phương pháp học tập không giám sát khi bạn cần một lượng lớn dữ liệu để đào tạo các mô hình của mình, và sự sẵn sàng và khả năng thử nghiệm và khám phá, và tất nhiên là một thách thức không được giải quyết tốt thông qua các phương pháp được thiết lập nhiều hơn. có thể học các mô hình lớn hơn và phức tạp hơn so với học có giám sát. Đây là một ví dụ tốt về nó
.
Học có giám sát: nói rằng một đứa trẻ đi đến vườn ươm. ở đây giáo viên chỉ cho anh ta 3 đồ chơi - nhà, bóng và xe hơi. bây giờ thầy cho em 10 đồ chơi. anh ta sẽ phân loại chúng trong 3 hộp nhà, bóng và xe hơi dựa trên kinh nghiệm trước đây của anh ta. Vì vậy, đứa trẻ đầu tiên được giám sát bởi các giáo viên để có được câu trả lời đúng trong vài bộ. sau đó anh ta được thử nghiệm trên đồ chơi không rõ.
Học tập không giám sát: một lần nữa mẫu giáo mẫu giáo. Một đứa trẻ được tặng 10 món đồ chơi. anh ta được bảo là phân khúc tương tự. Vì vậy, dựa trên các tính năng như hình dạng, kích thước, màu sắc, chức năng, v.v. anh ấy sẽ cố gắng tạo ra 3 nhóm nói A, B, C và nhóm chúng.
Từ Supervise có nghĩa là bạn đang giám sát / hướng dẫn cho máy để giúp nó tìm câu trả lời. Một khi nó học được hướng dẫn, nó có thể dễ dàng dự đoán cho trường hợp mới.
Không được giám sát có nghĩa là không có sự giám sát hoặc hướng dẫn cách tìm câu trả lời / nhãn và máy sẽ sử dụng trí thông minh của nó để tìm một số mẫu trong dữ liệu của chúng tôi. Ở đây nó sẽ không đưa ra dự đoán, nó sẽ chỉ cố gắng tìm các cụm có dữ liệu tương tự.
Có rất nhiều câu trả lời đã giải thích sự khác biệt về chi tiết. Tôi đã tìm thấy những gifs này trên codeacademy và chúng thường giúp tôi giải thích sự khác biệt một cách hiệu quả.
Lưu ý rằng các hình ảnh đào tạo có nhãn ở đây và mô hình đang học tên của các hình ảnh.
Lưu ý rằng những gì đang được thực hiện ở đây chỉ là nhóm (phân cụm) và mô hình không biết gì về bất kỳ hình ảnh nào.
Thuật toán học tập của một mạng lưới thần kinh có thể được giám sát hoặc không được giám sát.
Một mạng lưới thần kinh được cho là học có giám sát nếu đầu ra mong muốn đã được biết đến. Ví dụ: liên kết mẫu
Mạng lưới thần kinh học không giám sát không có đầu ra mục tiêu như vậy. Không thể xác định kết quả của quá trình học tập sẽ như thế nào. Trong quá trình học, các đơn vị (giá trị trọng lượng) của mạng lưới thần kinh như vậy được "sắp xếp" bên trong một phạm vi nhất định, tùy thuộc vào các giá trị đầu vào đã cho. Mục tiêu là nhóm các đơn vị tương tự gần nhau trong các khu vực nhất định của phạm vi giá trị. Ví dụ: phân loại mẫu
Học có giám sát, đưa ra dữ liệu với một câu trả lời.
Cho email có nhãn là thư rác / không phải thư rác, hãy tìm hiểu bộ lọc thư rác.
Đưa ra một tập dữ liệu bệnh nhân được chẩn đoán là có bị tiểu đường hay không, hãy học cách phân loại bệnh nhân mới có bị tiểu đường hay không.
Học tập không giám sát, đưa ra dữ liệu mà không có câu trả lời, hãy để máy tính để nhóm các thứ.
Đưa ra một tập hợp các bài báo được tìm thấy trên web, nhóm thành các tập hợp các bài viết về cùng một câu chuyện.
Đưa ra một cơ sở dữ liệu về dữ liệu tùy chỉnh, tự động khám phá các phân khúc thị trường và nhóm khách hàng vào các phân khúc thị trường khác nhau.
Học có giám sát
Trong trường hợp này, mọi mẫu đầu vào được sử dụng để huấn luyện mạng được liên kết với một mẫu đầu ra, đó là mẫu đích hoặc mẫu mong muốn. Một giáo viên được cho là có mặt trong quá trình học tập, khi so sánh được thực hiện giữa đầu ra được tính toán của mạng và đầu ra dự kiến chính xác, để xác định lỗi. Lỗi sau đó có thể được sử dụng để thay đổi các tham số mạng, dẫn đến cải thiện hiệu suất.
Học tập không giám sát
Trong phương pháp học tập này, đầu ra mục tiêu không được trình bày cho mạng. Như thể không có giáo viên để trình bày mẫu mong muốn và do đó, hệ thống tự học bằng cách khám phá và thích nghi với các đặc điểm cấu trúc trong các mẫu đầu vào.
Học có giám sát : Bạn đưa ra dữ liệu ví dụ được dán nhãn khác nhau làm đầu vào, cùng với các câu trả lời đúng. Thuật toán này sẽ học hỏi từ nó và bắt đầu dự đoán kết quả chính xác dựa trên các đầu vào sau đó. Ví dụ : Email bộ lọc thư rác
Học không giám sát : Bạn chỉ cần cung cấp dữ liệu và không nói bất cứ điều gì - như nhãn hoặc câu trả lời đúng. Thuật toán tự động phân tích các mẫu trong dữ liệu. Ví dụ : Google News
Tôi sẽ cố gắng làm cho nó đơn giản.
Học có giám sát: Trong kỹ thuật học này, chúng tôi được cung cấp một tập dữ liệu và hệ thống đã biết đầu ra chính xác của tập dữ liệu. Vì vậy, ở đây, hệ thống của chúng tôi học bằng cách dự đoán một giá trị của riêng nó. Sau đó, nó thực hiện kiểm tra độ chính xác bằng cách sử dụng hàm chi phí để kiểm tra mức độ dự đoán của nó gần với sản lượng thực tế.
Học tập không giám sát: Trong phương pháp này, chúng tôi có ít hoặc không có kiến thức về kết quả của chúng tôi sẽ là gì. Vì vậy, thay vào đó, chúng tôi lấy cấu trúc từ dữ liệu mà chúng tôi không biết ảnh hưởng của biến. Chúng tôi tạo cấu trúc bằng cách phân cụm dữ liệu dựa trên mối quan hệ giữa các biến trong dữ liệu. Ở đây, chúng tôi không có phản hồi dựa trên dự đoán của chúng tôi.
Bạn có đầu vào x và đầu ra đích t. Vì vậy, bạn đào tạo thuật toán để khái quát đến các phần còn thiếu. Nó được giám sát vì mục tiêu được đưa ra. Bạn là người giám sát nói với thuật toán: Đối với ví dụ x, bạn nên xuất t!
Mặc dù phân đoạn, phân cụm và nén thường được tính theo hướng này, tôi có một thời gian khó khăn để đưa ra một định nghĩa tốt cho nó.
Hãy dùng bộ mã hóa tự động để nén làm ví dụ. Trong khi bạn chỉ có đầu vào x được cung cấp, đó là kỹ sư con người nói với thuật toán rằng mục tiêu cũng là x. Vì vậy, trong một số ý nghĩa, điều này không khác với học tập có giám sát.
Và để phân cụm và phân đoạn, tôi không chắc lắm nếu nó thực sự phù hợp với định nghĩa của học máy (xem câu hỏi khác ).
Học có giám sát: Bạn đã dán nhãn dữ liệu và phải học từ đó. ví dụ dữ liệu nhà cùng với giá và sau đó học cách dự đoán giá
Học tập không giám sát: bạn phải tìm ra xu hướng và sau đó dự đoán, không có nhãn trước nào được đưa ra. ví dụ như những người khác nhau trong lớp và sau đó một người mới đến, vậy học sinh mới này thuộc nhóm nào.
Trong học tập có giám sát chúng tôi biết đầu vào và đầu ra nên là gì. Ví dụ, đưa ra một bộ xe ô tô. Chúng ta phải tìm ra cái nào màu đỏ và cái nào màu xanh.
Trong khi đó, học tập không giám sát là nơi chúng ta phải tìm ra câu trả lời với rất ít hoặc không có bất kỳ ý tưởng nào về đầu ra nên như thế nào. Ví dụ, một người học có thể xây dựng một mô hình phát hiện khi mọi người mỉm cười dựa trên mối tương quan của các kiểu khuôn mặt và các từ như "bạn đang cười về điều gì?".
Học tập có giám sát có thể gắn nhãn một mục mới vào một trong những nhãn được đào tạo dựa trên việc học trong quá trình đào tạo. Bạn cần cung cấp số lượng lớn tập dữ liệu huấn luyện, tập dữ liệu xác nhận và tập dữ liệu kiểm tra. Nếu bạn cung cấp các vectơ hình ảnh pixel của các chữ số cùng với dữ liệu huấn luyện với nhãn, thì nó có thể xác định các số.
Học tập không giám sát không yêu cầu tập dữ liệu đào tạo. Trong học tập không giám sát, nó có thể nhóm các mục thành các cụm khác nhau dựa trên sự khác biệt trong các vectơ đầu vào. Nếu bạn cung cấp các vectơ hình ảnh pixel của các chữ số và yêu cầu nó phân loại thành 10 loại, nó có thể làm điều đó. Nhưng nó biết cách dán nhãn khi bạn chưa cung cấp nhãn đào tạo.
Học có giám sát về cơ bản là nơi bạn có các biến đầu vào (x) và biến đầu ra (y) và sử dụng thuật toán để tìm hiểu hàm ánh xạ từ đầu vào đến đầu ra. Lý do tại sao chúng tôi gọi đây là giám sát là vì thuật toán học từ tập dữ liệu huấn luyện, thuật toán lặp đi lặp lại dự đoán về dữ liệu đào tạo. Giám sát có hai loại - Phân loại và Hồi quy. Phân loại là khi biến đầu ra là loại như có / không, đúng / sai. Hồi quy là khi đầu ra là các giá trị thực như chiều cao của người, Nhiệt độ, v.v.
Học có giám sát của Liên Hợp Quốc là nơi chúng tôi chỉ có dữ liệu đầu vào (X) và không có biến đầu ra. Điều này được gọi là học tập không giám sát vì không giống như học có giám sát ở trên, không có câu trả lời đúng và không có giáo viên. Các thuật toán được để lại cho riêng mình để khám phá và trình bày cấu trúc thú vị trong dữ liệu.
Các loại hình học tập không giám sát là phân cụm và Hiệp hội.
Supervised Learning về cơ bản là một kỹ thuật trong đó dữ liệu đào tạo mà máy học được dán nhãn, giả sử là một trình phân loại số chẵn đơn giản, trong đó bạn đã phân loại dữ liệu trong quá trình đào tạo. Do đó, nó sử dụng dữ liệu "LABELED".
Ngược lại, học tập không giám sát là một kỹ thuật trong đó máy tự dán nhãn dữ liệu. Hoặc bạn có thể nói trường hợp của nó khi máy tự học từ đầu.
Trong học tập giám sát đơn giản là loại vấn đề máy học trong đó chúng tôi có một số nhãn và bằng cách sử dụng nhãn đó, chúng tôi thực hiện thuật toán như hồi quy và phân loại. Phân loại được áp dụng trong đó đầu ra của chúng tôi giống như 0 hoặc 1, đúng / sai, có không. và hồi quy được áp dụng khi đưa ra một giá trị thực như một ngôi nhà giá
Học không giám sát là một loại vấn đề máy học trong đó chúng tôi không có bất kỳ nhãn nào có nghĩa là chúng tôi chỉ có một số dữ liệu, dữ liệu không có cấu trúc và chúng tôi phải phân cụm dữ liệu (nhóm dữ liệu) bằng thuật toán không giám sát khác nhau
Học máy có giám sát
"Quá trình học thuật toán từ tập dữ liệu huấn luyện và dự đoán đầu ra."
Độ chính xác của đầu ra dự đoán tỷ lệ thuận với dữ liệu đào tạo (độ dài)
Học có giám sát là nơi bạn có các biến đầu vào (x) (tập dữ liệu huấn luyện) và biến đầu ra (Y) (tập dữ liệu thử nghiệm) và bạn sử dụng thuật toán để tìm hiểu hàm ánh xạ từ đầu vào đến đầu ra.
Y = f(X)
Các loại chính:
Thuật toán:
Thuật toán phân loại:
Neural Networks
Naïve Bayes classifiers
Fisher linear discriminant
KNN
Decision Tree
Super Vector Machines
Các thuật toán dự đoán:
Nearest neighbor
Linear Regression,Multi Regression
Lĩnh vực ứng dụng:
Nhận diện giọng nói
Dự đoán nhân sự chọn ứng viên cụ thể hay không
Dự đoán giá thị trường chứng khoán
Học có giám sát :
Một thuật toán học có giám sát sẽ phân tích dữ liệu đào tạo và tạo ra một hàm suy ra, có thể được sử dụng để ánh xạ các ví dụ mới.
Danh mục vấn đề:
Hồi quy: Dự đoán kết quả trong một đầu ra liên tục => ánh xạ các biến đầu vào thành một số hàm liên tục.
Thí dụ:
Đưa ra một hình ảnh của một người, dự đoán tuổi của anh ấy
Phân loại: Dự đoán kết quả trong một đầu ra riêng biệt => ánh xạ các biến đầu vào thành các danh mục riêng biệt
Thí dụ:
Đây có phải là ung thư?
Học tập không giám sát:
Học tập không giám sát học từ dữ liệu kiểm tra chưa được dán nhãn, phân loại hoặc phân loại. Học tập không giám sát xác định điểm tương đồng trong dữ liệu và phản ứng dựa trên sự hiện diện hoặc vắng mặt của những điểm tương đồng như vậy trong mỗi phần dữ liệu mới.
Chúng ta có thể rút ra cấu trúc này bằng cách phân cụm dữ liệu dựa trên mối quan hệ giữa các biến trong dữ liệu.
Không có phản hồi dựa trên kết quả dự đoán.
Danh mục vấn đề:
Phân cụm: là nhiệm vụ nhóm một nhóm các đối tượng theo cách các đối tượng trong cùng một nhóm (được gọi là một cụm) giống nhau hơn (theo một nghĩa nào đó) với nhau so với các đối tượng trong các nhóm khác (các cụm)
Thí dụ:
Hãy thu 1.000.000 gen khác nhau, và tìm thấy một cách để tự động nhóm các gen thành các nhóm mà bằng cách nào đó tương tự hoặc liên quan của các biến khác nhau, chẳng hạn như tuổi thọ, vị trí, vai trò, và vân vân .
Các trường hợp sử dụng phổ biến được liệt kê ở đây.
Sự khác biệt giữa phân loại và phân cụm trong khai thác dữ liệu?
Người giới thiệu:
Học có giám sát
Học tập không giám sát
Thí dụ:
Học có giám sát:
Một túi màu cam
=> xây dựng mô hình
Một túi hỗn hợp táo và cam.
=> Hãy phân loại
Học tập không giám sát:
Một túi hỗn hợp táo và cam.
=> xây dựng mô hình
Một túi hỗn hợp khác
=> Hãy phân loại
Nói một cách đơn giản .. :) Đó là sự hiểu biết của tôi, hãy thoải mái sửa chữa. Học tập có giám sát là, chúng tôi biết những gì chúng tôi dự đoán trên cơ sở dữ liệu được cung cấp. Vì vậy, chúng tôi có một cột trong bộ dữ liệu cần được cung cấp. Học tập không giám sát là, chúng tôi cố gắng trích xuất ý nghĩa của bộ dữ liệu được cung cấp. Chúng tôi không có sự rõ ràng về những gì được dự đoán. Vì vậy, câu hỏi là tại sao chúng ta làm điều này? .. :) Câu trả lời là - kết quả của việc học tập không giám sát là các nhóm / cụm (dữ liệu tương tự với nhau). Vì vậy, nếu chúng tôi nhận được bất kỳ dữ liệu mới nào, chúng tôi sẽ liên kết dữ liệu đó với cụm / nhóm đã xác định và hiểu các tính năng của nó.
Tôi hy vọng nó sẽ giúp bạn.
học có giám sát
Học có giám sát là nơi chúng ta biết đầu ra của đầu vào thô, tức là dữ liệu được dán nhãn để trong quá trình đào tạo mô hình học máy, nó sẽ hiểu những gì nó cần phát hiện trong đầu ra đưa ra và nó sẽ hướng dẫn hệ thống trong quá trình đào tạo phát hiện các đối tượng được dán nhãn trước trên cơ sở đó, nó sẽ phát hiện các đối tượng tương tự mà chúng tôi đã cung cấp trong đào tạo.
Ở đây các thuật toán sẽ biết cấu trúc và mô hình dữ liệu là gì. Học có giám sát được sử dụng để phân loại
Ví dụ, chúng ta có thể có một đối tượng khác nhau có hình dạng là hình vuông, hình tròn, trianle nhiệm vụ của chúng ta là sắp xếp các loại hình dạng giống nhau mà tập dữ liệu được gắn nhãn có tất cả các hình dạng được gắn nhãn và chúng tôi sẽ đào tạo mô hình học máy trên tập dữ liệu đó, trên dựa trên ngày tháng đào tạo nó sẽ bắt đầu phát hiện các hình dạng.
Học không giám sát
Học không giám sát là học không có kết quả trong đó không biết kết quả cuối cùng, nó sẽ phân cụm dữ liệu và dựa trên các thuộc tính tương tự của đối tượng, nó sẽ chia các đối tượng thành các bó khác nhau và phát hiện các đối tượng.
Ở đây các thuật toán sẽ tìm kiếm các mẫu khác nhau trong dữ liệu thô và dựa vào đó, nó sẽ phân cụm dữ liệu. Học tập không giám sát được sử dụng để phân cụm.
Ví dụ, chúng ta có thể có các đối tượng khác nhau có nhiều hình vuông, hình tròn, hình tam giác, vì vậy nó sẽ tạo ra các bó dựa trên các thuộc tính của đối tượng, nếu một đối tượng có bốn cạnh thì nó sẽ coi nó là hình vuông và nếu nó có hình tam giác ba cạnh và Nếu không có cạnh nào ngoài vòng tròn, ở đây dữ liệu không được dán nhãn, nó sẽ tự học để phát hiện các hình dạng khác nhau
Học máy là một lĩnh vực mà bạn đang cố gắng chế tạo máy để bắt chước hành vi của con người.
Bạn huấn luyện máy giống như một đứa bé. Cách con người học hỏi, xác định các tính năng, nhận dạng các mẫu và tự rèn luyện, giống như cách bạn huấn luyện máy bằng cách cung cấp dữ liệu với nhiều tính năng khác nhau. Thuật toán máy xác định mẫu trong dữ liệu và phân loại nó thành loại cụ thể.
Học máy được chia thành hai loại, học có giám sát và không giám sát.
Học tập có giám sát là khái niệm mà bạn có vectơ / dữ liệu đầu vào với giá trị đích (đầu ra) tương ứng. Mặt khác, học tập không giám sát là khái niệm mà bạn chỉ có vectơ / dữ liệu đầu vào mà không có giá trị đích tương ứng.
Một ví dụ về học tập có giám sát là nhận dạng chữ số viết tay trong đó bạn có hình ảnh các chữ số có chữ số tương ứng [0-9] và một ví dụ về học tập không giám sát là nhóm khách hàng bằng cách mua hành vi.