Những loại thuật toán học máy là Hidden Markov Model?


12

Tôi đã sử dụng thuật toán Mô hình Markov ẩn để nhận dạng giọng nói tự động trong lớp xử lý tín hiệu. Bây giờ đi qua tài liệu học máy tôi thấy rằng các thuật toán được phân loại là "Phân loại", "Phân cụm" hoặc "Hồi quy". HMM rơi vào thùng nào? Tôi đã không bắt gặp các mô hình markov ẩn được liệt kê trong tài liệu.

Câu trả lời:


14

Tôi muốn trả lời "không" hoặc "cả phân loại và phân cụm".

Tại sao "không"? Bởi vì HMM không ở trong cùng một túi với máy vectơ hỗ trợ hoặc phương tiện k.

Các máy vectơ hỗ trợ hoặc phương tiện k được thiết kế đặc biệt để giải quyết vấn đề (phân loại trong trường hợp đầu tiên, phân cụm trong lần thứ hai) và thực sự chỉ là một quy trình tối ưu hóa để tối đa hóa tiêu chí "mức độ tốt của phân loại" hoặc "mức độ tốt của phân cụm" . Vẻ đẹp nằm ở sự lựa chọn của tiêu chí và quy trình tối ưu hóa. HMM không phải là một thuật toán mỗi se. Chúng là một loại phân phối xác suất cụ thể trên các chuỗi vectơ - mà chúng ta biết ước tính tham số tốt và thuật toán tính toán phân phối biên. Nhưng hỏi xem họ thuộc họ "phân cụm" hay "phân loại" thì thật nực cười như hỏi liệu phân phối Gaussian có được giám sát hay học tập không giám sát hay không.

Tại sao "cả phân loại và phân cụm"? Do các yếu tố sau: Là phân phối xác suất, HMM có thể được sử dụng để phân loại theo khung bayes; và là mô hình với các trạng thái ẩn, một số cụm dữ liệu huấn luyện tiềm ẩn có thể được phục hồi từ các tham số của chúng. Chính xác hơn:

HMM có thể được sử dụng để phân loại. Đây là một ứng dụng đơn giản của khung phân loại bayes, với HMM được sử dụng làm mô hình xác suất mô tả dữ liệu của bạn. Ví dụ: bạn có một cơ sở dữ liệu lớn về cách phát âm các chữ số ("một", "hai", v.v.) và muốn xây dựng một hệ thống có khả năng phân loại một cách nói không xác định. Đối với mỗi lớp trong dữ liệu đào tạo của bạn ("một", "hai", bạn ước tính các tham số của mô hình HMM mô tả các chuỗi đào tạo trong lớp này - và bạn kết thúc với 10 mô hình. Sau đó, để thực hiện nhận dạng, bạn hãy tính 10 điểm số khả năng (cho biết khả năng trình tự bạn muốn nhận ra đã được mô hình tạo ra như thế nào) và mô hình có điểm số cao nhất cung cấp cho bạn chữ số. Trong hướng dẫn Rabiner về HMM, giai đoạn đào tạo là "Vấn đề 3", giai đoạn phân loại là "Vấn đề 2".

kγkk


1

Đầu tiên, chúng ta hãy nhìn vào ba tùy chọn:

  • Phân loại : Xác định lớp nào của một tập hợp các lớp được xác định trước mà dữ liệu thuộc về.
  • Phân cụm : Học tập các lớp dữ liệu thuộc về.
  • Hồi quy : Tìm mối quan hệ giữa biến và một hoặc nhiều người khác.

Mô tả về HMM trên Wikipedia có bảng sau:

nhập mô tả hình ảnh ở đây

vì vậy số lượng trạng thái (lớp) là cố định.

Điều đó có nghĩa là thuật toán không cố gắng tìm ra số lượng các lớp (trạng thái) là --- vì vậy nó không phải là cụm kết thúc mở (trong đó số lượng trạng thái không xác định).

Tuy nhiên, như @nikie chỉ ra, HMM sẽ thực hiện phân cụm.

Thực sự không có một biến độc lập (như tồn tại trong bối cảnh hồi quy) --- vì vậy nó không phải là hồi quy.

Vì vậy, câu trả lời của tôi là HMM là một phân loại và thuật toán phân cụm , tôi không tin đó là một hồi quy.


2
Làm thế nào để bạn nhận được từ "số lượng các lớp nếu cố định" thành "để thuật toán không cố gắng tìm ra rằng các lớp là"? Số lượng các lớp cho phân cụm k-mean cũng được cố định, nhưng rõ ràng đây là một thuật toán phân cụm.
Niki Estner

Tôi cho rằng tôi đã quen với việc phân cụm kết thúc mở hơn là cố định. Sẽ cập nhật câu trả lời. Cảm ơn!
Peter K.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.