Học bán giám sát, học tích cực và học sâu để phân loại


19

Chỉnh sửa cuối cùng với tất cả các tài nguyên được cập nhật:

Đối với một dự án, tôi đang áp dụng các thuật toán học máy để phân loại.

Thách thức: Khá hạn chế dữ liệu được dán nhãn và dữ liệu chưa được gắn nhãn nhiều hơn.

Bàn thắng:

  1. Áp dụng phân loại bán giám sát
  2. Áp dụng quy trình ghi nhãn bán giám sát bằng cách nào đó (được gọi là học tập tích cực)

Tôi đã tìm thấy rất nhiều thông tin từ các tài liệu nghiên cứu, như áp dụng EM, Transductive SVM hoặc S3VM (Semi Supervised SVM) hoặc bằng cách nào đó sử dụng LDA, v.v. Thậm chí có rất ít sách về chủ đề này.

Câu hỏi: Đâu là việc thực hiện và nguồn thực tế?


Cập nhật cuối cùng (dựa trên sự giúp đỡ được cung cấp bởi mpiktas, bayer và Dikran Marsupial)

Học bán giám sát:

Học tập tích cực:

  • Nhị nguyên : triển khai học tập tích cực với mã nguồn trên phân loại văn bản
  • Trang web này phục vụ một cái nhìn tổng quan tuyệt vời về học tập tích cực.
  • Một hội thảo thiết kế thử nghiệm: ở đây .

Học kĩ càng:


Có một gói R RTextTools . Nếu tôi không nhầm thì nó thực hiện một số phương pháp bạn đề cập.
mpiktas

Xin chào mpiktas, cảm ơn sự giúp đỡ của bạn. Nó là một bộ công cụ thú vị. Tuy nhiên, dường như chỉ xử lý việc học có giám sát, vì tôi đã đọc "TextTools là gói học máy nguồn mở, miễn phí để phân loại văn bản tự động, giúp người dùng mới và người dùng nâng cao dễ dàng bắt đầu với việc học có giám sát. chín thuật toán để phân loại đồng bộ (svm, slda, tăng tốc, đóng bao, rừng ngẫu nhiên, glmnet, cây quyết định, mạng lưới thần kinh, entropy tối đa) "
Flake

Ok, đây là một thử khác: Weka . Các tác giả đã viết một cuốn sách, và mục lục của nó đề cập đến việc học bán giám sát. Tôi chân thành hy vọng rằng chương này không kết thúc bằng "... tiếc là không có thuật toán nào trong số các thuật toán này được triển khai trong Weka" :)
mpiktas

Drat, tôi đã có phiên bản cũ của cuốn sách! Cảm ơn rất nhiều vì đã chỉ ra nguồn này!
Flake

Câu trả lời:


8

Có vẻ như việc học sâu có thể rất thú vị đối với bạn. Đây là một lĩnh vực rất gần đây của các mô hình kết nối sâu được xử lý trước một cách không giám sát và tinh chỉnh sau đó với sự giám sát. Việc tinh chỉnh đòi hỏi một mẫu ít hơn nhiều so với trước khi xử lý.

Để làm ướt lưỡi của bạn, tôi khuyên bạn nên [Semantig Hashing Salakhutdinov, Hinton . Hãy xem các mã này tìm thấy cho các tài liệu riêng biệt của tập đoàn Reuters: (không được giám sát!)

nhập mô tả hình ảnh ở đây

Nếu bạn cần một số mã được triển khai, hãy xem deeplearning.net . Tôi không tin rằng có những giải pháp vượt trội.


Đây là thông tin khá thú vị và mới cho tôi. Tất nhiên trong số các triển khai sẽ tốt hơn, nhưng điều này thực sự giúp tôi biết một cái gì đó gần hơn với những gì tôi muốn. Cảm ơn.
Flake

5

Isabelle Guyon (và các đồng nghiệp) đã tổ chức một thử thách về học tập tích cực một thời gian trước, các thủ tục tố tụng được công bố tại đây (truy cập mở). Điều này có ưu điểm là khá thực tế và bạn có thể so sánh trực tiếp hiệu suất của các cách tiếp cận khác nhau theo một giao thức không thiên vị (theo nghĩa thông tục) (lựa chọn ngẫu nhiên các mẫu rất khó đánh bại).


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.