Phân loại chỉ cho một lớp


10

Trong một phân loại đơn giản, chúng ta có hai lớp: lớp-0 và lớp-1. Trong một số dữ liệu tôi chỉ có các giá trị cho lớp 1, vì vậy không có giá trị nào cho lớp 0. Bây giờ tôi đang nghĩ về việc tạo một mô hình để mô hình hóa dữ liệu cho lớp 1. Vì vậy, khi dữ liệu mới xuất hiện, mô hình này được áp dụng cho dữ liệu mới và tìm thấy xác suất cho biết khả năng dữ liệu mới phù hợp với mô hình này như thế nào. Sau đó so sánh với một ngưỡng, tôi có thể lọc dữ liệu không phù hợp.

Câu hỏi của tôi là:

  • Đây có phải là một cách tốt để làm việc với các vấn đề như vậy?
  • Phân loại RandomForest có thể được sử dụng cho trường hợp này không? Tôi có cần thêm dữ liệu nhân tạo cho lớp 0 mà tôi hy vọng bộ phân loại coi là nhiễu không?
  • Bất kỳ ý tưởng khác có thể giúp cho vấn đề này?

Câu trả lời:


9

Điều này có thể sử dụng một số cách tiếp cận và chắc chắn là một cách tiếp cận hợp lệ. Tôi không chắc chắn nếu rừng ngẫu nhiên có thể làm điều này, mặc dù.

Tạo dữ liệu nhân tạo có nghĩa là đưa ra các giả định bổ sung, đừng làm điều đó nếu bạn không phải làm vậy.

Một kỹ thuật bạn có thể muốn xem xét được gọi là SVM một lớp. Nó thực hiện chính xác những gì bạn đang tìm kiếm: nó cố gắng xây dựng một mô hình chấp nhận các điểm đào tạo và sẽ từ chối các điểm từ các bản phân phối khác.

Một số tài liệu tham khảo về SVM một lớp:

  1. Schölkopf, Bernhard, et al. "Ước tính sự hỗ trợ của phân phối chiều cao." Tính toán thần kinh 13,7 (2001): 1443-1471. Bài viết này giới thiệu cách tiếp cận.

  2. Thuế, David MJ và Robert PW Duin. "Hỗ trợ mô tả dữ liệu vector." Máy học 54.1 (2004): 45-66. Một cách khác nhau để làm điều tương tự, có thể trực quan hơn.

Cả hai cách tiếp cận này đã được chứng minh là tương đương. Đầu tiên ước tính một siêu phẳng phân tách tất cả dữ liệu huấn luyện từ gốc trong không gian đặc trưng với khoảng cách tối đa. Thứ hai ước tính một siêu cầu có bán kính tối thiểu trong không gian đặc trưng chứa các trường hợp đào tạo.

SVM một lớp có sẵn trong nhiều gói SVM, bao gồm libsvm , scikit-learn (Python) và kernlab (R).


3
Luận án tiến sĩ thuế "One-lớp phân loại - Khái niệm học tập trong trường hợp không phản ví dụ" cũng có sẵn: homepage.tudelft.nl/n9d04/thesis.pdf
cbeleites không hài lòng với SX

Ngắn gọn và chính xác! (+1) "Cả hai cách tiếp cận này đều được chứng minh là tương đương." - bạn có thể chỉ định một tài liệu tham khảo / trích dẫn cho điều đó? Có phải là scholar.google.de/ Kẻ
Boern

6

Hãy để tôi thêm một số khả năng:

Ý tưởng chung là việc đặt ngưỡng cho khoảng cách từ lớp cho phép bạn quyết định xem một mẫu có thuộc lớp đó hay không và bất kể có các lớp khác hay không.

  • Mahalanobis-Khoảng cách => QDA
  • SIMCA (Mô hình hóa độc lập mềm của các loại tương tự lớp) sử dụng khoảng cách trong không gian điểm PCA.
    SIMCA là phổ biến trong tài liệu hóa học (mặc dù hiếm khi thực sự được thiết lập theo cách một lớp).
  • (Các SVM đã được xử lý trong câu trả lời của @Marc Claesen)

Richard G. Brereton: Hóa học cho nhận dạng mẫu (Wiley, 2009) có cả một chương về phân loại một lớp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.