Xử lý một bộ tính năng tăng thường xuyên


10

Tôi đang làm việc trên một hệ thống phát hiện gian lận. Trong lĩnh vực này, các gian lận mới xuất hiện thường xuyên, do đó các tính năng mới phải được thêm vào mô hình trên cơ sở liên tục.

Tôi tự hỏi cách tốt nhất để xử lý nó (từ quan điểm quá trình phát triển) là gì? Chỉ cần thêm một tính năng mới vào vector tính năng và đào tạo lại trình phân loại dường như là một cách tiếp cận ngây thơ, bởi vì sẽ có quá nhiều thời gian dành cho việc học lại các tính năng cũ.

Tôi đang suy nghĩ về cách đào tạo một trình phân loại cho từng tính năng (hoặc một vài tính năng liên quan), sau đó kết hợp kết quả của các phân loại đó với một trình phân loại tổng thể. Có bất kỳ nhược điểm của phương pháp này? Làm thế nào tôi có thể chọn một thuật toán cho phân loại tổng thể?

Câu trả lời:


4

Trong một thế giới lý tưởng, bạn giữ lại tất cả dữ liệu lịch sử của mình và thực sự chạy một mô hình mới với tính năng mới được trích xuất hồi tố từ dữ liệu lịch sử. Tôi tranh luận rằng tài nguyên điện toán dành cho việc này thực sự khá hữu ích. Nó thực sự là một vấn đề?

Vâng, đó là một kỹ thuật được chấp nhận rộng rãi để xây dựng một nhóm các phân loại và kết hợp các kết quả của chúng. Bạn có thể xây dựng một mô hình mới song song chỉ dựa trên các tính năng mới và trung bình trong dự đoán của nó. Điều này sẽ thêm giá trị, nhưng, bạn sẽ không bao giờ nắm bắt được sự tương tác giữa các tính năng mới và cũ theo cách này, vì chúng sẽ không bao giờ xuất hiện cùng nhau trong một bộ phân loại.


2

Đây là một ý tưởng vừa xuất hiện màu xanh - điều gì sẽ xảy ra nếu bạn sử dụng Lấy mẫu không gian con ngẫu nhiên (như thực tế Sean Owen đã đề xuất) để đào tạo một loạt các trình phân loại mới mỗi khi một tính năng mới xuất hiện (sử dụng tập hợp tính năng ngẫu nhiên, bao gồm cả bộ tính năng mới). Bạn cũng có thể đào tạo các mô hình đó trên một tập hợp mẫu con để tiết kiệm thời gian đào tạo.

Bằng cách này, bạn có thể có các trình phân loại mới có thể đảm nhận cả các tính năng mới và cũ, đồng thời giữ các trình phân loại cũ của bạn. Thậm chí, bạn có thể sử dụng một kỹ thuật xác thực chéo để đo hiệu suất của từng phân loại, có thể tiêu diệt những hiệu suất kém nhất sau một thời gian, để tránh một mô hình cồng kềnh.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.