Ý nghĩa của việc đào tạo một Cây tập hợp với các bộ dữ liệu rất thiên vị là gì?


14

Tôi có một bộ dữ liệu nhị phân rất thiên vị - Tôi có nhiều ví dụ về lớp âm hơn 1000 lần so với lớp dương. Tôi muốn huấn luyện một Bộ quần áo cây (như Cây ngẫu nhiên bổ sung hoặc Rừng ngẫu nhiên) trên dữ liệu này nhưng thật khó để tạo bộ dữ liệu đào tạo có chứa đủ ví dụ về lớp tích cực.

Điều gì sẽ có ý nghĩa của việc thực hiện một phương pháp lấy mẫu phân tầng để bình thường hóa số lượng các ví dụ tích cực và tiêu cực? Nói cách khác, chẳng hạn, có phải là một ý tưởng tồi để làm tăng giả tạo (bằng cách lấy lại mẫu) số lượng các ví dụ lớp tích cực trong tập huấn luyện không?

Câu trả lời:


10

Vâng, đó là vấn đề. Nếu bạn vượt qua thiểu số, bạn có nguy cơ bị thừa. Nếu bạn nhấn mạnh đa số, bạn có nguy cơ bị thiếu các khía cạnh của lớp đa số. Lấy mẫu phân tầng, btw, tương đương với việc gán chi phí phân loại sai không đồng nhất.

Lựa chọn thay thế:

(1) Lấy mẫu độc lập một số tập hợp con từ lớp đa số và tạo nhiều phân loại bằng cách kết hợp từng tập hợp con với tất cả dữ liệu của nhóm thiểu số, như được đề xuất trong câu trả lời từ @Debocation và được mô tả trong bài báo EasyEnsemble này ,

(2) SMOTE (Kỹ thuật lấy mẫu thiểu số tổng hợp) hoặc SMOTEBoost, (kết hợp SMOTE với tăng tốc) để tạo các thể hiện tổng hợp của lớp thiểu số bằng cách tạo hàng xóm gần nhất trong không gian tính năng. SMOTE được triển khai trong R trong gói DMwR .


11

Tôi sẽ khuyên bạn nên đào tạo về các tập hợp con cân bằng hơn của dữ liệu của bạn. Đào tạo rừng ngẫu nhiên trên các tập hợp ví dụ tích cực được chọn ngẫu nhiên với số lượng mẫu âm tương tự. Đặc biệt, nếu các tính năng phân biệt đối xử thể hiện rất nhiều phương sai, điều này sẽ khá hiệu quả và tránh sự phù hợp quá mức. Tuy nhiên, trong phân tầng, điều quan trọng là tìm sự cân bằng vì sự phù hợp quá mức có thể trở thành một vấn đề bất kể. Tôi sẽ đề nghị xem mô hình làm như thế nào với toàn bộ tập dữ liệu, sau đó tăng dần tỷ lệ mẫu dương tính với mẫu âm tiếp cận tỷ lệ chẵn và chọn một mô hình tối đa hóa số liệu hiệu suất của bạn trên một số dữ liệu đại diện.

Bài viết này có vẻ khá phù hợp http:weighted Random Forest //statistic.ber siêu.edu / sites / default / files / tech-report /666.pdf nó nói về một hình phạt nặng hơn đối với việc phân loại sai của lớp thiểu số.


4

Một cách nhanh chóng, dễ dàng và thường có hiệu quả để tiếp cận sự mất cân bằng này là lấy mẫu ngẫu nhiên cho lớp lớn hơn (trong trường hợp của bạn là lớp phủ định), chạy phân loại N số lần với các thành viên từ hai lớp (một lớp đầy đủ và lớp kia được lấy mẫu) và báo cáo các giá trị số liệu trung bình, trung bình được tính trên các lần lặp N (giả sử 1000).

Một cách tiếp cận có phương pháp hơn sẽ là thực thi thuật toán Ánh xạ hội tụ (MC), bao gồm việc xác định một tập hợp các mẫu âm tính mạnh với sự trợ giúp của trình phân loại một lớp, như OSVM hoặc SVDD, sau đó lặp đi lặp lại phân loại nhị phân trên tập hợp mẫu âm tính và dương tính mạnh. Thông tin chi tiết về thuật toán MC có thể được tìm thấy trong bài báo này .


0

Như đã đề cập ở trên, cách tốt nhất là lấy mẫu nhiều lần N lớp (lấy mẫu mà không thay thế) và mỗi lần, kích thước của lớp âm phải bằng kích thước của lớp dương. Bây giờ, N phân loại khác nhau có thể được đào tạo và trung bình có thể được sử dụng để đánh giá nó.

Một cách khác là sử dụng kỹ thuật bootstrapping. Điều này có thể giới thiệu quá mức, nhưng đáng để thử và sau đó nếu được xem có thể thường xuyên hóa mô hình để tránh quá mức.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.