Đóng gói với oversampling cho các mô hình dự đoán sự kiện hiếm


13

Có ai biết nếu sau đây đã được mô tả và (một trong hai cách) nếu nó có vẻ như là một phương pháp hợp lý để học một mô hình dự đoán với một biến mục tiêu rất không cân bằng?

Thông thường trong các ứng dụng CRM khai thác dữ liệu, chúng tôi sẽ tìm kiếm một mô hình trong đó sự kiện tích cực (thành công) rất hiếm so với đa số (lớp phủ định). Ví dụ: tôi có thể có 500.000 trường hợp chỉ có 0,1% thuộc nhóm lợi ích tích cực (ví dụ: khách hàng đã mua). Vì vậy, để tạo mô hình dự đoán, một phương pháp là lấy mẫu dữ liệu theo đó bạn giữ tất cả các thể hiện của lớp dương và chỉ một mẫu của các thể hiện của lớp âm để tỷ lệ của lớp dương với lớp âm gần hơn 1 (có thể là 25% đến 75% dương tính với âm tính). Qua lấy mẫu, gạch dưới, SMote, vv là tất cả các phương pháp trong tài liệu.

Điều tôi tò mò là kết hợp chiến lược lấy mẫu cơ bản ở trên nhưng với việc đóng gói lớp tiêu cực. Một cái gì đó đơn giản như:

  • Giữ tất cả các trường hợp lớp tích cực (ví dụ 1.000)
  • Lấy mẫu các trường hợp classe âm để tạo mẫu cân bằng (ví dụ 1.000).
  • Phù hợp với mô hình
  • Nói lại

Có ai nghe nói về việc này trước đây không? Vấn đề dường như không có bao là việc lấy mẫu chỉ 1.000 trường hợp của lớp âm khi có 500.000 là không gian dự đoán sẽ thưa thớt và bạn có thể không có đại diện cho các giá trị / mẫu dự đoán có thể. Đóng bao dường như giúp điều này.

Tôi đã xem xét rpart và không có gì "phá vỡ" khi một trong các mẫu không có tất cả các giá trị cho một công cụ dự đoán (không phá vỡ khi sau đó dự đoán các trường hợp với các giá trị dự đoán đó:

library(rpart)
tree<-rpart(skips ~ PadType,data=solder[solder$PadType !='D6',], method="anova")
predict(tree,newdata=subset(solder,PadType =='D6'))

Có suy nghĩ gì không?

CẬP NHẬT: Tôi lấy một bộ dữ liệu trong thế giới thực (tiếp thị dữ liệu phản hồi thư trực tiếp) và phân vùng ngẫu nhiên nó thành đào tạo và xác nhận. Có 618 dự đoán và 1 mục tiêu nhị phân (rất hiếm).

Training:
Total Cases: 167,923
Cases with Y=1: 521

Validation:
Total Cases: 141,755
Cases with Y=1: 410

Tôi lấy tất cả các ví dụ tích cực (521) từ tập huấn luyện và một mẫu ngẫu nhiên các ví dụ âm có cùng kích thước cho một mẫu cân bằng. Tôi phù hợp với một cây rpart:

models[[length(models)+1]]<-rpart(Y~.,data=trainSample,method="class")

Tôi đã lặp lại quá trình này 100 lần. Sau đó, dự đoán xác suất Y = 1 trong các trường hợp mẫu xác nhận cho mỗi trong số 100 mô hình này. Tôi chỉ đơn giản là trung bình 100 xác suất cho một ước tính cuối cùng. Tôi đã giải mã các xác suất trên tập xác thực và trong mỗi decile đã tính tỷ lệ phần trăm của các trường hợp trong đó Y = 1 (phương pháp truyền thống để ước tính khả năng xếp hạng của mô hình).

Result$decile<-as.numeric(cut(Result[,"Score"],breaks=10,labels=1:10)) 

Đây là hiệu suất: nhập mô tả hình ảnh ở đây

Để xem làm thế nào so với việc không đóng bao, tôi dự đoán mẫu xác nhận chỉ với mẫu đầu tiên (tất cả các trường hợp dương tính và một mẫu ngẫu nhiên có cùng kích thước). Rõ ràng, dữ liệu được lấy mẫu quá thưa thớt hoặc quá phù hợp để có hiệu lực trong mẫu xác nhận giữ lại.

Đề xuất hiệu quả của thói quen đóng bao khi có một sự kiện hiếm gặp và n và p lớn.

nhập mô tả hình ảnh ở đây

Câu trả lời:


7

Ngoại trừ việc bao gồm các ví dụ lớp tích cực giống nhau trong mỗi túi, đây là S ^ 3Bagging như được mô tả trong S ^ 3Bagging: Phương pháp quy nạp nhanh phân loại nhanh với tính năng ghép mẫu và đóng bao . (Tôi chưa xem xét sâu bài viết này, chỉ đọc lướt qua nó.)

Tôi thấy không có gì sai về mặt lý thuyết với cách tiếp cận của bạn, mặc dù tôi thường thấy việc lấy mẫu con thường xuyên hơn kết hợp với tăng tốc hơn là đóng bao.

Điều này có thể không giải quyết chính xác câu hỏi của bạn, nhưng một bài viết xuất sắc về các cách xử lý dữ liệu mất cân bằng khác nhau là Học từ dữ liệu mất cân bằng . Nó có đường nối như học tập nhạy cảm với chi phí có thể phù hợp hơn trong trường hợp của bạn. Vì bạn đang sử dụng Rừng quyết định, Mục 3.2.3 Cây quyết định nhạy cảm với chi phí có thể hữu ích. Nó nói,

Liên quan đến cây quyết định, sự phù hợp nhạy cảm với chi phí có thể có ba hình thức: thứ nhất, điều chỉnh nhạy cảm với chi phí có thể được áp dụng cho ngưỡng quyết định; thứ hai, các cân nhắc nhạy cảm về chi phí có thể được đưa ra cho các tiêu chí phân chia tại mỗi nút; và cuối cùng, các kế hoạch cắt tỉa nhạy cảm với chi phí có thể được áp dụng cho cây

Điều chỉnh nhạy cảm về chi phí đối với ngưỡng quyết định về cơ bản có nghĩa là chọn ngưỡng quyết định của bạn dựa trên hiệu suất ROC hoặc Precision-Recall Curve. Hiệu suất PRC nói riêng là mạnh mẽ để mất cân bằng dữ liệu.

Tiêu chí phân chia nhạy cảm chi phí đi xuống để thay đổi chức năng tạp chất của bạn để đối phó với dữ liệu mất cân bằng. Các giấy tờ nêu trên,

Trong [63], ba hàm tạp chất cụ thể, Gini, Entropy và DKM, đã được chứng minh là đã cải thiện độ nhạy cảm chi phí so với đường cơ sở tỷ lệ chính xác / lỗi. Hơn nữa, các thí nghiệm thực nghiệm này cũng cho thấy rằng việc sử dụng hàm DKM thường tạo ra các cây quyết định chưa được xử lý nhỏ hơn với độ chính xác được cung cấp kém hơn so với Gini và Entropy. Một cơ sở lý thuyết chi tiết giải thích kết luận của các kết quả thực nghiệm này sau đó đã được thiết lập trong [49], trong đó khái quát các tác động của sự phát triển của cây quyết định đối với bất kỳ lựa chọn tiêu chí nhổ nào.

Khi cắt tỉa,

Tuy nhiên, với sự hiện diện của dữ liệu mất cân bằng, các quy trình cắt tỉa có xu hướng loại bỏ các lá mô tả khái niệm thiểu số. Nó đã được chỉ ra rằng mặc dù việc cắt tỉa cây gây ra từ dữ liệu mất cân bằng có thể cản trở hiệu suất, sử dụng cây không được xử lý trong các trường hợp như vậy không cải thiện hiệu suất [23]. Kết quả là, đã chú ý đến việc cải thiện ước tính xác suất lớp ở mỗi nút để phát triển các cấu trúc cây quyết định đại diện hơn để việc cắt tỉa có thể được áp dụng với các hiệu ứng tích cực. Một số công việc đại diện bao gồm phương pháp làm mịn Laplace của ước tính xác suất và kỹ thuật cắt tỉa Laplace [49].

[23] N. Japkowicz và S. Stephen, Hiện Vấn đề mất cân bằng giai cấp: Một nghiên cứu có hệ thống, Phân tích dữ liệu thông minh, Tập. 6, không 5, trang 429-494, 2002.

[49] C. Elkan, Mười Những nền tảng của học tập nhạy cảm với chi phí, Proc Proc. Liên minh quốc tế. Trí tuệ nhân tạo, trang 973-978, 2001.

[63] C. Drumond và RC Holte, Khai thác sự nhạy cảm về chi phí (trong) của các tiêu chí tách cây quyết định, Proc Proc. Quốc tế Conf. Học máy, trang 239-246, 2000.


0

Điều này rất thú vị. Gần đây tôi có một dự án có tình huống tương tự trong đó việc xác thực các sự kiện hiếm gặp hoạt động tốt trong khi việc xác thực các sự kiện không nằm trong phạm vi dự đoán thấp nhất (chẳng hạn như 0,0 - 0,1) thực hiện không ổn định qua từng tháng. Những lý do đằng sau, như bạn đã đề cập, do số lượng lớn các sự kiện không lớn, tốt hơn là đưa nhiều mẫu vào các tập huấn luyện để có đủ mẫu để bao gồm nhiều tổ hợp biến khác nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.