Có hỗ trợ máy Vector xử lý bộ dữ liệu không cân bằng?


14

SVM có xử lý dữ liệu không cân bằng không? Có bất kỳ tham số nào (như C, hoặc chi phí phân loại sai) xử lý bộ dữ liệu không cân bằng không?


1
Điều gì làm cho một tập dữ liệu "mất cân bằng"?
whuber

1
@whuber một tập dữ liệu phân loại với tỷ lệ phổ biến lớp lớn thường được gọi là mất cân bằng.
Marc Claesen

1
@Marc Điều đó có thể đúng nói chung nhưng đó là một khái niệm mơ hồ. Bao nhiêu là "phần lớn thay đổi"? Tại sao nó thậm chí quan trọng ngoại trừ trong một số trường hợp đặc biệt? Tôi tin rằng điều quan trọng đối với chúng tôi là tìm hiểu ý nghĩa của người đề xuất câu hỏi này bằng cách "mất cân bằng" thay vì chấp nhận suy đoán thông minh của bất kỳ ai liên quan đến ý nghĩa dự định.
whuber

@whuber bộ dữ liệu mất cân bằng là một khái niệm phổ biến trong học máy. Về mặt ứng dụng vì ví dụ như phát hiện thư rác, v.v. Có lẽ vì tính ưu việt của thuật toán nhắm mục tiêu lỗi phân loại sai thay vì xác suất. Điều này lần lượt làm cho trọng số của lỗi có vấn đề.
seanv507

2
Cảm ơn bạn, @seanv, đã làm rõ. Vấn đề thuật ngữ thực sự có vẻ là "xử lý" không đề cập đến "có thể được áp dụng", mà chỉ ngụ ý một cài đặt trong đó (1) có một lớp trong một thiểu số như vậy hiệu suất dự đoán của nó có thể bị ảnh hưởng nặng nề bởi sự hiện diện của các lớp khác, trong khi (2) dự đoán chính xác cho lớp thiểu số là mối quan tâm. Theo nghĩa đó, "bộ dữ liệu không cân bằng" là một mô tả khá chưa đầy đủ về vấn đề, nhưng vì thuật ngữ này dường như đã thu được một số loại tiền tệ nên dường như vô nghĩa để phàn nàn.
whuber

Câu trả lời:


18

Đối với các tập dữ liệu không cân bằng, chúng tôi thường thay đổi hình phạt phân loại sai cho mỗi lớp. Đây được gọi là SVM có trọng số lớp, giúp giảm thiểu các điều sau:

minw,b,ξi=1Nj=1Nαiαjyiyjκ(xi,xj)+CposiPξi+CnegiNξi,s.t.yi(j=1Nαjyjκ(xi,xj)+b)1ξi,i=1Nξi0,i=1N

trong đó và đại diện cho các trường hợp đào tạo tích cực / tiêu cực. Trong SVM tiêu chuẩn, chúng tôi chỉ có một giá trị duy nhất , trong khi hiện tại chúng tôi có 2. Hình phạt phân loại sai cho lớp thiểu số được chọn là lớn hơn so với lớp đa số.PNC

Cách tiếp cận này được giới thiệu khá sớm, nó được đề cập ví dụ trong một bài báo năm 1997:

Edgar Osuna, Robert Freund và Federico Girosi. Hỗ trợ máy Vector: Đào tạo và ứng dụng. Báo cáo kỹ thuật AIM-1602, 1997. ( pdf )

Về cơ bản, điều này tương đương với việc chồng chéo lớp thiểu số: ví dụ nếu thì điều này hoàn toàn tương đương với việc đào tạo một SVM tiêu chuẩn với sau khi bao gồm hai lần tích cực trong tập huấn luyện.Cpos=2CnegC=Cneg


Hay quá cảm ơn! Thêm vào đó, liệu hồi quy logistic, vịnh navie, cây quyết định có xử lý vấn đề mất cân bằng như vậy không?
RockTheStar

hồi quy logistic chắc chắn có, bạn chỉ cân nhắc khả năng cho các mẫu tích cực và các mẫu tiêu cực khác nhau.
Dikran Marsupial

Hồi quy logistic và SVM cung cấp các cách nội tại. Tôi không biết trái tim cho tất cả các phương thức khác này, nhưng việc chồng chéo lớp thiểu số hoạt động với hầu hết mọi phương thức (mặc dù nó không chính xác về mặt toán học).
Marc Claesen

1
Thật tuyệt, cảm ơn @Dikran. Marc: vâng, công việc quá khổ đơn giản nói chung. Tuy nhiên, điều này phụ thuộc vào tình hình. Điều gì xảy ra là bạn đang thêm "trọng số" vào dữ liệu thiểu số khi bạn chồng chéo nhóm thiểu số (sao chép điểm thiểu số nhiều lần trên cùng một vị trí). Điều này về cơ bản giúp cải thiện "sự xem xét" của ví dụ thiểu số. Tuy nhiên, ranh giới quyết định của phân loại sau đó sẽ trở nên khá căng thẳng (không đủ chung), nghĩa là có thể xảy ra sự phù hợp quá mức). Do đó, chúng tôi có thể phải xem xét một số kỹ thuật lấy mẫu xác suất, như SMOTE.
RockTheStar

10

Các SVM có thể xử lý các bộ dữ liệu với tần số lớp không cân bằng. Nhiều triển khai cho phép bạn có một giá trị khác nhau cho hình phạt chùng (C) đối với các lớp dương và âm (tương đương với việc thay đổi tần số lớp). Tôi sẽ khuyên bạn nên thiết lập các giá trị của các tham số này để tối đa hóa hiệu suất tổng quát hóa trên tập kiểm tra trong đó tần số lớp là tần số bạn muốn thấy trong sử dụng vận hành.

Tôi là một trong số nhiều người đã viết bài báo về vấn đề này, đây là của tôi , tôi sẽ xem liệu tôi có thể tìm thấy thứ gì đó gần đây / tốt hơn không. Hãy thử Veropoulos, Campbell và Cristianini (1999).


Dikran tại sao nó chỉ tương đương không có triệu chứng ... chắc chắn nó chính xác tương đương với trọng số của các lỗi lớp khác nhau khác nhau?
seanv507

Nó chính xác tương đương với trọng số của các lỗi lớp, nhưng điều đó không giống với việc lấy lại dữ liệu (để bắt đầu các trọng số liên tục thay đổi, nhưng dữ liệu rời rạc). Đây là một trong những kết quả mong đợi không có triệu chứng (có vẻ không đặc biệt hữu ích trong hầu hết các trường hợp).
Dikran Marsupial
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.