ví dụ nếu tôi có điểm tín dụng biến lớp với hai lớp tốt và xấu, trong đó # (tốt) = 700 và # (xấu) = 300. Tôi không muốn rút ngắn dữ liệu của mình. Tôi nên sử dụng kỹ thuật nào? Tôi đã sử dụng SVM nhưng nó mang lại kết quả tốt như dự đoán.
ví dụ nếu tôi có điểm tín dụng biến lớp với hai lớp tốt và xấu, trong đó # (tốt) = 700 và # (xấu) = 300. Tôi không muốn rút ngắn dữ liệu của mình. Tôi nên sử dụng kỹ thuật nào? Tôi đã sử dụng SVM nhưng nó mang lại kết quả tốt như dự đoán.
Câu trả lời:
Kích thước mẫu lớp của bạn dường như không quá mất cân bằng vì bạn có 30% quan sát trong lớp thiểu số của mình. Hồi quy logistic nên được thực hiện tốt trong trường hợp của bạn. Tùy thuộc vào số lượng dự đoán nhập vào mô hình của bạn, bạn có thể xem xét một số loại hình phạt đối với ước tính tham số, như sườn núi (L2) hoặc lasso (L1). Để biết tổng quan về các vấn đề với lớp rất không cân bằng, xem Cramer (1999), The Statistician, 48: 85-94 ( PDF ).
Tôi không quen với các kỹ thuật chấm điểm tín dụng, nhưng tôi đã tìm thấy một số bài viết gợi ý rằng bạn có thể sử dụng SVM với các lớp có trọng số, ví dụ: Máy Vector hỗ trợ cho chấm điểm tín dụng: Mở rộng cho các trường hợp không chuẩn . Cách khác, bạn có thể xem xét các phương thức tăng cường bằng GIỎI hoặc Rừng ngẫu nhiên (trong trường hợp sau, có thể điều chỉnh chiến lược lấy mẫu sao cho mỗi lớp được biểu diễn khi xây dựng cây phân loại). Bài viết của Novak và LaDue thảo luận về ưu và nhược điểm của phân vùng GLM vs đệ quy . Tôi cũng tìm thấy bài viết này, Xây dựng Thẻ điểm với quy mô lớp không cân bằng của Hand và Vinciotti.
Một cách tiếp cận phổ biến đối với việc giải quyết các vấn đề mất cân bằng lớp là thiên vị bộ phân loại để nó chú ý nhiều hơn đến các trường hợp tích cực. Điều này có thể được thực hiện, ví dụ, bằng cách tăng hình phạt liên quan đến việc phân loại sai lớp tích cực so với lớp phủ định. Một cách tiếp cận khác là xử lý trước dữ liệu bằng cách ghi đè lên lớp đa số hoặc gạch dưới lớp thiểu số để tạo ra một tập dữ liệu cân bằng.
Trong giai đoạn tiền xử lý dữ liệu, hãy nhớ rằng SVM yêu cầu mỗi trường hợp dữ liệu được biểu diễn dưới dạng một vectơ của các số thực. Do đó, nếu có các thuộc tính phân loại, bạn nên chuyển đổi chúng thành dữ liệu số, sử dụng số m để biểu thị thuộc tính loại m (hoặc thay thế bằng m biến nhị phân mới).
Ngoài ra, việc chia tỷ lệ các biến trước khi áp dụng SVM là rất quan trọng, để tránh các thuộc tính trong phạm vi số lớn hơn chi phối các biến trong phạm vi số nhỏ hơn.
Kiểm tra giấy này .
Nếu bạn đang làm việc trong R, hãy kiểm tra chức năng điều chỉnh (gói e1071) để điều chỉnh siêu âm bằng cách sử dụng tìm kiếm lưới trên phạm vi tham số được cung cấp. Sau đó, bằng cách sử dụng plot.tune , bạn có thể thấy trực quan bộ giá trị nào cho tỷ lệ lỗi nhỏ hơn.
Có một lối tắt xung quanh việc tìm kiếm tham số tốn thời gian. Có một gói R được gọi là "svmpath" tính toán toàn bộ đường dẫn chính quy cho trình phân loại SVM 2 lớp trong một lần. Đây là một liên kết đến bài báo mô tả những gì nó đang làm.
PS Bạn cũng có thể thấy bài báo này thú vị: Lấy ước tính xác suất hiệu chuẩn
Tôi sẽ khuyên bạn nên sử dụng một giá trị khác của tham số chính quy C cho các ví dụ về lớp dương và ví dụ về lớp âm (nhiều gói SVM hỗ trợ điều này và trong mọi trường hợp có thể dễ dàng thực hiện). Sau đó sử dụng ví dụ xác thực chéo để tìm giá trị tốt của hai tham số chính quy.
Có thể chỉ ra rằng đây là việc lấy mẫu lại dữ liệu tương đương theo tỷ lệ theo tỷ lệ được xác định bởi C + và C- (vì vậy không có lợi thế nào trong việc lấy mẫu lại thay vì cân lại, cuối cùng chúng cũng có cùng trọng số có thể liên tục, thay vì rời rạc, do đó nó cho phép kiểm soát tốt hơn).
Mặc dù vậy, đừng đơn giản chọn C + và C- để tăng trọng số 50-50 cho các mẫu tích cực và tiêu cực, vì mức độ ảnh hưởng của vấn đề "các lớp mất cân bằng" sẽ thay đổi từ tập dữ liệu sang tập dữ liệu, vì vậy độ mạnh của tối ưu lại trọng số không thể được xác định a-prori.
Cũng nên nhớ rằng chi phí dương tính giả và âm tính giả có thể khác nhau và vấn đề có thể tự giải quyết nếu chúng được bao gồm trong việc xác định C + và C-.
Cũng cần lưu ý rằng, đối với một số vấn đề, quy tắc quyết định tối ưu của Bayes sẽ gán tất cả các mẫu cho một lớp và bỏ qua lớp kia, vì vậy nó không nhất thiết là điều xấu - nó có thể chỉ có nghĩa là mật độ của các mẫu một lớp ở khắp mọi nơi dưới mật độ của các mẫu khác.