Đào tạo và kiểm tra AdaBoost để phân loại xác suất thấp

7

Tôi có một bộ dữ liệu mà tôi muốn phân loại là lừa đảo / không lừa đảo và tôi có nhiều người học yếu. Mối quan tâm của tôi là có nhiều gian lận hơn là không lừa đảo, vì vậy những người học yếu của tôi thực hiện tốt hơn mức trung bình, nhưng không có ai thực hiện chính xác hơn 50% trong toàn bộ.

Câu hỏi của tôi là liệu tôi có nên thiết lập các bộ thử nghiệm và đào tạo là một nửa gian lận và một nửa không lừa đảo hay tôi chỉ nên sử dụng một mẫu đại diện.

classification unbalanced-classes

— Indy
nguồn

1

Bạn có bao nhiêu mẫu? Một cách khác có thể là thử một số phương pháp phát hiện ngoại lệ và kiểm tra nó chống lại dữ liệu gian lận của bạn.

— jpmuc

sự đánh đổi sai lệch thiên vị nên có trong dữ liệu đào tạo.

— Sreejithc321

Bạn đã thấy câu hỏi này chưa: datascience.stackexchange.com/questions/6200/ Khăn

— image_doctor 14/07/2015

Bạn cũng có thể xem xét phân lớp ma trận chi phí theo thuật toán phân loại của mình, vì có sự mất cân bằng trong hình phạt khi thực hiện các lỗi khác nhau trong phân loại.

— image_doctor 14/07/2015

Có một lý do cụ thể nào bạn muốn sử dụng Adaboost trong bối cảnh này không?

— image_doctor 14/07/2015

1

Có thể việc thêm dữ liệu được tạo vào bộ dữ liệu của bạn sẽ làm giảm tỷ lệ gian lận / không gian lận và làm cho tập dữ liệu của bạn trở nên đại diện / có thể sử dụng hơn?

Tại GenieLog, chúng tôi đang sản xuất dữ liệu thử nghiệm để thiết kế và thử nghiệm các công cụ phát hiện gian lận. Chúng tôi tạo GEDIS Studio, chúng tôi có thể xác định hồ sơ thường xuyên và hồ sơ lừa đảo, khởi tạo từng danh mục theo tỷ lệ tùy chỉnh (ví dụ: 2% khách hàng sẽ sử dụng gian lận các sự kiện được tạo.)

Chúng tôi đã thực hiện thành công cho CDR viễn thông ( http://www.gedis-studio.com/online-call-detail-records-cdr-generator.html ) và cách sử dụng Thẻ tín dụng. Có quyền truy cập miễn phí vào trình tạo trực tuyến trên http://www.data-generator.com

Tôi khá chắc chắn rằng ngay cả khi công cụ không phù hợp với nhu cầu của bạn thì ít nhất phương pháp này có thể có giá trị. Nếu không, tôi sẽ quan tâm để đọc bất kỳ phản đối :)

Trân trọng

— Jean-Lin PACHERIE
nguồn

0

Tập huấn luyện phải thể hiện tập dữ liệu mà ứng dụng / thuật toán của bạn thực sự sẽ phải đối mặt. Tôi đề nghị bạn nên lấy một mẫu đại diện thay vì chia tập huấn luyện và kiểm tra với chính xác một nửa gian lận một nửa không gian lận. Nhưng vui lòng đảm bảo rằng tập huấn luyện chứa cả ví dụ tích cực và tiêu cực để gian lận để bộ phân loại của bạn hoạt động tốt hơn.

— Bhaskar
nguồn

Điều này đúng với bộ kiểm tra của bạn, nhưng không đào tạo. Oversampling là cần thiết cho các vấn đề như thế này vì phần lớn các trường hợp sẽ không phải là gian lận.

— David

0

Trong các tình huống mà một lớp cụ thể thực sự là thiểu số, tôi khuyên bạn nên sử dụng phát hiện danh mục hiếm. Trong trường hợp đặc biệt này là gian lận / không gian lận, gian lận là một loại hiếm. Đây là một lĩnh vực nghiên cứu tích cực - Tham khảo Phát hiện Danh mục Hiếm

— c0defreak
nguồn

0

Tôi nghĩ rằng nó phụ thuộc vào tập dữ liệu của bạn. Có nhiều cách để xử lý các tập dữ liệu không cân bằng, chỉ cần tìm kiếm, ví dụ: https://www.quora.com/In- classification-how-do-you-handle-an-unbalized-training-set . Tôi nghĩ rằng cách đơn giản nhất là sử dụng cùng một phân phối các lớp trong tập huấn luyện và kiểm tra.

Nếu bạn có một lượng nhỏ lớp thiểu số, bạn có thể thử phân loại một lớp .

— pplonski
nguồn