Trong học máy, tốt hơn là có tỷ lệ lớp cân bằng hoặc đại diện cho dân số?


9

Trong bối cảnh học máy, giả sử bạn có một vấn đề trong đó các lớp trong dân số thực không cân bằng - ví dụ: Lớp A xảy ra 80% thời gian và Lớp B xảy ra 20% thời gian.

Trong trường hợp như vậy, nói chung có tốt hơn khi có một thuật toán ML nhất định dựa trên dữ liệu có cùng tỷ lệ lớp 80/20 hoặc dữ liệu có tỷ lệ cân bằng (50/50) không? a) liên quan đến dữ liệu đào tạo b) liên quan đến dữ liệu thử nghiệm

Câu hỏi tiếp theo: Trong trường hợp câu trả lời cho (a) hoặc (b) xảy ra với tỷ lệ 50/50 cân bằng, thì sở thích này thường vẫn tồn tại ngay cả trong bối cảnh thực tế nơi dữ liệu mà người ta có quyền truy cập xảy ra của tỷ lệ 80/20? Nói cách khác, lợi ích của việc sử dụng tỷ lệ cân bằng để huấn luyện và / hoặc kiểm tra có cao hơn chi phí thực thi tỷ lệ đó (ví dụ: loại bỏ các trường hợp từ lớp đa số hoặc tạo mẫu tổng hợp mới của lớp thiểu số)?

Câu trả lời:


1

Kiểm tra bài viết này để đánh giá tốt về việc học với các bộ dữ liệu không cân bằng.

Một cách để giải quyết vấn đề là thực hiện lấy mẫu con hoặc lấy mẫu nhân tạo trong tập huấn luyện để cân bằng các bộ dữ liệu.

Tôi nghĩ sẽ tốt hơn nếu có một bộ huấn luyện cân bằng, vì nếu không thì ranh giới quyết định sẽ dành quá nhiều không gian cho lớp lớn hơn và bạn sẽ phân loại sai quá nhiều lớp nhỏ. Điều này thường là xấu. (nghĩ về phát hiện ung thư trong đó lớp nhỏ hơn là tốn kém nhất, cụ thể là có khối u).

Nếu bạn không muốn sử dụng các phương pháp lấy mẫu, bạn có thể sử dụng các phương pháp dựa trên chi phí, trong đó bạn cân nhắc tầm quan trọng của mỗi mẫu để hàm mất có đóng góp nhiều hơn từ các mẫu của lớp quan trọng nhất. Trong phát hiện ung thư, bạn sẽ cân nhắc nhiều hơn chi phí đến từ các mẫu đào tạo của lớp dương tính hte (có khối u).

Cuối cùng, hãy nhớ rằng nếu bộ kiểm tra có độ chính xác phân loại rất không cân bằng thì đó không phải là thước đo tốt về hiệu suất. Bạn sẽ tốt hơn nếu sử dụng độ chính xác / thu hồi và điểm f, dễ dàng tính toán từ ma trận nhầm lẫn. Kiểm tra bài viết này để tham khảo về các biện pháp hiệu suất phân loại cho nhiều tình huống khác nhau.

Ngoài ra một bài đọc tốt về chủ đề này là một.


0

Sửa lỗi cho tôi nếu tôi sai, nhưng tỷ lệ thực tế của các lớp trong dân số không quan trọng đối với ML về mặt phân loại. Điều quan trọng là trong việc có được dữ liệu đào tạo cho cả hai lớp bao trùm toàn bộ không gian tính năng. Vì vậy, nói chung nếu bạn có tỷ lệ phân chia 80/20 cho các lớp A / B, nhiều khả năng bạn sẽ tìm thấy một mẫu đại diện cho lớp A so với lớp B.

Do đó, đối với câu hỏi liệu có tốt hơn để có tỷ lệ 50/50 hay không, theo trực giác, tôi đoán là nó có thể không quan trọng bằng việc tập huấn lớn hơn bằng cách sử dụng tất cả dữ liệu. Tuy nhiên, đây là phần mà tôi không chắc chắn ... đó là cách các tỷ lệ không đồng đều có thể ảnh hưởng đến tỷ lệ phân loại sai, đặc biệt là trên ranh giới của sự phân tách. Đối với bộ thử nghiệm, tỷ lệ không nên có liên quan.


Ngoài ra, hãy xem chủ đề này về số liệu thống kê tràn stack.stackexchange.com/questions/63740/ trên
ashokragavendran
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.