Khi nào chúng ta nên coi một tập dữ liệu là mất cân bằng?


10

Tôi đang đối mặt với một tình huống mà số lượng các ví dụ tích cực và tiêu cực trong một tập dữ liệu bị mất cân bằng.

Câu hỏi của tôi là, có bất kỳ quy tắc ngón tay cái nào cho chúng ta biết khi nào chúng ta nên lấy mẫu lớn để buộc một số loại cân bằng trong tập dữ liệu.

Ví dụ:

  • Nếu số lượng ví dụ tích cực là 1.000 và số lượng ví dụ tiêu cực là 10.000, tôi có nên đi đào tạo trình phân loại của mình trên bộ dữ liệu đầy đủ hay tôi nên lấy mẫu các ví dụ tiêu cực?
  • Câu hỏi tương tự cho 1.000 ví dụ tích cực và 100.000 tiêu cực.
  • Câu hỏi tương tự cho 10.000 tích cực và 1.000 tiêu cực.
  • Vân vân...

Không có bất cứ điều gì sai với các bộ dữ liệu không phân chia hoàn toàn giữa chừng. Bạn đang sử dụng kỹ thuật mô hình nào? Nếu kỹ thuật dựa trên dữ liệu "cân bằng", bạn có thể đang sử dụng sai kỹ thuật.
D3C34C34D

1
Nina Zumel xem xét các tác động của việc cân bằng trên các công cụ ước tính khác nhau ở đây , điều này cũng có thể giúp những người khác. Cô nhìn vào rừng ngẫu nhiên, SVM và ước tính logit.
CFM

Câu trả lời:


9

Tôi nghĩ rằng việc lấy mẫu con (downsampling) là một phương pháp phổ biến để kiểm soát sự mất cân bằng của lớp ở mức cơ sở, có nghĩa là nó khắc phục được gốc rễ của vấn đề. Vì vậy, đối với tất cả các ví dụ của bạn, chọn ngẫu nhiên 1.000 phần lớn của lớp mỗi lần sẽ hoạt động. Bạn thậm chí có thể chơi xung quanh với việc tạo ra 10 mô hình (gấp 10 lần so với 1.000 đa số) vì vậy bạn sẽ sử dụng toàn bộ tập dữ liệu của mình. Bạn có thể sử dụng phương pháp này, nhưng một lần nữa, bạn lại loại bỏ 9.000 mẫu trừ khi bạn thử một số phương pháp tập hợp. Dễ dàng sửa chữa, nhưng khó khăn để có được một mô hình tối ưu dựa trên dữ liệu của bạn.

Mức độ mà bạn cần kiểm soát đối với sự mất cân bằng lớp học chủ yếu dựa trên mục tiêu của bạn. Nếu bạn quan tâm đến phân loại thuần túy, thì sự mất cân bằng sẽ ảnh hưởng đến xác suất bị cắt giảm 50% đối với hầu hết các kỹ thuật, vì vậy tôi sẽ xem xét việc lấy mẫu xuống. Nếu bạn chỉ quan tâm đến thứ tự phân loại (muốn tích cực thường cao hơn âm) và sử dụng một biện pháp như AUC, sự mất cân bằng lớp sẽ chỉ làm sai lệch xác suất của bạn, nhưng thứ tự tương đối sẽ ổn định cho hầu hết các kỹ thuật.

Hồi quy logistic là tốt cho sự mất cân bằng lớp vì miễn là bạn có> 500 nhóm thiểu số, các ước tính của các tham số sẽ đủ chính xác và tác động duy nhất sẽ là đánh chặn, có thể được sửa nếu đó là điều bạn có thể muốn Hồi quy logistic mô hình xác suất thay vì chỉ các lớp, vì vậy bạn có thể thực hiện nhiều điều chỉnh thủ công hơn cho phù hợp với nhu cầu của mình.

Rất nhiều kỹ thuật phân loại cũng có một đối số trọng số lớp sẽ giúp bạn tập trung vào lớp thiểu số nhiều hơn. Nó sẽ phạt một phân loại bỏ lỡ của một nhóm thiểu số thực sự, do đó, sự thiếu sót chung của bạn sẽ bị ảnh hưởng đôi chút nhưng bạn sẽ bắt đầu thấy nhiều lớp thiểu số được phân loại chính xác.


Bạn có thể mở rộng hướng dẫn của bạn về "miễn là bạn có> 500 người thuộc nhóm thiểu số" không? Bạn lấy số 500 này ở đâu? Có dựa trên kinh nghiệm của bạn? Tôi đã mong đợi một tỷ lệ phần trăm từ câu trả lời của bạn.
Jas

2

Mất cân bằng không được xác định chính thức nhưng tỷ lệ từ 1 đến 10 thường mất cân bằng đủ để hưởng lợi từ việc sử dụng kỹ thuật cân bằng.

Có hai loại mất cân đối, tương đối và tuyệt đối. Trong tương đối, tỷ lệ giữa các nhóm đa số và thiểu số là mất cân bằng. Trong tuyệt đối bạn cũng có một số lượng nhỏ mẫu thiểu số. Tỷ lệ mất cân bằng càng cao, bạn càng có nhiều khả năng đạt đến sự mất cân bằng tuyệt đối.

Xin lưu ý rằng việc lấy mẫu thẳng về phía trước không phải là một cách tối ưu để đối phó với dữ liệu không cân bằng. Đó là bởi vì bạn nên xây dựng một trình phân loại sẽ hoạt động tốt trên tập dữ liệu gốc của bạn. Đối với một kỹ thuật để xây dựng phân loại trên các bộ dữ liệu mất cân bằng xem tại đây . Để đánh giá phân loại của bạn xem ở đây .


2

Vấn đề mất cân bằng dữ liệu ?? Về lý thuyết, nó chỉ là về con số. Ngay cả khi sự khác biệt là 1 mẫu thì đó là sự mất cân bằng dữ liệu

Trong thực tế, nói rằng đây là một vấn đề mất cân bằng dữ liệu được kiểm soát bởi ba điều: 1. Số lượng và phân phối Mẫu bạn có 2. Sự khác biệt trong cùng một lớp 3. Sự giống nhau giữa các lớp khác nhau

Hai điểm cuối thay đổi cách chúng tôi xem xét vấn đề của chúng tôi.

Để giải thích điều này, tôi xin đưa ra một ví dụ: Lớp A = 100 mẫu Lớp B = 10 000

Nếu sự thay đổi trong lớp B rất thấp thì lấy mẫu xuống là đủ, không có vấn đề mất cân bằng dữ liệu

Nếu sự thay đổi rất cao trong lớp b, thì việc lấy mẫu xuống có thể dẫn đến mất thông tin Và thật nguy hiểm khi áp dụng lấy mẫu xuống

Một điểm khác, có rất nhiều mẫu (chủ yếu dành cho lớp thiểu số) sẽ giúp giảm bớt vấn đề mất cân bằng dữ liệu và giúp giải quyết dễ dàng hơn

Ví dụ 10: 100. Vs. 1000: 10 000

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.