Khi nào dữ liệu không cân bằng thực sự là một vấn đề trong Machine Learning?


53

Chúng tôi đã có nhiều câu hỏi về dữ liệu không cân bằng khi sử dụng hồi quy logistic , SVM , cây quyết định , đóng gói và một số câu hỏi tương tự khác, điều gì làm cho nó trở thành một chủ đề rất phổ biến! Thật không may, mỗi câu hỏi dường như là dành riêng cho thuật toán và tôi không tìm thấy bất kỳ hướng dẫn chung nào để xử lý dữ liệu không cân bằng.

Trích dẫn một trong những câu trả lời của Marc Claesen , xử lý dữ liệu không cân bằng

(...) Phụ thuộc nhiều vào phương pháp học tập. Hầu hết các cách tiếp cận mục đích chung có một (hoặc một vài) cách để đối phó với điều này.

Nhưng khi chính xác chúng ta nên lo lắng về dữ liệu không cân bằng? Những thuật toán chủ yếu bị ảnh hưởng bởi nó và có thể đối phó với nó? Những thuật toán nào sẽ cần chúng ta để cân bằng dữ liệu? Tôi biết rằng việc thảo luận về từng thuật toán sẽ là không thể trên trang web Hỏi & Đáp như thế này, tôi muốn tìm một hướng dẫn chung về khi nào nó có thể là một vấn đề.



@MatthewDrury cảm ơn, đây là một câu hỏi thú vị, nhưng IMHO, nó có một phạm vi khác. Những gì tôi đang hỏi là hướng dẫn khi đây thực sự là một vấn đề. Chắc chắn trả lời câu hỏi tại sao dẫn đến trả lời câu hỏi khi nào , nhưng tôi đang tìm câu trả lời chính xác cho câu hỏi khi nào .
Tim

9
Đủ công bằng! Tôi với bạn "Tài liệu" về điều này dường như là tất cả về cách khắc phục vấn đề, mà không bận tâm thuyết phục bạn rằng trên thực tế có một vấn đề cần giải quyết, hoặc thậm chí cho bạn biết trong tình huống nào xảy ra sự cố hay không. Một trong những phần khó chịu nhất của chủ đề đối với tôi.
Matthew Drury

2
@MatthewDrury chính xác là vấn đề!
Tim

1
Một khảo sát tổng thể về các phương pháp không nằm trong phạm vi của câu hỏi SE. Bạn có muốn tinh chỉnh câu hỏi?
AdamO

Câu trả lời:


29

Không phải là một câu trả lời trực tiếp, nhưng đáng chú ý là trong tài liệu thống kê, một số định kiến ​​chống lại dữ liệu không cân bằng có nguồn gốc lịch sử.

Nhiều mô hình cổ điển đơn giản hóa gọn gàng theo giả định dữ liệu cân bằng, đặc biệt đối với các phương pháp như ANOVA có liên quan chặt chẽ với thiết kế thử nghiệm. Động lực truyền thống / ban đầu để phát triển các phương pháp thống kê.

Nhưng số học thống kê / xác suất trở nên khá xấu xí, khá nhanh chóng, với dữ liệu không cân bằng. Trước khi áp dụng rộng rãi các máy tính, các tính toán thủ công đã được mở rộng đến mức việc ước tính các mô hình trên dữ liệu không cân bằng trên thực tế là không thể.

Tất nhiên, về cơ bản, máy tính đã không phải là vấn đề. Tương tự như vậy, chúng ta có thể ước tính các mô hình trên các bộ dữ liệu lớn, giải quyết các vấn đề tối ưu hóa chiều cao và rút ra các mẫu từ các phân phối xác suất khớp có thể phân tích, tất cả đều không thể thực hiện được như năm mươi năm trước.

Đó là một vấn đề cũ, và các học giả đã mất rất nhiều thời gian để giải quyết vấn đề này ... trong khi đó, nhiều vấn đề được áp dụng vượt trội so với nghiên cứu đó, nhưng thói quen cũ chết cứng ...

Chỉnh sửa để thêm:

Tôi nhận ra rằng tôi đã không ra ngoài và chỉ nói rằng: không có vấn đề gì ở mức độ thấp khi sử dụng dữ liệu không cân bằng. Theo kinh nghiệm của tôi, lời khuyên để "tránh dữ liệu không cân bằng" là thuật toán cụ thể hoặc trí tuệ được kế thừa. Tôi đồng ý với AdamO rằng nói chung, dữ liệu không cân bằng đặt ra không có vấn đề khái niệm nào đối với một mô hình được chỉ định rõ.


4
Trong khi tôi dường như có được quan điểm của bạn, cơ sở của bạn thiếu lập luận ủng hộ họ. Bạn có thể đưa ra một số lập luận và / hoặc ví dụ về định kiến ​​và về cách thức nếu ảnh hưởng đến học máy?
Tim

1
Trong khi những gì bạn nói là hầu hết là đúng, nó cũng là trường hợp mà các phương pháp như ANOVA là mạnh mẽ hơn với dữ liệu cân bằng, nonnormality là ít hơn của một vấn đề với dữ liệu cân, ví dụ. Nhưng tôi tin rằng tất cả những điều này là trực giao với mục đích của câu hỏi này ...
kjetil b halvorsen

7
Tôi nhận ra tôi đã không đi ra và chỉ nói nó: có không phải là một vấn đề ở mức độ thấp với việc sử dụng dữ liệu không cân bằng. Theo kinh nghiệm của tôi, lời khuyên để "tránh dữ liệu không cân bằng" là thuật toán cụ thể hoặc trí tuệ được kế thừa. Tôi đồng ý với AdamO rằng nói chung, dữ liệu không cân bằng đặt ra không có vấn đề khái niệm nào đối với một mô hình được chỉ định rõ.
Henry

1
@ M.HenryL. bình luận này là giá trị thêm vào câu trả lời của bạn cho đầy đủ.
Tim

16

WLOG bạn có thể tập trung vào sự mất cân bằng trong một yếu tố duy nhất, thay vì một khái niệm sắc thái hơn về "độ thưa dữ liệu", hoặc số lượng tế bào nhỏ.

Trong các phân tích thống kê không tập trung vào việc học, chúng ta thường thấy rằng sức mạnh tương tự hoặc tốt hơn được cung cấp khi sử dụng điểm số xu hướng để phù hợp với nhóm nhỏ hơn với nhóm lớn hơn. Điều này một phần là do kết hợp phục vụ một mục đích tương tự như điều chỉnh gây nhiễu về mặt "cân bằng" các yếu tố quyết định thành viên nhóm, do đó ngăn chặn các tác động gây nhiễu của chúng. Lý do cho số lượng các yếu tố gây nhiễu có thể điều chỉnh trong phân tích đa biến phụ thuộc vào kích thước mẫu. Một số quy tắc nói rằng cứ sau 10 đến 20 lần quan sát thì có một biến. Trong dữ liệu mất cân bằng, bạn ngây thơ tin rằng dữ liệu của bạn đủ lớn, nhưng với số lượng người thưa thớt có điều kiện hiếm hơn: lạm phát phương sai làm giảm đáng kể sức mạnh. Trong thực tế, bạn đang điều chỉnh quá mức.

Do đó, ít nhất là trong hồi quy (nhưng tôi nghi ngờ trong mọi trường hợp), vấn đề duy nhất với dữ liệu mất cân bằng là bạn thực sự có cỡ mẫu nhỏ . Nếu bất kỳ phương pháp nào phù hợp với số lượng người trong lớp hiếm hơn, sẽ không có vấn đề gì nếu tỷ lệ thành viên của họ bị mất cân bằng.


13

Dữ liệu không cân bằng chỉ là một vấn đề tùy thuộc vào ứng dụng của bạn. Ví dụ, nếu dữ liệu của bạn chỉ ra rằng A xảy ra 99,99% thời gian và 0,01% thời gian B xảy ra và bạn cố gắng dự đoán một kết quả nhất định thì thuật toán của bạn có thể sẽ luôn luôn nói A. Điều này tất nhiên là đúng! Phương pháp của bạn không thể có được độ chính xác dự đoán tốt hơn 99,99%. Tuy nhiên, trong nhiều ứng dụng, chúng tôi không quan tâm đến tính chính xác của dự đoán mà còn tại sao đôi khi B xảy ra. Đây là nơi dữ liệu không cân bằng trở thành một vấn đề. Bởi vì thật khó để thuyết phục phương pháp của bạn rằng nó có thể dự đoán chính xác hơn 99,99%. Phương pháp này đúng nhưng không phải cho câu hỏi của bạn. Vì vậy, việc giải quyết dữ liệu không cân bằng về cơ bản là cố ý thiên vị dữ liệu của bạn để có được kết quả thú vị thay vì kết quả chính xác.

Nói chung có ba trường hợp:

  1. bạn hoàn toàn quan tâm đến dự đoán chính xác và bạn nghĩ rằng dữ liệu của bạn là phản cảm. Trong trường hợp này bạn hoàn toàn không phải sửa, hãy đắm chìm trong vinh quang của những dự đoán chính xác 99,99% của bạn :).

  2. Bạn quan tâm đến dự đoán nhưng dữ liệu của bạn là từ một mẫu công bằng nhưng bằng cách nào đó bạn đã mất một số quan sát. Nếu bạn mất quan sát theo cách hoàn toàn ngẫu nhiên, bạn vẫn ổn. Nếu bạn mất chúng theo cách thiên vị nhưng bạn không biết thiên vị như thế nào, bạn sẽ cần dữ liệu mới. Tuy nhiên, nếu những quan sát này chỉ bị mất trên cơ sở của một đặc quyền. (ví dụ: bạn đã sắp xếp kết quả theo A và B nhưng không phải bằng bất kỳ cách nào khác mà mất một nửa B) Ypu có thể khởi động lại dữ liệu của bạn.

  3. Bạn không quan tâm đến dự đoán toàn cầu chính xác, nhưng chỉ trong một trường hợp hiếm hoi. Trong trường hợp này, bạn có thể thổi phồng dữ liệu của trường hợp đó bằng cách khởi động lại dữ liệu hoặc nếu bạn có đủ dữ liệu ném dữ liệu theo cách của các trường hợp khác. Lưu ý rằng điều này không thiên vị dữ liệu và kết quả của bạn và vì vậy cơ hội và loại kết quả đó là sai!

Nói chung, nó chủ yếu phụ thuộc vào mục tiêu là gì. Một số mục tiêu bị mất dữ liệu không cân bằng. Tất cả các phương pháp dự đoán chung đều phải chịu đựng điều đó bởi vì nếu không chúng sẽ cho kết quả khủng khiếp nói chung.


7
Làm thế nào để câu chuyện này thay đổi khi chúng ta đánh giá các mô hình của mình một cách xác suất?
Matthew Drury

@MatthewDrury Các xác suất từ ​​mô hình ban đầu hầu hết đều đúng cho các trường hợp 1 và 3. Vấn đề là chỉ với các bộ dữ liệu rất lớn B mới có thể tách rời khỏi A và xác suất của B từ từ hội tụ đến giá trị thực của nó. Một ngoại lệ là nếu B tách biệt rất rõ ràng với A hoặc tách biệt hoàn toàn khỏi A, thì các xác suất sẽ tương ứng gần như ngay lập tức hoặc không bao giờ hội tụ.
zen

@zen Tôi không đồng ý rằng hồi quy logistic ít bị tổn thương hơn. Hồi quy logistic khá dễ bị mất cân bằng dữ liệu, nó tạo ra sai lệch mẫu nhỏ và tỷ lệ chênh lệch log có xu hướng theo hệ số 2. Hồi quy logistic có điều kiện là một cách thay thế để ước tính các OR tương tự mà không sai lệch.
AdamO

@AdamO Có hồi quy logistic vẫn dễ bị tổn thương. Nhưng đối với cây, trường hợp nhỏ có thể được bỏ qua hoàn toàn. nó không chỉ là cỡ mẫu nhỏ ngay cả đối với n lớn và ví dụ phân phối 80% -20% giữa các cây tùy chọn vẫn có thể chọn tùy chọn 80% ngay cả khi tỷ lệ của tùy chọn 20% tăng rõ ràng với một số biến x. Nếu một quan sát cực đoan mới được tìm thấy hoặc nếu số lượng nhánh thấp ở bất kỳ điểm cực trị nào, cây sẽ dự đoán tùy chọn 80% trong khi hồi quy logistic sẽ ít có khả năng làm điều đó. Bạn đã đúng về hồi quy hậu cần có điều kiện
zen

2
@MatthewDrury Stephen Senn có một cuộc thảo luận tuyệt vời về điểm này trong một bài báo tôi đọc lại thường xuyên . Theo kinh nghiệm, tỷ lệ chênh lệch từ bảng 2x2 với các mục abcd được ước tính bởi quảng cáo / (bc) và có phương sai 1 / a + 1 / b + 1 / c + 1 / d. Bạn có thể lấy mẫu tùy ý một vài trường hợp (a và c) và tỷ lệ chênh lệch vẫn không thiên vị, nhưng phương sai đi đến vô cùng. Đây là một vấn đề chính xác.
AdamO

8

Giả sử chúng ta có hai lớp:

  • A , chiếm 99,99% dân số
  • B , chiếm 0,01% dân số

Giả sử chúng ta quan tâm đến việc xác định các yếu tố loại B, có thể là các cá nhân bị ảnh hưởng bởi một căn bệnh hiếm gặp hoặc kẻ lừa đảo.

Chỉ bằng cách đoán Một người học sẽ đạt điểm cao về các hàm mất mát của họ và rất ít các yếu tố được phân loại không chính xác có thể không di chuyển, bằng số, kim (trong một đống cỏ khô, trong trường hợp này). Ví dụ này mang lại trực giác đằng sau một trong những "thủ thuật" để giảm thiểu vấn đề mất cân bằng lớp: điều chỉnh hàm chi phí.

Tôi cảm thấy rằng dữ liệu không cân bằng là một vấn đề khi các mô hình cho thấy độ nhạy gần như bằng không và độ đặc hiệu gần một. Xem ví dụ trong bài viết này trong phần "bỏ qua vấn đề" .

Vấn đề thường có một giải pháp. Bên cạnh thủ thuật nói trên, còn có các lựa chọn khác . Tuy nhiên, chúng có giá: sự gia tăng về độ phức tạp của mô hình và tính toán.

Câu hỏi hỏi mô hình nào có nhiều khả năng giải quyết về độ nhạy gần như bằng không và độ đặc hiệu gần một. Tôi cảm thấy rằng nó phụ thuộc vào một vài chiều:

  • Công suất ít hơn, như thường lệ.
  • Một số hàm chi phí có thể gặp khó khăn hơn các hàm khác: lỗi bình phương (MSE) ít bị phơi bày hơn Huber - MSE sẽ ít lành tính hơn đối với các phần tử lớp B được phân loại không chính xác .

1
Điều này giả định ngầm định (1) rằng KPI mà chúng tôi cố gắng tối đa hóa là độ chính xác và (2) độ chính xác đó là KPI thích hợp để đánh giá mô hình phân loại. Không phải vậy.
S. Kolassa - Tái lập Monica

5

Nếu bạn nghĩ về nó: Trên một tập dữ liệu mất cân bằng cao hoàn toàn tách biệt, hầu như mọi thuật toán sẽ thực hiện mà không có lỗi.

Do đó, vấn đề nhiễu dữ liệu nhiều hơn và ít bị ràng buộc với một thuật toán cụ thể. Và bạn không biết trước thuật toán nào bù cho một loại nhiễu cụ thể nhất.

Cuối cùng, bạn chỉ cần thử các phương pháp khác nhau và quyết định bằng cách xác nhận chéo.


Tôi cảm thấy nhận xét này là một chút đánh giá thấp. Tôi chỉ dành một chút thời gian để thuyết phục ai đó rằng sự mất cân bằng trong lớp học không phải lúc nào cũng là vấn đề.
RDK

Điều này không trả lời câu hỏi. Làm thế nào các lớp không cân bằng "thêm một vấn đề về tiếng ồn trong dữ liệu"?
S. Kolassa - Tái lập Monica

2
@StephanKolassa Đó là một câu trả lời, bởi vì nó nói rằng dữ liệu không cân bằng không phải là (trực tiếp) một vấn đề. Do đó bạn không thể hỏi "nó" như thế nào. Đối với câu hỏi chung hơn "làm thế nào để xử lý các vấn đề nhiễu trong phân tích dữ liệu", câu trả lời là, nó dành riêng cho các tập dữ liệu riêng lẻ và tất cả những gì bạn có thể làm là thiết lập xác thực và thử bất cứ điều gì hoạt động. Nếu bạn thực sự muốn một số cuộc thảo luận, tôi tin rằng ele.uri.edu/facemony/he/PDFfiles/Imbal cânLearning.pdf có ý tưởng. Nhưng cuối cùng, bạn sẽ thực hiện lấy mẫu / xem lại / ngưỡng và không đáng để biết chính xác điều gì đã xảy ra trong bộ dữ liệu này.
Gerenuk
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.