Lý luận trực quan đã được giải thích trong blogpost:
Nếu mục tiêu của chúng tôi là Dự đoán, điều này sẽ gây ra sai lệch nhất định. Và tệ hơn, nó sẽ là một thiên vị vĩnh viễn, theo nghĩa là chúng ta sẽ không có ước tính phù hợp khi kích thước mẫu tăng lên.
Vì vậy, có thể cho rằng vấn đề về dữ liệu cân bằng (giả tạo) còn tồi tệ hơn trường hợp không cân bằng.
Dữ liệu cân bằng là tốt để phân loại, nhưng rõ ràng bạn mất thông tin về tần số xuất hiện, điều này sẽ ảnh hưởng đến chính số liệu chính xác, cũng như hiệu suất sản xuất.
Giả sử bạn đang nhận ra các chữ viết tay từ bảng chữ cái tiếng Anh (26 chữ cái). Cân bằng mỗi lần xuất hiện chữ cái sẽ cho mỗi chữ cái xác suất được phân loại (chính xác hoặc không) khoảng 1/26, vì vậy phân loại sẽ quên phân phối thực tế của các chữ cái trong mẫu ban đầu. Và nó ổn khi phân loại có thể khái quát hóa và nhận ra mọi chữ cái với độ chính xác cao .
Nhưng nếu độ chính xác và quan trọng nhất là khái quát hóa không "cao" (tôi không thể đưa ra một định nghĩa - bạn có thể nghĩ nó giống như một "trường hợp xấu nhất") - các điểm được phân loại sai rất có thể sẽ phân phối đều giữa các chữ cái , cái gì đó như:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Trái ngược với việc không cân bằng (giả sử rằng "A" và "C" có xác suất xuất hiện cao hơn nhiều trong văn bản)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Vì vậy, các trường hợp thường xuyên sẽ nhận được ít phân loại sai. Cho dù nó tốt hay không phụ thuộc vào nhiệm vụ của bạn. Đối với nhận dạng văn bản tự nhiên, người ta có thể lập luận rằng các chữ cái có tần số cao hơn là khả thi hơn, vì chúng sẽ bảo tồn ngữ nghĩa của văn bản gốc, đưa nhiệm vụ nhận dạng đến gần hơn với dự đoán (trong đó ngữ nghĩa đại diện cho xu hướng ). Nhưng nếu bạn đang cố gắng nhận ra thứ gì đó như ảnh chụp màn hình của khóa ECDSA (entropy nhiều hơn -> ít dự đoán hơn) - giữ cho dữ liệu không cân bằng sẽ không giúp ích. Vì vậy, một lần nữa, nó phụ thuộc.
Điểm khác biệt quan trọng nhất là bản thân ước tính độ chính xác bị sai lệch (như bạn có thể thấy trong ví dụ bảng chữ cái cân bằng), vì vậy bạn không biết hành vi của mô hình bị ảnh hưởng bởi hầu hết các điểm hiếm gặp hoặc thường xuyên nhất.
PS Bạn luôn có thể theo dõi hiệu suất của phân loại không cân bằng với số liệu Chính xác / Thu hồi trước và quyết định xem bạn có cần thêm cân bằng hay không.
EDIT : Có thêm sự nhầm lẫn nằm trong lý thuyết ước tính chính xác về sự khác biệt giữa trung bình mẫu và trung bình dân số. Chẳng hạn, bạn có thể biết (có thể) phân phối thực tế các chữ cái tiếng Anh trong bảng chữ cái , nhưng mẫu của bạn (tập huấn luyện) không đủ lớn để ước tính chính xác (với ). Vì vậy, để bù cho , đôi khi chúng tôi khuyên bạn nên cân bằng lại các lớp theo chính dân số hoặc tham số được biết từ một mẫu lớn hơnp ( xtôi| θ)p ( xtôi| θ^)θ^tôi- θtôi(do đó ước tính tốt hơn). Tuy nhiên, trong thực tế, không có gì đảm bảo rằng "mẫu lớn hơn" được phân phối chính xác do rủi ro nhận được dữ liệu sai lệch trên mỗi bước (giả sử các chữ cái tiếng Anh được thu thập từ tài liệu kỹ thuật so với tiểu thuyết so với toàn bộ thư viện) vì vậy việc cân bằng vẫn có thể gây hại.
Câu trả lời này cũng cần làm rõ các tiêu chí áp dụng để cân bằng:
Vấn đề mất cân bằng lớp là do không có đủ các mẫu thuộc về nhóm thiểu số, không phải do tỷ lệ của các mẫu tích cực và tiêu cực trên mỗi se. Nói chung nếu bạn có đủ dữ liệu, "vấn đề mất cân bằng lớp" sẽ không phát sinh
Kết luận, cân bằng nhân tạo hiếm khi hữu ích nếu tập huấn luyện đủ lớn. Sự vắng mặt của dữ liệu thống kê từ một mẫu phân phối giống hệt lớn hơn cũng cho thấy không cần phải cân bằng nhân tạo (đặc biệt là dự đoán), nếu không, chất lượng của công cụ ước tính cũng tốt như "xác suất gặp khủng long":
Xác suất để gặp một con khủng long ngoài đường là gì?
1/2 bạn gặp một con khủng long hoặc bạn không gặp một con khủng long