Khi các lớp không cân bằng trên / dưới mẫu, tối đa hóa độ chính xác có khác với giảm thiểu chi phí phân loại sai không?


14

Trước hết, tôi muốn mô tả một số bố cục phổ biến mà sách Khai thác dữ liệu sử dụng giải thích cách xử lý Dữ liệu không cân bằng . Thông thường, phần chính được đặt tên là Bộ dữ liệu không cân bằng và chúng bao gồm hai phần phụ: Phân loại nhạy cảm chi phí và Kỹ thuật lấy mẫu.

Dường như đối mặt với một vấn đề với một lớp hiếm, bạn có thể thực hiện cả phân loại và lấy mẫu nhạy cảm với chi phí. Thay vào đó, tôi nghĩ rằng người ta nên áp dụng các kỹ thuật nhạy cảm với chi phí nếu lớp hiếm cũng là mục tiêu của phân loại và việc phân loại sai một bản ghi của lớp đó là tốn kém.

Mặt khác, các kỹ thuật lấy mẫu, chẳng hạn như lấy mẫu quá mức và lấy mẫu dưới mức, rất hữu ích nếu mục tiêu của phân loại là độ chính xác tổng thể tốt, mà không tập trung vào một lớp cụ thể.

Niềm tin này xuất phát từ lý do của MetaCost , đó là một cách chung để làm cho một bộ phân loại nhạy cảm với chi phí: nếu một người muốn tạo một bộ phân loại nhạy cảm với chi phí để xử phạt một lỗi phân loại sai của lớp hiếm, anh ta nên lấy mẫu quá mức của lớp khác . Nói một cách đơn giản, trình phân loại cố gắng thích ứng với lớp khác và nó trở nên cụ thể đối với lớp hiếm.

Điều này ngược lại với việc lấy mẫu quá mức của lớp hiếm, đó là cách thường được đề xuất để giải quyết vấn đề này. Lấy mẫu quá mức của lớp hiếm hoặc dưới mẫu của lớp khác là hữu ích để cải thiện độ chính xác tổng thể.

Xin vui lòng, sẽ thật tuyệt nếu bạn xác nhận suy nghĩ của tôi.

Nói rằng, câu hỏi phổ biến đối với một bộ dữ liệu không cân bằng là:

Tôi có nên thử lấy một tập dữ liệu có số lượng hồ sơ hiếm như những hồ sơ khác không?

Câu trả lời của tôi sẽ là, trong trường hợp bạn đang tìm kiếm sự chính xác: OK. Bạn có thể thực hiện nó hoặc tìm ra các ví dụ lớp hiếm hơn hoặc xóa một số bản ghi của lớp khác.

Trong trường hợp bạn đang tập trung vào lớp hiếm, với kỹ thuật nhạy cảm với chi phí, tôi sẽ trả lời: bạn chỉ có thể tìm ra ví dụ về lớp hiếm hơn nhưng bạn không nên xóa các bản ghi của lớp khác. Trong trường hợp sau, bạn sẽ không thể để trình phân loại thích ứng với lớp khác và lỗi phân loại sai lớp hiếm có thể tăng lên.

Bạn sẽ trả lời gì?


2
"Tìm ra" hồ sơ mới cho các lớp hiếm có thể là không thể. Tôi cho rằng dữ liệu được cấu trúc theo cách này bởi vì nó đắt tiền (tin sinh học) hoặc rủi ro (vay ngân hàng) để tạo ra các sự kiện hiếm hơn.
steffen

Tất nhiên, nhưng nó là một giải pháp đề xuất phổ biến. Tuy nhiên, sự thật là nếu bạn có thể tìm ra các ví dụ lớp hiếm hơn, bạn có thể tìm ra các ví dụ khác. Bởi vì tập huấn luyện nên là một mẫu đại diện của vũ trụ kỷ lục. Vì vậy, có vẻ như tôi thực hiện việc lấy mẫu quá mức.
Simone

Câu trả lời:


9

Đó là một câu hỏi hay. Cá nhân, câu trả lời của tôi sẽ là không bao giờ có ý nghĩa để vứt bỏ dữ liệu (trừ khi đó là vì lý do tính toán), vì bạn càng có nhiều dữ liệu, mô hình thế giới của bạn càng tốt. Do đó, tôi sẽ đề nghị rằng sửa đổi hàm chi phí theo cách phù hợp cho nhiệm vụ của bạn là đủ. Ví dụ, nếu bạn quan tâm đến một lớp hiếm đặc biệt, bạn có thể khiến phân loại sai của lớp này chỉ đắt hơn; nếu bạn quan tâm đến một biện pháp cân bằng, một cái gì đó như Tỷ lệ lỗi cân bằng (trung bình của các lỗi trên mỗi lớp) hoặc Hệ số tương quan Matthews là phù hợp; nếu bạn chỉ quan tâm đến lỗi phân loại tổng thể, thì mất 0-1 truyền thống .

Một cách tiếp cận hiện đại cho vấn đề là sử dụng Active Learning. Ví dụ, Hospedales et al (2011) "Tìm các lớp hiếm: Học tích cực với các mô hình sáng tạo và phân biệt đối xử, Giao dịch của IEEE về Kỹ thuật dữ liệu và kiến ​​thức, (TKDE 2011) . Tuy nhiên, tôi tin rằng các phương pháp này vẫn chưa hoàn thiện.


Thước đo thú vị của Metthews trong trường hợp người ta cần một biện pháp cân bằng. Tuy nhiên, do chúng tôi không muốn xóa bất kỳ bản ghi nào, trước khi thực hiện bất kỳ lấy mẫu hoặc sửa đổi nào cho hàm chi phí, bạn có cân đối lại tập dữ liệu thêm các ví dụ lớp hiếm không? Tôi nghĩ rằng câu trả lời có thể là KHÔNG. Bởi vì miễn là bạn tìm ra các ví dụ lớp hiếm, bạn có thể tìm ra các ví dụ khác. Do đó, để có được số đo cân bằng tốt hơn hoặc thước đo hiệu suất lớp hiếm tốt hơn (ví dụ: F-đo), tôi sẽ thực hiện một kỹ thuật (chẳng hạn như lấy mẫu hoặc sửa đổi chi phí) chỉ sau giai đoạn thu thập dữ liệu. Bạn có đồng ý không?
Simone

Đồng ý, mọi thao tác như thế này nên được thực hiện sau giai đoạn thu thập dữ liệu.
tdc
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.