Có thể sử dụng độ tin cậy nhãn đào tạo để cải thiện độ chính xác dự đoán?


9

Tôi có dữ liệu đào tạo được dán nhãn với các giá trị nhị phân. Tôi cũng đã thu thập được độ tin cậy của mỗi nhãn này, tức là độ tin cậy 0,8 có nghĩa là 80% người lao động của con người đồng ý với nhãn đó.

Có thể sử dụng dữ liệu độ tin cậy này để cải thiện độ chính xác của trình phân loại của tôi không?

Làm việc sau đây?

  • 1a) Nếu nhãn là 0 và dữ liệu độ tin cậy cho nhãn đó là 0,8 thì cung cấp cho dữ liệu đào tạo một nhãn mới là 0,2

  • 1b) Nếu nhãn là 1 và dữ liệu độ tin cậy cho nhãn đó là 0,8 thì cung cấp cho dữ liệu đào tạo một nhãn mới là 0,8

  • 2) Tính nhãn mới bằng phương pháp này cho mọi mục trong tập huấn luyện

  • 3) Xử lý vấn đề như một vấn đề hồi quy (trong đó các nhãn nằm trong khoảng từ 0 đến 1)

  • 4) Phân loại dữ liệu không ghi nhãn dựa trên việc các nhãn mới ở trên hoặc dưới một giá trị cụ thể. tức là Cho tất cả các nhãn dự đoán loại 0 nếu dưới X và loại 1 nếu trên X.

Tôi hiện đang sử dụng một SVM với hạt nhân RBF cho mô hình của mình.

Cảm ơn trước!



Vì vậy, bây giờ bạn đang sử dụng nhãn nhị phân? Tôi không biết tại sao nó không hoạt động. Kiểm tra nó Chia dữ liệu của bạn thành một bài kiểm tra đào tạo và kiểm tra xác nhận và xem bạn có tăng dự đoán của mình không.
el Josso

Câu trả lời:


4

Có, có thể sử dụng dữ liệu độ tin cậy này. Tuy nhiên, tôi sẽ không đề xuất cách tiếp cận mà bạn đề cập. Thay vào đó, hãy để tôi đề xuất một cách tiếp cận khác. Trên thực tế, tôi sẽ đề nghị hai. Cái đầu tiên là sạch sẽ về mặt khái niệm; thứ hai có lẽ dễ thực hiện hơn; và họ có thể sẽ tương đương trong thực tế.

Điều chỉnh chức năng mất

Bạn có thể điều chỉnh chức năng mất để phản ánh điểm tin cậy bạn có trên dữ liệu đào tạo.

(p0,p1)p0p1x(1,0)(0,1)

0.8x(0.8,0.2)(0.8,0.2)x

Bây giờ bạn có thể đào tạo một trình phân loại bằng cách giảm thiểu chức năng mất điều chỉnh này và điều đó sẽ trực tiếp kết hợp tất cả các thông tin trong điểm tin cậy của bạn.

Sử dụng trọng lượng

Ngoài ra, bạn có thể sử dụng quyền số để phản ánh thông tin về độ tin cậy.

Một số phân loại cho phép bạn chỉ định trọng số cho từng trường hợp trong tập huấn luyện. Ý tưởng là một sự hiểu sai cho một trường hợp cụ thể bị phạt tương xứng với trọng lượng của nó, vì vậy những trường hợp có trọng lượng cao là quan trọng hơn để có được đúng và những trường hợp có trọng lượng thấp thì ít quan trọng hơn. Hoặc, tương tự, quy trình đào tạo cố gắng hơn để tránh lỗi trong các trường hợp có trọng lượng cao.

x0.8(x,0)0.8x(x,1)0.2x

Đối với các phân loại hỗ trợ trọng lượng, điều này sẽ dễ thực hiện.

Người ta cũng có thể chỉ ra rằng nó hiệu quả và hợp lý. Chẳng hạn, khi sử dụng tổn thất entropy chéo để huấn luyện bộ phân loại, phương pháp này sử dụng quyền số tương đương với việc điều chỉnh chức năng mất như đã nêu ở trên. Vì vậy, trong bối cảnh cụ thể đó, hai cách tiếp cận thực sự tương đương nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.