Làm thế nào người ta sẽ xác định một bộ phân loại có độ lệch cao hoặc phương sai cao?


7

Độ lệch và phương sai của bộ phân loại xác định mức độ mà nó có thể phù hợp và vượt quá dữ liệu tương ứng. Làm thế nào người ta có thể xác định một bộ phân loại được đặc trưng là độ lệch cao hoặc phương sai cao?

Tôi khá rõ ràng về sự đánh đổi sai lệch thiên vị và sự phân rã của nó là gì và làm thế nào nó có thể phụ thuộc vào dữ liệu đào tạo và mô hình. Chẳng hạn, nếu dữ liệu không chứa đủ thông tin liên quan đến hàm mục tiêu (chỉ đơn giản là đặt nó, thiếu mẫu), thì bộ phân loại sẽ có độ lệch cao do các giả định không chính xác có thể xảy ra. Ngược lại, nếu trình phân loại phù hợp chặt chẽ với dữ liệu đào tạo đã cho (giả sử ANN có nhiều nút chạy nhiều epoch hoặc cây quyết định có độ sâu cao), thì nó sẽ thể hiện phương sai cao vì nó không thể khái quát tốt để dự đoán không nhìn thấy mẫu.

Tuy nhiên, có những trường hợp tôi thấy các bài giảng nói về việc chọn một trình phân loại phương sai thấp sai lệch cao hoặc phân loại phương sai cao sai lệch thấp. Ví dụ, Bayes ngây thơ được coi là một phân loại phương sai thấp sai lệch cao (tôi cho rằng đó là do giả định độc lập có điều kiện). Làm thế nào để xác định điều này? Vậy làm thế nào một người sẽ đặc trưng cho SVM, ID3, Rừng ngẫu nhiên và NN? Họ thiên vị cao hay phương sai cao? k

Câu trả lời:


2

Tôi đoán bạn quan tâm đến chất lượng nội tại của một thuật toán. Đây là một câu hỏi không tầm thường và chủ đề của nghiên cứu tích cực.

Giới hạn về độ lệch và phương sai của thuật toán có thể được chứng minh thông qua khái niệm ổn định thuật toán - xem:

Bài báo arizona cho thấy bằng chứng về thuật toán K-NN và 1-NN gần như hoàn toàn không thiên vị (trang 4). Bạn sẽ phải đọc vào các bài báo khác cho các loại thuật toán khác. Lưu ý rằng không phải tất cả các thuật toán đều có bằng chứng và có nhiều dạng ổn định khác nhau với giới hạn tương ứng của chúng.

Một cách tiếp cận khác (nhưng có liên quan) là xem xét lý thuyết VC https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_theory

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.