Nó có thể là từ chính dữ liệu? Hoặc là do mô hình không thể phát hiện hiệu quả sự tương đồng giữa các dữ liệu hoặc có lý do nào khác để phân loại sai?
Nó có thể là từ chính dữ liệu? Hoặc là do mô hình không thể phát hiện hiệu quả sự tương đồng giữa các dữ liệu hoặc có lý do nào khác để phân loại sai?
Câu trả lời:
Giả sử bạn đang nói về phân loại sai trên dữ liệu đào tạo, nghĩa là khó giảm thiểu tổn thất trên tập dữ liệu đào tạo, không có vấn đề kiểm tra dữ liệu phù hợp quá mức liên quan.
Bạn đã đúng rằng, trong hầu hết các trường hợp, việc phân loại sai có thể đến từ "mô hình quá đơn giản" hoặc "dữ liệu quá ồn". Tôi muốn đưa ra hai ví dụ để minh họa thêm.
Mô hình "quá đơn giản" để nắm bắt "các mẫu trong dữ liệu".
Ví dụ được hiển thị trong hình bên trái. Giả sử chúng ta muốn sử dụng hồi quy logistic / một dòng để tách hai lớp, nhưng hai lớp không tách rời tuyến tính.
Trong trường hợp này, vẫn có "các mẫu đáng chú ý trong dữ liệu" và nếu chúng ta thay đổi mô hình, chúng ta có thể trở nên tốt hơn. Ví dụ: nếu chúng ta sử dụng trình phân loại KNN, thay vì hồi quy logistic, chúng ta có thể có hiệu suất rất tốt.
Dữ liệu có quá nhiều nhiễu, rất khó để thực hiện nhiệm vụ phân loại.
Lưu ý rằng hai ví dụ là tầm thường, vì chúng ta có thể hình dung dữ liệu và phân loại. Trong thế giới thực, không phải vậy, khi chúng ta có hàng triệu điểm dữ liệu và phân loại siêu phức tạp.
Mã số:
library(mlbench)
set.seed(0)
par(mfrow=c(1,2))
d=mlbench.spirals(500)
plot(d)
lg_fit=glm(d$classes~d$x[,1]+d$x[,2]-1,family=binomial())
abline(0,-lg_fit$coefficients[1]/lg_fit$coefficients[2])
d2=mlbench.2dnormals(500,r=0.01)
plot(d2)
Ngoài @ hxd1011 (+1).