Điều gì làm cho một phân loại dữ liệu phân loại sai? [đóng cửa]


9

Nó có thể là từ chính dữ liệu? Hoặc là do mô hình không thể phát hiện hiệu quả sự tương đồng giữa các dữ liệu hoặc có lý do nào khác để phân loại sai?


13
Theo tôi, câu hỏi nếu quá mơ hồ. Có một vấn đề bạn đang phải đối mặt cụ thể?
jpmuc

1
Như đã viết, điều này có thể được đọc là "phân loại sai [bất kỳ] dữ liệu". Trong trường hợp đó, nó có thể xảy ra ngay cả khi mô hình là sự phản ánh hoàn hảo của quá trình tạo dữ liệu, miễn là DGP là ngẫu nhiên / không mang tính quyết định. Đó là, một số mức độ phân loại sai sẽ được dự kiến ​​vì sự tồn tại của tiếng ồn.
gung - Phục hồi Monica

@gung không đơn giản là quá phù hợp?
17:30

3
@theGD, bạn có thể có một bộ phân loại hoàn hảo phân loại sai một số dữ liệu, nếu quá trình này không mang tính quyết định. Nó là như vậy.
gung - Phục hồi Monica

Câu trả lời:


19

Giả sử bạn đang nói về phân loại sai trên dữ liệu đào tạo, nghĩa là khó giảm thiểu tổn thất trên tập dữ liệu đào tạo, không có vấn đề kiểm tra dữ liệu phù hợp quá mức liên quan.

Bạn đã đúng rằng, trong hầu hết các trường hợp, việc phân loại sai có thể đến từ "mô hình quá đơn giản" hoặc "dữ liệu quá ồn". Tôi muốn đưa ra hai ví dụ để minh họa thêm.

  1. Mô hình "quá đơn giản" để nắm bắt "các mẫu trong dữ liệu".

    • Ví dụ được hiển thị trong hình bên trái. Giả sử chúng ta muốn sử dụng hồi quy logistic / một dòng để tách hai lớp, nhưng hai lớp không tách rời tuyến tính.

    • Trong trường hợp này, vẫn có "các mẫu đáng chú ý trong dữ liệu" và nếu chúng ta thay đổi mô hình, chúng ta có thể trở nên tốt hơn. Ví dụ: nếu chúng ta sử dụng trình phân loại KNN, thay vì hồi quy logistic, chúng ta có thể có hiệu suất rất tốt.

  2. Dữ liệu có quá nhiều nhiễu, rất khó để thực hiện nhiệm vụ phân loại.

    • Ví dụ được hiển thị trong hình bên phải, trong đó, nếu bạn kiểm tra mã, bạn sẽ thấy hai lớp rất giống nhau (hai lớp là 2D Gaussian, giá trị trung bình cách nhau , nhưng độ lệch chuẩn cho mỗi lớp là 1,0 ) . Nó thực chất là một nhiệm vụ rất khó khăn.0,01×21

Các bộ dữ liệu mẫu, một bộ có hai hình xoắn ốc có lưới, một bộ có phân phối Gaussian chồng chéo

Lưu ý rằng hai ví dụ là tầm thường, vì chúng ta có thể hình dung dữ liệu và phân loại. Trong thế giới thực, không phải vậy, khi chúng ta có hàng triệu điểm dữ liệu và phân loại siêu phức tạp.

Mã số:

library(mlbench)
set.seed(0)
par(mfrow=c(1,2))
d=mlbench.spirals(500)
plot(d)
lg_fit=glm(d$classes~d$x[,1]+d$x[,2]-1,family=binomial())
abline(0,-lg_fit$coefficients[1]/lg_fit$coefficients[2])

d2=mlbench.2dnormals(500,r=0.01)
plot(d2)

bạn đã đề cập đến KNN, xin lưu ý rằng tôi đang nói về phân loại và không phân cụm, ý tôi là khi chúng tôi có dữ liệu đào tạo và kiểm tra. Điều khiến tôi hơi bối rối là ví dụ nếu chúng ta có hai loại dữ liệu có nghĩa là các tính năng khác nhau cho mỗi dữ liệu, điều gì làm cho trình phân loại đánh dấu sai dữ liệu thử nghiệm trong quá trình thử nghiệm? Tôi nghĩ rằng điều này dẫn tôi đến ví dụ thứ hai của bạn, điều đó có nghĩa là dữ liệu của tôi có quá nhiều nhiễu và mô hình đang gặp khó khăn vì điều đó nhưng giả sử rằng chúng tôi đã giải quyết bằng cách chọn tính năng, vẫn có thể bị nhiễu ngoài đó ngay cả sau khi chọn tính năng?
Sofia693

hoặc có thể tôi có thể nghĩ ra một lý do khác mà hai loại dữ liệu của tôi thực sự chia sẻ sự tương đồng trong các tính năng của chúng và có thể "đánh lừa" mô hình, đây có thể là một trường hợp không?
Sofia693

@ Sofia693 1. KNN KHÔNG phải là Kmeans, nó là mô hình phân loại. 2. Tôi không thực sự làm theo ý kiến ​​của bạn.
Haitao Du

Ý tôi là nếu chúng ta có hai nhóm (ví dụ 50 bệnh nhân tự kỷ và 50 đối tượng khỏe mạnh và dữ liệu được trích xuất từ ​​MRI trong đó mỗi đối tượng được biểu diễn dưới dạng vectơ đặc trưng), tôi huấn luyện một trình phân loại và sử dụng kỹ thuật Rời khỏi. Bây giờ mô hình có thể phân loại sai đối tượng thử nghiệm vì nhiễu (như bạn đã đề cập trong ví dụ secnd) nhưng chúng ta có thể sử dụng lựa chọn tính năng để giảm nhiễu phải không? Tại sao mô hình vẫn phân loại sai đối tượng thử nghiệm? vẫn có thể có tiếng ồn ngay cả sau khi lựa chọn tính năng?
Sofia693

Giả định thứ hai của tôi là hai nhóm thực sự đang chia sẻ những điểm tương đồng trong các vectơ đặc trưng của chúng, vì vậy mô hình đang thực sự vật lộn để gán đối tượng thử nghiệm cho một trong các nhóm.
Sofia693

11

Ngoài @ hxd1011 (+1).

  1. Mất cân bằng về mặt tương đối hoặc các điều khoản tuyệt đối. Trong cả hai trường hợp, chúng tôi xây dựng một đại diện không đầy đủ của lớp quan tâm. Thông thường càng về sau càng khó khắc phục. (Tham khảo ví dụ: Học từ dữ liệu mất cân bằng của He và Garcia)
  2. Tiêu chí phân loại không đúng. Chúng tôi đào tạo trình phân loại của mình bằng cách sử dụng chức năng đánh giá không phù hợp và / hoặc sử dụng các tiêu chí không phù hợp để rút ra giải pháp cuối cùng. Vấn đề rất phổ biến khi sử dụng "giải pháp đóng hộp". (Tham khảo ví dụ: Thiệt hại gây ra bởi độ chính xác phân loại và các quy tắc chấm điểm chính xác không liên tục khác của Mitchell)
  3. Không có lớp học trong thực tế. Chúng tôi ước có một cái gì đó ở đó nhưng thực sự không có gì. Thông thường chuyên môn tên miền giúp mọi người tránh xa điều này nhưng với tư cách là một người mới, đây luôn là một vấn đề. (Ví dụ tham khảo: Cuộc sống hàng ngày của chúng tôi. Sự thiên vị xuất bản có lẽ cũng là một vấn đề ở đây ...)
  4. Quá mức. Chúng tôi có một mô hình phong nha và một bộ dữ liệu phong nha nhưng chúng tôi thất bại trong việc đào tạo xây dựng một mô hình không thực tế. Thông thường, điều này liên quan đến điểm 2. (Điểm bổ sung cho phần dưới phù hợp!) (Ví dụ tham khảo: Vấn đề vượt mức của Hawkings)
  5. Khái niệm trôi dạt. Mọi thứ thay đổi và chúng tôi không đào tạo lại. Trình phân loại của chúng tôi có hiệu suất tuyệt vời trong mẫu tiếp thị "Bán hàng Giáng sinh" của chúng tôi - vâng, sử dụng mô hình này vào tháng 7 có lẽ sẽ là một nỗi đau ... (Ví dụ tham khảo: Khảo sát về khái niệm Thích ứng trôi dạt của Gama et al.)
  6. Rò rỉ dữ liệu / Tính năng ma thuật. Chúng tôi đào tạo từ thông tin sẽ không có sẵn tại thời điểm dự đoán. Thường gặp khi có chuỗi sự kiện / chuỗi thời gian như dữ liệu. (Tham khảo ví dụ: Rò rỉ trong khai thác dữ liệu: Xây dựng, phát hiện và tránh bởi Kaufman và cộng sự)

1
Tôi không hiểu điểm 3. Câu hỏi giả định một số khái niệm về "lớp" để có một bộ phân loại đang phân loại sai một số dữ liệu. Bạn có nghĩa là việc ghi nhãn không nhất quán ("lớp" được xác định kém)? Hoặc các tính năng không chứa bất kỳ thông tin nào liên quan đến nhiệm vụ phân loại?
Charles Staats

@CharlesStaats: "các tính năng không chứa bất kỳ thông tin nào liên quan đến nhiệm vụ phân loại" là sự thất bại của loại thứ hai, "tiêu chí phân loại không phù hợp".
MSalters

Bạn có nghĩ rằng các nhãn kém sẽ rơi vào 2, hoặc nó xứng đáng với mục nhập riêng biệt của nó?
Jonas

@CharlesStaats: Giả sử " một số khái niệm về lớp " không có nghĩa là nó thực sự tồn tại và / hoặc nếu nó có thể được hỗ trợ bởi dữ liệu trong tay. Đó là lý do tại sao chuyên môn về miền cực kỳ hữu ích trong những trường hợp này; nó giúp chúng ta phân biệt giữa "vấn đề thực sự" và cố gắng "điều chỉnh tiếng ồn". Có những trường hợp nhãn phản ánh một giả thuyết (ví dụ: tiềm năng phát triển bệnh do đột biến ngẫu nhiên) chứ không phải là một khái niệm có thể đo lường được (ví dụ: bệnh nhân mắc bệnh do đột biến ngẫu nhiên).
usεr11852

@Jonas: Đây là một điểm tốt; Tôi nghĩ rằng sai lầm nên là một mục riêng biệt. Nó có khả năng liên quan đến quan điểm về "dữ liệu quá ồn ào" được nêu ra bởi hxd1011.
usεr11852
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.