Độ chính xác của mô hình 100% đối với dữ liệu ngoài mẫu có quá mức không?


11

Tôi vừa hoàn thành việc học máy cho khóa R trên cognitiveclass.ai và đã bắt đầu thử nghiệm với các khu rừng ngẫu nhiên.

Tôi đã tạo một mô hình bằng cách sử dụng thư viện "RandomForest" trong R. Mô hình này phân loại theo hai lớp, tốt và xấu.

Tôi biết rằng khi một mô hình quá phù hợp, nó hoạt động tốt trên dữ liệu từ tập huấn của chính nó nhưng lại không tốt trên dữ liệu ngoài mẫu.

Để đào tạo và kiểm tra mô hình của tôi, tôi đã xáo trộn và chia bộ dữ liệu hoàn chỉnh thành 70% cho đào tạo và 30% cho thử nghiệm.

Câu hỏi của tôi: Tôi đang nhận được độ chính xác 100% trong số các dự đoán được thực hiện trên bộ thử nghiệm. Cái này có tệ không Dường như nó quá tốt để là sự thật.

Mục tiêu là nhận dạng dạng sóng trên bốn tùy thuộc vào dạng sóng. Các tính năng của bộ dữ liệu là kết quả chi phí của phân tích Dynamic Time Warping của dạng sóng với dạng sóng mục tiêu của chúng.


Chào mừng đến với trang web! Bạn đã thử dự đoán về một số dữ liệu tiếng ồn?
Toros91

Mỗi lần bạn cải tổ, huấn luyện và kiểm tra, độ chính xác là 100%?
Alex

@Alex Không chính xác nhưng nó vẫn ở mức rất cao như 98,55%
Milan van Dijck

1
@Alex 11,35% "ok" và 88,65% "xấu"
Milan van Dijck

1
Điều đó khá mất cân bằng. Hãy thử sử dụng việc lấy mẫu lại (lấy mẫu lặp lại) để đưa số dư trong tập huấn sang lớp OK (ví dụ 30%) và giữ tỷ lệ 11/89 trong các bộ kiểm tra / xác nhận. Bạn được những gì?
Alex

Câu trả lời:


29

Điểm xác nhận cao như độ chính xác thường có nghĩa là bạn không cung cấp quá nhiều, tuy nhiên điều đó sẽ dẫn đến sự thận trọng và có thể cho thấy đã xảy ra sự cố. Điều đó cũng có nghĩa là vấn đề không quá khó và mô hình của bạn thực sự hoạt động tốt. Hai điều có thể đi sai:

  • Bạn đã không phân chia dữ liệu đúng cách và dữ liệu xác nhận cũng xuất hiện trong dữ liệu đào tạo của bạn, có nghĩa là dữ liệu đó biểu thị quá mức vì bạn không đo lường tổng quát hóa nữa
  • Bạn sử dụng một số kỹ thuật tính năng để tạo các tính năng bổ sung và bạn có thể đã giới thiệu một số rò rỉ mục tiêu, trong đó các hàng của bạn đang sử dụng thông tin từ mục tiêu hiện tại, không chỉ từ các mục khác trong tập huấn luyện của bạn

11
Độ chính xác 100% luôn hét lên "rò rỉ mục tiêu".
Paul

0

Điều tra để xem các tính năng dự đoán nhất của bạn là gì. Đôi khi bạn vô tình bao gồm mục tiêu của bạn (hoặc một cái gì đó tương đương với mục tiêu của bạn) trong số các tính năng của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.