Tôi vừa hoàn thành việc học máy cho khóa R trên cognitiveclass.ai và đã bắt đầu thử nghiệm với các khu rừng ngẫu nhiên.
Tôi đã tạo một mô hình bằng cách sử dụng thư viện "RandomForest" trong R. Mô hình này phân loại theo hai lớp, tốt và xấu.
Tôi biết rằng khi một mô hình quá phù hợp, nó hoạt động tốt trên dữ liệu từ tập huấn của chính nó nhưng lại không tốt trên dữ liệu ngoài mẫu.
Để đào tạo và kiểm tra mô hình của tôi, tôi đã xáo trộn và chia bộ dữ liệu hoàn chỉnh thành 70% cho đào tạo và 30% cho thử nghiệm.
Câu hỏi của tôi: Tôi đang nhận được độ chính xác 100% trong số các dự đoán được thực hiện trên bộ thử nghiệm. Cái này có tệ không Dường như nó quá tốt để là sự thật.
Mục tiêu là nhận dạng dạng sóng trên bốn tùy thuộc vào dạng sóng. Các tính năng của bộ dữ liệu là kết quả chi phí của phân tích Dynamic Time Warping của dạng sóng với dạng sóng mục tiêu của chúng.