Tôi sắp tốt nghiệp Thạc sĩ và đã học về học máy cũng như thực hiện các dự án nghiên cứu với nó. Tôi tự hỏi về các thực tiễn tốt nhất trong ngành khi thực hiện các tác vụ học máy với Bộ dữ liệu lớn (như 100 GB hoặc TB). Đánh giá cao nếu các nhà khoa học dữ liệu đồng nghiệp có thể chia sẻ kinh nghiệm của họ. Đây là câu hỏi của tôi:
- Rõ ràng, các bộ dữ liệu rất lớn mất nhiều thời gian hơn để đào tạo (có thể là ngày hoặc tuần). Nhiều lần chúng ta cần đào tạo các mô hình khác nhau (SVM, Mạng thần kinh, v.v.) để so sánh và tìm ra mô hình hiệu suất tốt hơn. Tôi nghi ngờ, trong các dự án công nghiệp, chúng tôi muốn kết quả nhanh nhất có thể nhưng tạo ra hiệu suất tốt nhất. Có bất cứ lời khuyên để giảm thời gian đào tạo và kiểm tra? Nếu bạn khuyên bạn nên đặt lại tập dữ liệu, tôi sẽ quan tâm tìm hiểu cách tốt nhất để tập hợp dữ liệu để bao gồm tất cả hoặc phần lớn các kịch bản từ tập dữ liệu.
- Chúng tôi biết rằng thực hiện xác nhận chéo là tốt hơn vì nó có thể làm giảm sự phù hợp quá mức. Tuy nhiên, xác thực chéo cũng cần có thời gian để đào tạo và mô hình được đào tạo với xác thực chéo có thể không được triển khai thẳng (nói từ kinh nghiệm sklearn của python: Tôi cần phải đào tạo lại mô hình với dữ liệu sau khi kiểm tra xác thực chéo để thực hiện). Bạn có thường thực hiện xác nhận chéo trong các dự án dữ liệu lớn của mình hoặc nhận được bằng cách phân tách kiểm tra tàu không?
Đánh giá cao các thông tin phản hồi.