Tôi đã làm việc về máy học và tin sinh học trong một thời gian, và hôm nay tôi đã có một cuộc trò chuyện với một đồng nghiệp về các vấn đề chung chính của khai thác dữ liệu.
Đồng nghiệp của tôi (là một chuyên gia về máy học) cho biết, theo ý kiến của anh ấy, khía cạnh thực tế quan trọng nhất của việc học máy là làm thế nào để hiểu liệu bạn đã thu thập đủ dữ liệu để đào tạo mô hình học máy của mình hay chưa .
Câu nói này làm tôi ngạc nhiên, vì tôi chưa bao giờ coi trọng khía cạnh này ...
Sau đó tôi đã tìm kiếm thêm thông tin trên internet và tôi thấy bài đăng này trên báo cáo FastML.com là quy tắc ngón tay cái mà bạn cần gấp 10 lần số lượng dữ liệu như có các tính năng .
Hai câu hỏi:
1 - Vấn đề này có thực sự đặc biệt liên quan đến học máy không?
2 - Quy tắc 10 lần có hoạt động không? Có bất kỳ nguồn liên quan khác cho chủ đề này?