Về cơ bản, có hai cách phổ biến để học chống lại các bộ dữ liệu khổng lồ (khi bạn phải đối mặt với các hạn chế về thời gian / không gian):
- Gian lận :) - chỉ sử dụng tập hợp con "có thể quản lý" để đào tạo. Việc mất độ chính xác có thể không đáng kể do quy luật lợi nhuận giảm dần - hiệu suất dự đoán của mô hình thường bị san phẳng từ lâu trước khi tất cả dữ liệu đào tạo được đưa vào nó.
- Tính toán song song - chia vấn đề thành các phần nhỏ hơn và giải quyết từng vấn đề trên một máy / bộ xử lý riêng biệt. Bạn cần một phiên bản song song của thuật toán, nhưng tin tốt là có rất nhiều thuật toán phổ biến song song tự nhiên: hàng xóm gần nhất, cây quyết định, v.v.
Có phương pháp nào khác không? Có bất kỳ quy tắc của ngón tay cái khi sử dụng mỗi? Hạn chế của từng phương pháp là gì?