Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng):
id, age, income, gender, job category, monthly spend
trong đó monthly spend
là biến trả lời. Nhưng tập dữ liệu huấn luyện chứa khoảng 3 triệu hàng và tập dữ liệu (chứa id, age, income, gender, job category
nhưng không có biến phản hồi) được dự đoán chứa 1 triệu hàng. Câu hỏi của tôi là: có vấn đề tiềm ẩn nào không nếu tôi ném quá nhiều hàng (3 triệu trong trường hợp này) vào mô hình thống kê? Tôi hiểu chi phí tính toán là một trong những mối quan tâm, còn có mối lo ngại nào khác không? Có bất kỳ cuốn sách / giấy tờ giải thích đầy đủ về vấn đề kích thước tập dữ liệu?