Giả sử bạn đang phân tích một bộ dữ liệu khổng lồ theo giai điệu của hàng tỷ quan sát mỗi ngày, trong đó mỗi quan sát có một vài nghìn biến số và danh mục có thể dư thừa và có thể dư thừa. Giả sử có một vấn đề hồi quy, một vấn đề phân loại nhị phân không cân bằng và một nhiệm vụ "tìm ra yếu tố dự đoán nào là quan trọng nhất". Suy nghĩ của tôi về cách tiếp cận vấn đề là:
Điều chỉnh một số mô hình dự đoán trên các mẫu con lớn hơn và lớn hơn (ngẫu nhiên) của dữ liệu cho đến khi:
Việc lắp và xác thực chéo mô hình trở nên khó tính toán (ví dụ: chậm một cách vô lý trên máy tính xách tay của tôi, R hết bộ nhớ, v.v.), HOẶC
RMSE đào tạo và kiểm tra hoặc các giá trị chính xác / thu hồi ổn định.
Nếu các lỗi đào tạo và kiểm tra không ổn định (1.), hãy sử dụng một mô hình đơn giản hơn và / hoặc thực hiện các phiên bản đa lõi hoặc đa mã của mô hình và khởi động lại từ đầu.
Nếu lỗi đào tạo và kiểm tra ổn định (2.):
Nếu (nghĩa là tôi vẫn có thể chạy các thuật toán trên vì nó chưa quá lớn), hãy thử cải thiện hiệu suất bằng cách mở rộng không gian tính năng hoặc sử dụng mô hình phức tạp hơn và khởi động lại từ đầu.X s u b s e t
Nếu là 'lớn' và việc chạy các phân tích tiếp theo là tốn kém, hãy phân tích tầm quan trọng và kết thúc của biến.
Tôi dự định sẽ sử dụng các gói như biglm
, speedglm
, multicore
, và ff
trong R ban đầu, và sau đó sử dụng các thuật toán phức tạp hơn và / hoặc multinode (trên EC2) khi cần thiết.
Điều này nghe có vẻ là một cách tiếp cận hợp lý, và nếu vậy, bạn có lời khuyên hay đề nghị cụ thể nào không? Nếu không, bạn sẽ thử cái gì thay cho tập dữ liệu có kích thước này?