Tôi có một bộ dữ liệu với 5,818,446 dòng và 51 cột, trong đó 50 trong số đó là các yếu tố dự đoán. Phản ứng của tôi là định lượng, vì vậy tôi quan tâm đến mô hình hồi quy. Tôi đang cố gắng điều chỉnh một khu rừng ngẫu nhiên với dữ liệu của mình bằng gói caret. Tuy nhiên, tôi không có đủ RAM để làm việc đó.
Tôi đã tìm kiếm giải pháp cho vấn đề của mình. Bên cạnh việc có một máy tính mạnh hơn, có vẻ như tôi có thể tận dụng việc đóng bao để giải quyết vấn đề của mình. Do đó, ý tưởng của tôi là như sau:
Tạo cả phân vùng đào tạo và kiểm tra từ tập dữ liệu gốc của tôi
Lấy mẫu bằng cách thay thế một phần nhỏ trong tập dữ liệu xe lửa của tôi thành R (giả sử là 1% trong số đó, tức là 58.185 dòng)
Phù hợp với một khu rừng ngẫu nhiên với phần dữ liệu nhỏ này
Lưu kết quả mô hình
Lặp lại các bước 2-4 1.000 lần
Kết hợp 1.000 mô hình thu được từ các bước 2-5
Tuy nhiên, rừng ngẫu nhiên sử dụng đóng gói để phù hợp với mô hình với dữ liệu và do đó tôi không chắc cách tiếp cận của mình có đúng không. Vì vậy, tôi có một số câu hỏi cho bạn:
i) Cách tiếp cận của tôi có đúng không? Ý tôi là, vì tôi không có đủ RAM trong hệ thống của mình, liệu có phù hợp với nhiều mô hình rừng ngẫu nhiên khác nhau với các khối dữ liệu khác nhau và kết hợp chúng sau không?
ii) Giả sử cách tiếp cận của tôi là chính xác, 1% dữ liệu là một quy tắc tốt cho kích thước mẫu của tôi? Ngay cả với 1% dữ liệu, tôi vẫn có .
iii) Giả sử cách tiếp cận của tôi là chính xác, có một số bản sao cho các mô hình tôi nên sử dụng không? Tôi nghĩ đến 1.000 vì lý do.
l1
sự đều đặn, thường giảm trọng lượng của các thành phần không đáng kể xuống gần như bằng 0, do đó bạn có thể xem bằng cách kiểm tra những cây nào bạn nên giữ.