Tôi có một tập tin khá larege 100M hàng và 30 cột hoặc hơn mà tôi muốn chạy nhiều hồi quy. Tôi có mã chuyên dụng để chạy hồi quy trên toàn bộ tệp, nhưng điều tôi muốn làm là rút các mẫu ngẫu nhiên từ tệp và chạy chúng trong R. Chiến lược là: lấy mẫu ngẫu nhiên N hàng từ tệp mà không thay thế chạy hồi quy và lưu các hệ số quan tâm lặp lại quy trình M lần này với các mẫu khác nhau cho mỗi hệ số tính toán phương tiện và sai số chuẩn của các hệ số trong các lần chạy M.
Tôi muốn giải thích giá trị trung bình được tính trên M chạy dưới dạng ước tính các giá trị của các hệ số được tính toán trên toàn bộ tập dữ liệu và các lỗi sai của phương tiện là ước tính các lỗi tiêu chuẩn của các hệ số được tính trên toàn bộ tập dữ liệu.
Các thí nghiệm cho thấy đây là một chiến lược đầy hứa hẹn, nhưng tôi không chắc về lý thuyết cơ bản. Là ước tính của tôi nhất quán hiệu quả và không thiên vị? Nếu chúng nhất quán thì chúng nên hội tụ nhanh như thế nào? Sự đánh đổi nào của M và N là tốt nhất?
Tôi sẽ rất đánh giá cao nó nếu ai đó có thể chỉ cho tôi các bài báo, sách vv với lý thuyết có liên quan.
Trân trọng và cảm ơn nhiều,
Joe Rickert