Thực hiện hồi quy trên các mẫu từ một tệp rất lớn: các phương tiện và SE của các hệ số ước lượng có phù hợp không?

8

Tôi có một tập tin khá larege 100M hàng và 30 cột hoặc hơn mà tôi muốn chạy nhiều hồi quy. Tôi có mã chuyên dụng để chạy hồi quy trên toàn bộ tệp, nhưng điều tôi muốn làm là rút các mẫu ngẫu nhiên từ tệp và chạy chúng trong R. Chiến lược là: lấy mẫu ngẫu nhiên N hàng từ tệp mà không thay thế chạy hồi quy và lưu các hệ số quan tâm lặp lại quy trình M lần này với các mẫu khác nhau cho mỗi hệ số tính toán phương tiện và sai số chuẩn của các hệ số trong các lần chạy M.

Tôi muốn giải thích giá trị trung bình được tính trên M chạy dưới dạng ước tính các giá trị của các hệ số được tính toán trên toàn bộ tập dữ liệu và các lỗi sai của phương tiện là ước tính các lỗi tiêu chuẩn của các hệ số được tính trên toàn bộ tập dữ liệu.

Các thí nghiệm cho thấy đây là một chiến lược đầy hứa hẹn, nhưng tôi không chắc về lý thuyết cơ bản. Là ước tính của tôi nhất quán hiệu quả và không thiên vị? Nếu chúng nhất quán thì chúng nên hội tụ nhanh như thế nào? Sự đánh đổi nào của M và N là tốt nhất?

Tôi sẽ rất đánh giá cao nó nếu ai đó có thể chỉ cho tôi các bài báo, sách vv với lý thuyết có liên quan.

Trân trọng và cảm ơn nhiều,

Joe Rickert

r regression large-data bootstrap

— csgillespie
nguồn

Joshep, nếu tôi hiểu câu hỏi của bạn, mục tiêu công việc của bạn sẽ là hạ thấp phân tích hồi quy đang chạy trên các mẫu ngẫu nhiên mà bạn thu được kết quả mô phỏng cho những người trong toàn bộ dữ liệu nếu giả định có thể trao đổi được. Câu hỏi của tôi là nếu ai đó biết bất kỳ tài liệu tham khảo trong đó phương pháp này đã được sử dụng.

— Manuel Ramón

5

Nếu bạn có thể giả định rằng các hàng của ma trận dữ liệu của bạn có thể trao đổi thì chiến lược mô hình hóa của bạn sẽ hoạt động tốt. Phương pháp của bạn sẽ ổn theo các điều kiện được nêu bởi Gaetan Lion trước đây.

Lý do tại sao phương thức của bạn sẽ hoạt động ( được đưa ra giả định khả năng trao đổi ) là vì nó được coi là trường hợp đặc biệt của bootstrap tham số trong đó bạn lấy lại N hàng mẫu lớn, khớp với mô hình và lưu trữ các hệ số và lặp lại M này lần (theo thuật ngữ bootstrap truyền thống, M của bạn tương đương với B ) và lấy trung bình các ước tính hệ số M. Bạn cũng có thể nhìn vào nó từ một quan điểm kiểm tra hoán vị là tốt.

Nhưng tất cả những kết quả này là đúng nếu giả định khả năng trao đổi ( khó kiểm chứng ) được giữ vững. Nếu giả định khả năng trao đổi không giữ được, câu trả lời trong trường hợp đó trở nên hơi phức tạp. Có lẽ bạn cần quan tâm đến các nhóm con trong dữ liệu của bạn có thể trao đổi và thực hiện quy trình của bạn dựa trên các nhóm con này. Về cơ bản, mô hình phân cấp.

— suncoolsu
nguồn

Xin chào suncoolsu. Vâng, tôi nghĩ rằng giả định khả năng trao đổi là rất quan trọng. Cảm ơn bạn đã chỉ ra rằng. Bạn có biết bất kỳ kết quả về tỷ lệ hội tụ?

1

Xin chào Joseph, như với hầu hết ( không nói chung ) kết quả trong thống kê cổ điển: bootstrap tham số hội tụ xung quanh tỷ lệ , trong đó là cỡ mẫu. Trong trường hợp của bạn tương ứng với , vì bạn đang lấy trung bình ước tính bootstrap củaĐiều này tương đương với tính chuẩn hóa tiệm cận (hoặc CLT ). Các giả định và chi tiết của kết quả có thể được tìm thấy trong: Hall, P. 1988. Tỷ lệ hội tụ trong các xấp xỉ Bootstrap. Biên niên sử của xác suất.

n^{\frac{1}{2}}

$n^{\frac{1}{2}}$

n

$n$

n

$n$

M

$M$

M

$M$

— suncoolsu

Phụ lục: khi tôi nói , ý tôi là lỗi sẽ về 0 với tỷ lệ .

n^{1 / 2}

$n^{1/2}$

O (n^{- 1 / 2})

$O(n^{-1/2})$

— suncoolsu

Xin chào suncoolsu. Cảm ơn bạn đã tham khảo. Tôi đánh giá rất cao nó. Tôi sẽ làm bài tập về nhà của tôi.

4

Câu trả lời cho câu hỏi ban đầu của bạn là có, bởi vì lý thuyết cổ điển áp dụng theo sơ đồ lấy mẫu của bạn. Bạn không cần bất kỳ giả định nào về ma trận dữ liệu gốc. Tất cả tính ngẫu nhiên (ngầm ẩn sau các lỗi tiêu chuẩn và tính nhất quán) xuất phát từ sơ đồ của bạn để lấy mẫu hàng từ ma trận dữ liệu. $N$

Hãy nghĩ về toàn bộ dữ liệu của bạn (100 triệu hàng) là dân số. Mỗi ước tính (giả sử mẫu kích thước là một mẫu ngẫu nhiên đơn giản của các hàng) là ước tính nhất quán của các hệ số hồi quy (giả sử, ) được tính từ toàn bộ tập dữ liệu. Hơn nữa, nó xấp xỉ Bình thường với giá trị trung bình bằng và một số hiệp phương sai. Ước tính thông thường của hiệp phương sai của ước tính cũng phù hợp. Nếu bạn lặp lại lần này và trung bình các ước tính đó, thì ước tính kết quả (giả sử, ) cũng sẽ xấp xỉ Bình thường. Bạn có thể coi những ước tính là gần như độc lập (không tương quan) miễn là $N$ $\hat{\beta}_*$ $\hat{\beta}_*$ $M$ $M$ $\hat{\beta}_{avg}$ $M$ $N$ và nhỏ so với 100M. Đó là một giả định quan trọng. Ý tưởng là lấy mẫu mà không thay thế gần giống như lấy mẫu với thay thế khi cỡ mẫu nhỏ so với kích thước quần thể. $M$

Điều đó đang được nói, tôi nghĩ rằng vấn đề của bạn thực sự là một trong những cách ước tính hiệu quả ước tính hồi quy ( ) được tính toán từ toàn bộ tập dữ liệu. Có một sự khác biệt giữa (1) ước tính trung bình dựa trên các mẫu có kích thước và (2) một ước tính dựa trên mẫu có kích thước . MSE của (2) thường sẽ nhỏ hơn MSE của (1). Chúng sẽ chỉ bằng nhau nếu ước tính là tuyến tính trong dữ liệu, nhưng đó không phải là trường hợp. Tôi giả sử bạn đang sử dụng bình phương tối thiểu. Ước lượng bình phương nhỏ nhất là tuyến tính trong vectơ (phản hồi), nhưng không phải là ma trận (hiệp phương sai). Bạn đang lấy mẫu ngẫu nhiên và . $\hat{\beta}_*$ $M$ $N$ $MN$ $Y$ $X$ $Y$ $X$

(1) và (2) đều là các sơ đồ đơn giản, nhưng không nhất thiết phải hiệu quả. (Mặc dù nó có thể không quan trọng vì bạn chỉ có 30 biến.) Có nhiều cách tốt hơn. Đây là một ví dụ: http://arxiv.org/abs/0710.1435

— vqv
nguồn

2

Mẫu N càng lớn, sai số chuẩn càng nhỏ (chỉ số t cao hơn và giá trị p tương ứng càng nhỏ) liên quan đến tất cả các hệ số hồi quy của bạn. M càng lớn, bạn càng có nhiều datapoint và nhỏ hơn sẽ là lỗi tiêu chuẩn của bạn về giá trị trung bình của các hệ số trong M chạy. Các phương tiện như vậy sẽ có một lỗi tiêu chuẩn thường được phân phối theo Định lý giới hạn trung tâm. Về mặt hội tụ của các phương tiện như vậy, tôi không chắc có bất kỳ nguyên tắc thống kê nào chỉ ra điều này. Tôi nghi ngờ nếu việc lấy mẫu ngẫu nhiên của bạn được thực hiện tốt (không có sai lệch cấu trúc, v.v ...) thì sự hội tụ sẽ diễn ra khá nhanh. Đó là điều bạn chỉ cần quan sát theo kinh nghiệm.

Mặt khác, phương pháp của bạn có vẻ tốt, tôi không thấy có vấn đề gì với nó.

— Sympa
nguồn

Xin chào Gaten, Cảm ơn bạn đã xem xét điều này. Tôi vẫn không chắc chắn rằng tôi hiểu logic. Bản beta mẫu đầy đủ. Ước tính và bản beta thực sự là gì. Mẫu.mean.beta của tôi. Ước tính beta là gì. Nó không phải là gì? Là đối số CLT mà cả beta.hat và sample.mean.beta.hat hội tụ về phía nhau?

@Joseph. Tôi không chắc chắn tôi hiểu bình luận của bạn. Chúng tôi chỉ sử dụng một cú pháp hơi khác nhau. Tôi không biết beta. Điều đó có nghĩa là gì. Quan điểm của tôi là một mẫu N lớn hơn sẽ cho bạn ý nghĩa thống kê lớn hơn (sai số chuẩn thấp hơn, chỉ số t cao hơn, giá trị p thấp hơn) trên tất cả các hệ số hồi quy trong một lần chạy. Trong khi đó, số lần lặp M lớn hơn sẽ cho bạn ý nghĩa thống kê lớn hơn đối với Giá trị trung bình của từng hệ số cụ thể trên tất cả các lần lặp. Họ là hai việc khác nhau.

— Sympa

@Joseph, sử dụng ngôn ngữ của bạn. Tôi không chắc chắn rằng đối số CLT cho thấy rằng cả beta.hat và sample.mean.beta.hat sẽ hội tụ về phía nhau. Nhưng, phân phối kết quả tương ứng của họ (được xác định bởi lỗi tiêu chuẩn của họ xung quanh giá trị trung bình) sẽ được phân phối bình thường. Tôi nghĩ rằng hai beta.hat (s) sẽ hội tụ với nhau chỉ đơn giản vì chúng sẽ trở nên mạnh mẽ hơn hoặc có ý nghĩa thống kê khi bạn sử dụng N lớn hơn và M. lớn hơn

— Sympa