Tại sao một mô hình thống kê sẽ phù hợp hơn nếu được cung cấp một bộ dữ liệu khổng lồ?

Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng):

id, age, income, gender, job category, monthly spend

trong đó monthly spendlà biến trả lời. Nhưng tập dữ liệu huấn luyện chứa khoảng 3 triệu hàng và tập dữ liệu (chứa id, age, income, gender, job categorynhưng không có biến phản hồi) được dự đoán chứa 1 triệu hàng. Câu hỏi của tôi là: có vấn đề tiềm ẩn nào không nếu tôi ném quá nhiều hàng (3 triệu trong trường hợp này) vào mô hình thống kê? Tôi hiểu chi phí tính toán là một trong những mối quan tâm, còn có mối lo ngại nào khác không? Có bất kỳ cuốn sách / giấy tờ giải thích đầy đủ về vấn đề kích thước tập dữ liệu?

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

— người dùng2926523
nguồn

Có quá nhiều hàng không dẫn đến quá nhiều. Có quá nhiều cột không.

— Peter Flom

Bởi vì câu hỏi này được đưa ra dựa trên nhiều giả định sai - rằng mọi người không muốn sử dụng nhiều trường hợp để phân tích và hầu hết các mô hình thống kê không thể đối phó với các bộ dữ liệu lớn - có khả năng tích lũy các câu trả lời không liên quan hoặc gây nhầm lẫn. Vui lòng xem xét chỉnh sửa câu hỏi của bạn để loại bỏ những thông tin sai lệch này.

— whuber

Mặc dù vậy, bạn vẫn chưa tính đến những gì @whuber nói. Mặt bằng sai. Không phải là "hầu hết các mô hình thống kê không thể xử lý các bộ dữ liệu khổng lồ", vì vậy bạn sẽ không nhận được câu trả lời hữu ích cho câu hỏi của mình. Điều đó cũng không đúng khi bạn có thể sử dụng thông tin về tất cả mọi người trong một quốc gia tại một thời điểm nhất định (tôi đoán đây là ý nghĩa của "dân số").

— pkofod

ID là, nếu đây là một phân tích lành mạnh, không phải là một biến liên tục duy nhất. ID là một biến phân loại vì sự khác biệt giữa các cá nhân không tương ứng với việc gán số tùy ý mà họ nhận được. Điều đó có nghĩa là bạn có 1 biến cho mỗi cá nhân trong phân tích. Có khả năng hàng triệu người.

— AdamO

cảm ơn vì nhận xét, nhưng tôi vẫn bối rối tại sao tôi không thể sử dụng thông tin về tất cả mọi người ở một quốc gia tại một thời điểm nhất định (đây là một ví dụ giả định, vì vậy hãy giả sử tôi có thông tin đó)?

— dùng2926523

Câu trả lời:

Có hai loại vấn đề bạn có thể gặp phải:

1) Máy tính gặp sự cố vì bộ dữ liệu quá lớn. Những ngày này, một vài triệu hàng với 6 cột không phải là lớn. Nhưng, tùy thuộc vào chương trình của bạn, máy tính của bạn, dung lượng RAM của bạn và có thể những thứ khác, nó có thể bị hỏng.

2) Vấn đề thống kê. Ở đây, một vấn đề như bạn thảo luận sẽ có một "vấn đề" mà tôi biết: Ngay cả những hiệu ứng nhỏ cũng sẽ rất đáng kể. Đây không thực sự là một vấn đề với hồi quy, nó là một vấn đề với các giá trị p. Tốt hơn để xem kích thước hiệu ứng (tham số hồi quy).

3) Một loại vấn đề khác với mô hình của bạn không phải do số lượng hàng, mà là bản chất của biến trả lời (chi tiêu hàng tháng). Mặc dù hồi quy OLS không đưa ra bất kỳ giả định nào về phân phối phản hồi (chỉ về lỗi), tuy nhiên, các mô hình có tiền là biến phụ thuộc thường có lỗi không bình thường. Ngoài ra, nó thường có ý nghĩa, thực chất, để lấy nhật ký của phản ứng. Cho dù điều này là như vậy trong trường hợp của bạn phụ thuộc vào chính xác những gì bạn đang cố gắng làm.

— Peter Flom
nguồn

Xin chào Peter, bạn có thể vui lòng giải thích chi tiết hơn tại sao biến phản hồi (nghĩa là chi tiêu hàng tháng) nên được ghi lại không? Chúng ta có thể nhận được lợi ích gì từ việc này?

— shihpeng

1000 t o

$1000 to$

10 t o

$10 to$

Điều quan trọng là số lượng cá nhân (hàng) so với số lượng hệ số bạn cần ước tính cho mô hình bạn muốn phù hợp. Các quy tắc thông thường đề xuất khoảng 20 quan sát cho mỗi hệ số là tối thiểu, do đó bạn có thể ước tính lên tới 150.000 hệ số chắc chắn là quá đủ cho bốn dự đoán của bạn.

Trong thực tế, bạn có một cơ hội, không phải là một vấn đề, trong trường hợp này: để phù hợp với một mô hình khá phức tạp bao gồm các mối quan hệ phi tuyến tính của phản ứng với các yếu tố dự đoán và tương tác giữa các yếu tố dự đoán; có thể dự đoán đáp ứng tốt hơn nhiều so với đơn giản hơn trong đó các mối quan hệ của phản ứng với các yếu tố dự đoán được coi là tuyến tính & phụ gia.

— Scortchi - Tái lập Monica
nguồn