Tại sao một mô hình thống kê sẽ phù hợp hơn nếu được cung cấp một bộ dữ liệu khổng lồ?


8

Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng):

id, age, income, gender, job category, monthly spend

trong đó monthly spendlà biến trả lời. Nhưng tập dữ liệu huấn luyện chứa khoảng 3 triệu hàng và tập dữ liệu (chứa id, age, income, gender, job categorynhưng không có biến phản hồi) được dự đoán chứa 1 triệu hàng. Câu hỏi của tôi là: có vấn đề tiềm ẩn nào không nếu tôi ném quá nhiều hàng (3 triệu trong trường hợp này) vào mô hình thống kê? Tôi hiểu chi phí tính toán là một trong những mối quan tâm, còn có mối lo ngại nào khác không? Có bất kỳ cuốn sách / giấy tờ giải thích đầy đủ về vấn đề kích thước tập dữ liệu?

modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

15
Có quá nhiều hàng không dẫn đến quá nhiều. Có quá nhiều cột không.
Peter Flom

5
Bởi vì câu hỏi này được đưa ra dựa trên nhiều giả định sai - rằng mọi người không muốn sử dụng nhiều trường hợp để phân tích và hầu hết các mô hình thống kê không thể đối phó với các bộ dữ liệu lớn - có khả năng tích lũy các câu trả lời không liên quan hoặc gây nhầm lẫn. Vui lòng xem xét chỉnh sửa câu hỏi của bạn để loại bỏ những thông tin sai lệch này.
whuber

Mặc dù vậy, bạn vẫn chưa tính đến những gì @whuber nói. Mặt bằng sai. Không phải là "hầu hết các mô hình thống kê không thể xử lý các bộ dữ liệu khổng lồ", vì vậy bạn sẽ không nhận được câu trả lời hữu ích cho câu hỏi của mình. Điều đó cũng không đúng khi bạn có thể sử dụng thông tin về tất cả mọi người trong một quốc gia tại một thời điểm nhất định (tôi đoán đây là ý nghĩa của "dân số").
pkofod

2
ID là, nếu đây là một phân tích lành mạnh, không phải là một biến liên tục duy nhất. ID là một biến phân loại vì sự khác biệt giữa các cá nhân không tương ứng với việc gán số tùy ý mà họ nhận được. Điều đó có nghĩa là bạn có 1 biến cho mỗi cá nhân trong phân tích. Có khả năng hàng triệu người.
AdamO

cảm ơn vì nhận xét, nhưng tôi vẫn bối rối tại sao tôi không thể sử dụng thông tin về tất cả mọi người ở một quốc gia tại một thời điểm nhất định (đây là một ví dụ giả định, vì vậy hãy giả sử tôi có thông tin đó)?
dùng2926523

Câu trả lời:


12

Có hai loại vấn đề bạn có thể gặp phải:

1) Máy tính gặp sự cố vì bộ dữ liệu quá lớn. Những ngày này, một vài triệu hàng với 6 cột không phải là lớn. Nhưng, tùy thuộc vào chương trình của bạn, máy tính của bạn, dung lượng RAM của bạn và có thể những thứ khác, nó có thể bị hỏng.

2) Vấn đề thống kê. Ở đây, một vấn đề như bạn thảo luận sẽ có một "vấn đề" mà tôi biết: Ngay cả những hiệu ứng nhỏ cũng sẽ rất đáng kể. Đây không thực sự là một vấn đề với hồi quy, nó là một vấn đề với các giá trị p. Tốt hơn để xem kích thước hiệu ứng (tham số hồi quy).

3) Một loại vấn đề khác với mô hình của bạn không phải do số lượng hàng, mà là bản chất của biến trả lời (chi tiêu hàng tháng). Mặc dù hồi quy OLS không đưa ra bất kỳ giả định nào về phân phối phản hồi (chỉ về lỗi), tuy nhiên, các mô hình có tiền là biến phụ thuộc thường có lỗi không bình thường. Ngoài ra, nó thường có ý nghĩa, thực chất, để lấy nhật ký của phản ứng. Cho dù điều này là như vậy trong trường hợp của bạn phụ thuộc vào chính xác những gì bạn đang cố gắng làm.


Xin chào Peter, bạn có thể vui lòng giải thích chi tiết hơn tại sao biến phản hồi (nghĩa là chi tiêu hàng tháng) nên được ghi lại không? Chúng ta có thể nhận được lợi ích gì từ việc này?
shihpeng

1
1000to10to

2

Điều quan trọng là số lượng cá nhân (hàng) so với số lượng hệ số bạn cần ước tính cho mô hình bạn muốn phù hợp. Các quy tắc thông thường đề xuất khoảng 20 quan sát cho mỗi hệ số là tối thiểu, do đó bạn có thể ước tính lên tới 150.000 hệ số chắc chắn là quá đủ cho bốn dự đoán của bạn.

Trong thực tế, bạn có một cơ hội, không phải là một vấn đề, trong trường hợp này: để phù hợp với một mô hình khá phức tạp bao gồm các mối quan hệ phi tuyến tính của phản ứng với các yếu tố dự đoán và tương tác giữa các yếu tố dự đoán; có thể dự đoán đáp ứng tốt hơn nhiều so với đơn giản hơn trong đó các mối quan hệ của phản ứng với các yếu tố dự đoán được coi là tuyến tính & phụ gia.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.