Thống kê và dữ liệu lớn missing-data

3

Cách thực hiện SVD để áp đặt các giá trị bị thiếu, một ví dụ cụ thể

Tôi đã đọc những bình luận tuyệt vời về cách xử lý các giá trị bị thiếu trước khi áp dụng SVD, nhưng tôi muốn biết nó hoạt động như thế nào với một ví dụ đơn giản: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

Làm thế nào để áp đặt một biến dự báo phân loại bị thiếu cho một mô hình rừng ngẫu nhiên?

Tôi có một bộ dữ liệu x, y tôi đang sử dụng để xây dựng một khu rừng ngẫu nhiên. Dữ liệu x là một vectơ của các giá trị bao gồm một số NA. Vì vậy, tôi sử dụng rfImputeđể xử lý dữ liệu còn thiếu và tạo một …

8 r random-forest missing-data

2

Áp dụng quy tắc của Rubin để kết hợp nhiều bộ dữ liệu được liệt kê

Tôi hy vọng sẽ tổng hợp các kết quả của một bộ phân tích khá cơ bản được thực hiện trên một dữ liệu được liệt kê nhiều lần (ví dụ: hồi quy bội, ANOVA). Nhiều lần phân tích và phân tích đã được hoàn thành trong SPSS nhưng SPSS …

8 spss missing-data multiple-imputation pooling

2

Làm cách nào để xử lý dữ liệu không đầy đủ trong Bộ lọc Kalman?

Một số cách tiếp cận điển hình để xử lý dữ liệu không đầy đủ trong Bộ lọc Kalman là gì? Tôi đang nói về tình huống thiếu một số phần tử của vectơ quan sát , khác với trường hợp toàn bộ vectơ quan sát bị bỏ sót. Một …

8 missing-data kalman-filter

2

Tại sao một mô hình thống kê sẽ phù hợp hơn nếu được cung cấp một bộ dữ liệu khổng lồ?

Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng): id, age, income, gender, job category, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Lợi thế tương đối của nhiều mức tối đa hóa và kỳ vọng (EM)

Tôi đã có một vấn đề trong đó y= a + by=a+by = a + b Tôi quan sát y, nhưng không phải cũng không b . Tôi muốn ước tínhmộtaabbb b = f( X ) + εb=f(x)+ϵb = f(x) + \epsilon Tôi có thể ước tính , sử dụng …

8 missing-data multiple-imputation expectation-maximization

2

Tranh chấp với rừng ngẫu nhiên

Tôi có hai câu hỏi về việc sử dụng rừng ngẫu nhiên (cụ thể là RandomForest trong R) để bỏ qua giá trị bị thiếu (trong không gian dự đoán). 1) Thuật toán cắt bỏ hoạt động như thế nào - cụ thể như thế nào và tại sao nhãn …

8 data-mining predictive-models missing-data random-forest data-imputation

2

Kiểm tra sau hoc sau 2 yếu tố lặp lại đo ANOVA trong R?

Tôi gặp vấn đề khi tìm giải pháp liên quan đến cách chạy bài kiểm tra sau đại học (Tukey HSD) sau khi đo 2 lần (cả hai môn học) ANOVA trong R. Đối với ANOVA, tôi đã sử dụng chức năng aov: summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), …

8 r anova repeated-measures post-hoc tukey-hsd goodness-of-fit curve-fitting sem latent-variable mplus anova post-hoc tukey-hsd markov-process image-processing r time-series causality granger-causality anova mixed-model lme4-nlme random-effects-model r matlab data-transformation multinomial notation estimation nonparametric logistic r missing-data multiple-imputation mice

1

Khoảng tin cậy khi sử dụng định lý Bayes

Tôi đang tính toán một số xác suất có điều kiện và liên quan đến khoảng tin cậy 95%. Đối với nhiều trường hợp của tôi, tôi có đếm đơn giản của xnhững thành công ra khỏi nthử nghiệm (từ một bảng dự phòng), vì vậy tôi có thể sử …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

1

Sử dụng ARMA khi thiếu dữ liệu

Tôi đang sử dụng ARMA trên một tập dữ liệu với các mẫu bị thiếu. Làm thế nào để tôi đối xử với họ? Bạn có đề nghị thực hiện phép nội suy tuyến tính / phi tuyến hoặc chỉ để chúng ra ngoài và xem xét hai mẫu có …

8 time-series arima missing-data fitting interpolation

2

Tỷ lệ thiếu và nhiều lần cắt cụt

Có giới hạn nào ít được chấp nhận nhất khi sử dụng nhiều lần cắt ngang (MI) không? Ví dụ: tôi có thể sử dụng MI nếu các giá trị bị thiếu trong một biến là 20% các trường hợp trong khi và các biến khác có các giá trị …

8 missing-data data-imputation

1

Làm thế nào để giảm mất thông tin từ các biến lag?

Tôi đang sử dụng mô hình độ trễ phân tán để phân tích dữ liệu chuỗi thời gian. Thời gian nghiên cứu là 18 năm và quan sát là dữ liệu hàng năm. Khi bao gồm hiệu ứng trễ 1 năm, năm đầu tiên của biến lag sẽ bị thiếu. …

8 time-series missing-data

1

Biện pháp tương quan nào nên được sử dụng với khoảng cách lớn (thiếu dữ liệu)?

Tôi đang cố gắng tương quan tuổi tác (6-90 tuổi) với độ to của giọng nói (tính bằng dB). Tuy nhiên, dữ liệu của tôi không chứa bất kỳ điểm dữ liệu nào trong phạm vi 20-50 năm. Biện pháp tương quan nào là phù hợp nhất với khoảng cách …

8 distributions correlation missing-data

4

Là phương pháp thay thế trung bình để thay thế dữ liệu bị thiếu đã lỗi thời?

Là phương pháp thay thế trung bình để thay thế dữ liệu bị thiếu đã lỗi thời? Có những mô hình phức tạp hơn nên được sử dụng? Nếu vậy, chúng là gì?

8 missing-data

1

Máy học và dữ liệu bị thiếu: Impute, và nếu vậy thì khi nào?

Tôi thường làm việc nhiều hơn về mặt ước tính hiệu quả / suy luận nguyên nhân của mọi thứ, nơi mọi người khá thoải mái với nhiều lần bị mất dữ liệu, nhưng hiện tại tôi đang làm việc trong một dự án nhiều hơn về mặt học máy. …

7 machine-learning feature-selection missing-data

Câu hỏi được gắn thẻ «missing-data»