Thống kê và dữ liệu lớn synthetic-data

2

Một số thực hành tiêu chuẩn để tạo tập dữ liệu tổng hợp là gì?

Theo ngữ cảnh: Khi làm việc với một tập dữ liệu rất lớn, đôi khi tôi được hỏi liệu chúng ta có thể tạo một tập dữ liệu tổng hợp trong đó chúng ta "biết" mối quan hệ giữa các yếu tố dự đoán và biến phản ứng hoặc mối …

26 modeling reproducible-research synthetic-data

10

Thuật ngữ tốt nhất cho dữ liệu tạo thành?

Tôi đang viết một ví dụ và đã tạo ra một số dữ liệu. Tôi muốn nó rõ ràng với người đọc đây không phải là dữ liệu thực, nhưng tôi cũng không muốn đưa ra ấn tượng về ác ý, vì nó chỉ là một ví dụ. Không có …

23 terminology synthetic-data

1

Tạo một bộ dữ liệu không cân bằng

Tôi muốn thử nghiệm mô hình được đào tạo của tôi trên một bộ dữ liệu không cân bằng. Có bất kỳ thuật toán nào có sẵn để tạo dữ liệu tổng hợp từ bộ dữ liệu được gắn nhãn cân bằng (thư rác / không phải thư rác) không?

11 unbalanced-classes synthetic-data

1

Tại sao Anova () và drop1 () cung cấp các câu trả lời khác nhau cho GLMM?

Tôi có một GLMM có dạng: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Khi tôi sử dụng drop1(model, test="Chi"), tôi nhận được kết quả khác với nếu tôi sử dụng Anova(model, type="III")từ gói xe hơi hoặc summary(model). Hai cái sau cho cùng một …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Tại sao một mô hình thống kê sẽ phù hợp hơn nếu được cung cấp một bộ dữ liệu khổng lồ?

Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng): id, age, income, gender, job category, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

Câu hỏi được gắn thẻ «synthetic-data»