Câu hỏi được gắn thẻ «data-imputation»

Đề cập đến một lớp chung các phương thức được sử dụng để "điền" dữ liệu bị thiếu. Các phương thức được sử dụng để thực hiện việc này thường liên quan đến phép nội suy (http://en.wikipedia.org/wiki/Interpolation) và yêu cầu các giả định về lý do tại sao dữ liệu bị thiếu (ví dụ: "mất ngẫu nhiên")

3
Một ví dụ: Hồi quy LASSO bằng glmnet cho kết quả nhị phân
Tôi bắt đầu say mê với việc sử dụng glmnetvới LASSO Regression trong đó kết quả quan tâm của tôi là phân đôi. Tôi đã tạo một khung dữ liệu giả nhỏ bên dưới: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R caret và NA
Tôi rất thích sự chăm sóc cho khả năng điều chỉnh tham số và giao diện thống nhất của nó, nhưng tôi đã quan sát thấy rằng nó luôn yêu cầu bộ dữ liệu hoàn chỉnh (tức là không có NA) ngay cả khi mô hình "trần trụi" được áp …

4
Tranh chấp các giá trị còn thiếu cho PCA
Tôi đã sử dụng prcomp()chức năng để thực hiện PCA (phân tích thành phần chính) trong R. Tuy nhiên, có một lỗi trong chức năng đó khiến na.actiontham số không hoạt động. Tôi đã yêu cầu giúp đỡ về stackoverflow ; Hai người dùng ở đó đưa ra hai cách …

3
Cách kết hợp khoảng tin cậy cho một thành phần phương sai của mô hình hiệu ứng hỗn hợp khi sử dụng nhiều mức độ
Logic của nhiều lần cắt (MI) là để tính các giá trị bị thiếu không chỉ một lần mà nhiều lần (thường là M = 5) lần, dẫn đến M bộ dữ liệu đã hoàn thành. Các bộ dữ liệu hoàn thành M sau đó được phân tích với các …





5
Các gói R của KNN
Tôi đang tìm kiếm một gói cắt bỏ KNN. Tôi đã xem xét gói imputation ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) nhưng vì một số lý do, hàm giả định KNN (ngay cả khi theo ví dụ từ mô tả) chỉ có vẻ để tính các giá trị 0 (theo bên dưới). Tôi …


5
Làm thế nào để thực hiện việc cắt bỏ các giá trị trong số lượng điểm dữ liệu rất lớn?
Tôi có một bộ dữ liệu rất lớn và thiếu khoảng 5% giá trị ngẫu nhiên. Các biến này có mối tương quan với nhau. Ví dụ R tập dữ liệu sau đây chỉ là một ví dụ đồ chơi với dữ liệu tương quan giả. set.seed(123) # matrix of …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 





Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.