Thống kê và dữ liệu lớn

Q & A cho những người quan tâm đến thống kê, học máy, phân tích dữ liệu, khai thác dữ liệu và trực quan hóa dữ liệu


8
Tính số thùng tối ưu trong biểu đồ
Tôi quan tâm đến việc tìm ra phương pháp tối ưu nhất có thể để xác định số lượng thùng tôi nên sử dụng trong biểu đồ. Dữ liệu của tôi nên dao động tối đa từ 30 đến 350 đối tượng và đặc biệt là tôi đang cố gắng …



9
Xác suất của một sự kiện trong tương lai ngoài đời thực duy nhất: Điều đó có nghĩa là gì khi họ nói rằng Hill Hillary có 75% cơ hội chiến thắng trên truyền hình?
Vì cuộc bầu cử là một sự kiện một lần, nó không phải là một thử nghiệm có thể lặp lại. Vậy chính xác thì tuyên bố "Hillary có 75% cơ hội chiến thắng" về mặt kỹ thuật là gì? Tôi đang tìm kiếm một định nghĩa chính xác về …






6
Phân cụm trên đầu ra của t-SNE
Tôi đã có một ứng dụng trong đó rất tiện để phân cụm một tập dữ liệu ồn ào trước khi tìm kiếm các hiệu ứng nhóm phụ trong các cụm. Lần đầu tiên tôi nhìn vào PCA, nhưng phải mất ~ 30 thành phần để có được 90% khả …


3
Một ví dụ: Hồi quy LASSO bằng glmnet cho kết quả nhị phân
Tôi bắt đầu say mê với việc sử dụng glmnetvới LASSO Regression trong đó kết quả quan tâm của tôi là phân đôi. Tôi đã tạo một khung dữ liệu giả nhỏ bên dưới: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
Khi nào R bình phương âm?
Hiểu biết của tôi là không thể âm vì nó là bình phương của R. Tuy nhiên tôi đã chạy hồi quy tuyến tính đơn giản trong SPSS với một biến độc lập duy nhất và một biến phụ thuộc. Đầu ra SPSS của tôi cho tôi giá trị âm …

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.