Thống kê và dữ liệu lớn dataset

5

Cách xử lý dữ liệu phân cấp / lồng nhau trong học máy

Tôi sẽ giải thích vấn đề của tôi bằng một ví dụ. Giả sử bạn muốn dự đoán thu nhập của một cá nhân được cung cấp một số thuộc tính: {Tuổi, Giới tính, Quốc gia, Vùng, Thành phố}. Bạn có một tập dữ liệu đào tạo như vậy train …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

2

Những khía cạnh nào của bộ dữ liệu Iris Iris làm cho nó thành công như một bộ dữ liệu ví dụ / giảng dạy / kiểm tra

Bộ dữ liệu "Iris" có lẽ quen thuộc với hầu hết mọi người ở đây - đó là một trong những bộ dữ liệu kiểm tra chính tắc và bộ dữ liệu ví dụ cho tất cả mọi thứ, từ trực quan hóa dữ liệu đến học máy. Ví dụ, …

28 dataset

1

Tính toán độ lặp lại của hiệu ứng từ mô hình lmer

Tôi vừa xem qua bài viết này , trong đó mô tả cách tính toán độ lặp lại (còn gọi là độ tin cậy, hay còn gọi là tương quan nội hàm) của phép đo thông qua mô hình hiệu ứng hỗn hợp. Mã R sẽ là: #fit the model …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Độ tự do có thể là một số không nguyên?

Khi tôi sử dụng GAM, nó mang lại cho tôi DF còn lại là (dòng cuối cùng trong mã). Điều đó nghĩa là gì? Vượt ra ngoài ví dụ về GAM, nói chung, số bậc tự do có thể là một số không nguyên?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

Các nhà thống kê làm gì mà không thể được tự động?

Phần mềm cuối cùng sẽ làm cho các nhà thống kê lỗi thời? Những gì được thực hiện mà không thể được lập trình vào máy tính?

26 machine-learning dataset careers

4

Là người đánh giá, tôi có thể biện minh cho việc yêu cầu dữ liệu và mã được cung cấp ngay cả khi tạp chí không?

Theo định nghĩa khoa học phải có khả năng tái tạo, theo định nghĩa, ngày càng có nhiều sự công nhận rằng dữ liệu và mã là một thành phần thiết yếu của khả năng tái tạo, như thảo luận của Hội thảo bàn tròn Yale để chia sẻ dữ …

23 dataset validation reproducible-research journals

2

Kỹ thuật tăng dữ liệu cho bộ dữ liệu chung?

Trong nhiều ứng dụng học máy, cái gọi là phương pháp tăng dữ liệu đã cho phép xây dựng các mô hình tốt hơn. Ví dụ, giả sử một bộ huấn luyện gồm hình ảnh của mèo và chó. Bằng cách xoay, phản chiếu, điều chỉnh độ tương phản, v.v …

21 machine-learning predictive-models dataset independence data-augmentation

4

Làm thế nào để chiếu một vectơ mới lên không gian PCA?

Sau khi thực hiện phân tích thành phần chính (PCA), tôi muốn chiếu một vectơ mới lên không gian PCA (tức là tìm tọa độ của nó trong hệ tọa độ PCA). Tôi đã tính PCA bằng ngôn ngữ R bằng cách sử dụng prcomp. Bây giờ tôi có thể …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

9

Quá mức và thiếu

Tôi đã thực hiện một số nghiên cứu về quá mức và thiếu chất lượng, và tôi đã hiểu chính xác chúng là gì, nhưng tôi không thể tìm thấy lý do. Các lý do chính cho việc thừa và thiếu là gì? Tại sao chúng ta phải đối mặt …

20 machine-learning dataset overfitting

1

Sự khác biệt giữa dữ liệu bị thiếu và dữ liệu thưa thớt trong thuật toán học máy

Sự khác biệt chính giữa dữ liệu thưa và dữ liệu bị thiếu là gì? Và nó ảnh hưởng đến việc học máy như thế nào? Cụ thể hơn, những gì ảnh hưởng đến dữ liệu thưa thớt và dữ liệu bị thiếu đối với các thuật toán phân loại …

20 machine-learning dataset missing-data sparse

1

Giám sát xa: giám sát, bán giám sát, hoặc cả hai?

"Giám sát từ xa" là một kế hoạch học tập trong đó một bộ phân loại được học với một tập huấn luyện được dán nhãn yếu (dữ liệu đào tạo được dán nhãn tự động dựa trên các quy tắc / quy tắc). Tôi nghĩ rằng cả học tập …

20 machine-learning data-mining dataset references unsupervised-learning

5

Một số bộ dữ liệu tốt để học các thuật toán học máy cơ bản là gì và tại sao?

Tôi chưa quen với việc học máy và tìm kiếm một số bộ dữ liệu mà qua đó tôi có thể so sánh và đối chiếu sự khác biệt giữa các thuật toán học máy khác nhau (Cây quyết định, Tăng tốc, SVM và Mạng thần kinh) Tôi có thể …

19 machine-learning dataset

4

Ví dụ dữ liệu tốt cần thiết với covariate bị ảnh hưởng bởi phương pháp điều trị

Tôi đã xem xét rất nhiều bộ dữ liệu R, bài đăng trong DASL và các nơi khác, và tôi không tìm thấy nhiều ví dụ hay về bộ dữ liệu thú vị minh họa phân tích hiệp phương sai cho dữ liệu thử nghiệm. Có rất nhiều bộ dữ …

19 dataset ancova predictor

2

Hướng dẫn đảm bảo chất lượng và kiểm soát chất lượng (QA / QC) cho cơ sở dữ liệu

Lý lịch Tôi đang giám sát việc nhập dữ liệu từ tài liệu chính vào cơ sở dữ liệu . Quá trình nhập dữ liệu dễ bị lỗi, đặc biệt vì người dùng phải diễn giải thiết kế thử nghiệm, trích xuất dữ liệu từ đồ họa và bảng và …

18 dataset meta-analysis quality-control database

10

Bộ dữ liệu mạng xã hội

Đã khóa . Câu hỏi này và câu trả lời của nó bị khóa vì câu hỏi không có chủ đề nhưng có ý nghĩa lịch sử. Nó hiện không chấp nhận câu trả lời hoặc tương tác mới. Tôi đang tìm kiếm bộ dữ liệu mạng xã hội (twitter, …

18 classification dataset

Câu hỏi được gắn thẻ «dataset»