Thống kê và dữ liệu lớn cart

1

Cây quyết định biến đổi (tính năng) chia tỷ lệ và biến (tính năng) chuẩn hóa (điều chỉnh) cần thiết trong triển khai nào?

Trong nhiều thuật toán học máy, tính năng chia tỷ lệ (còn gọi là chia tỷ lệ biến, chuẩn hóa) là một bước chuẩn bị phổ biến Wikipedia - Tính năng mở rộng - câu hỏi này đã đóng Câu hỏi # 41704 - Làm thế nào và tại sao …

10 machine-learning feature-selection cart

1

Tại sao Anova () và drop1 () cung cấp các câu trả lời khác nhau cho GLMM?

Tôi có một GLMM có dạng: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Khi tôi sử dụng drop1(model, test="Chi"), tôi nhận được kết quả khác với nếu tôi sử dụng Anova(model, type="III")từ gói xe hơi hoặc summary(model). Hai cái sau cho cùng một …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

Kích thước cây trong tăng cường cây dốc

Tăng cường cây Gradient theo đề xuất của Friedman sử dụng các cây quyết định với Jcác nút cuối (= lá) làm người học cơ sở. Có một số cách để trồng cây với Jcác nút chính xác, ví dụ, người ta có thể trồng cây theo chiều sâu đầu …

10 r cart boosting

1

R hồi quy tuyến tính biến phân loại Biến ẩn giá trị

Đây chỉ là một ví dụ mà tôi đã bắt gặp nhiều lần, vì vậy tôi không có bất kỳ dữ liệu mẫu nào. Chạy mô hình hồi quy tuyến tính trong R: a.lm = lm(Y ~ x1 + x2) x1là một biến liên tục. x2là phân loại và có …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

Điều tra sự khác biệt giữa các quần thể

Nói rằng chúng tôi có một mẫu từ hai quần thể: Avà B. Giả sử những quần thể này được tạo thành từ các cá nhân và chúng tôi chọn mô tả các cá nhân theo các tính năng. Một số tính năng này là phân loại (ví dụ: chúng …

9 anova random-forest cart group-differences

2

Là người ước tính cây LUÔN LUÔN?

Tôi đang làm bài tập về Cây quyết định và một trong những câu hỏi tôi phải trả lời là "Tại sao các công cụ ước tính được xây dựng từ cây bị sai lệch, và cách đóng bao giúp giảm phương sai của chúng?". Bây giờ, tôi biết rằng …

9 cart bias

2

Cây GIỎI có nắm bắt được sự tương tác giữa các yếu tố dự đoán không?

Bài viết này tuyên bố rằng trong GIỎI, vì phân chia nhị phân được thực hiện trên một hiệp phương sai duy nhất ở mỗi bước, tất cả các phân chia là trực giao và do đó tương tác giữa các hiệp phương sai không được xem xét. Tuy nhiên, …

9 machine-learning classification data-mining cart

2

Làm thế nào để đánh giá mức độ phù hợp của chức năng sống sót

Tôi là người mới tham gia phân tích sinh tồn, mặc dù tôi có một số kiến thức về phân loại và hồi quy. Để hồi quy, chúng ta có số liệu thống kê MSE và R vuông. Nhưng làm thế nào chúng ta có thể nói rằng mô hình …

9 regression survival goodness-of-fit cart rpart

1

Làm thế nào để chọn số lượng phân chia trong rpart ()?

Tôi đã sử dụng rpart.controlcho minsplit=2, và nhận được kết quả sau từ rpart()chức năng. Để tránh làm quá dữ liệu, tôi có cần sử dụng chia 3 hoặc tách 7 không? Tôi không nên sử dụng chia 7? Làm ơn cho tôi biết. Các biến thực sự được sử …

9 r cart rpart

4

Hồi quy dựa trên cây có thể thực hiện kém hơn hồi quy tuyến tính đơn giản?

Xin chào, tôi đang nghiên cứu kỹ thuật hồi quy. Dữ liệu của tôi có 15 tính năng và 60 triệu ví dụ (nhiệm vụ hồi quy). Khi tôi thử nhiều kỹ thuật hồi quy đã biết (cây tăng cường độ dốc, hồi quy cây quyết định, AdaBoostRegressor, v.v.), hồi …

9 regression modeling deep-learning model cart

1

Định nghĩa độ phức tạp của cây trong xgboost

Nghiên cứu về thuật toán xgboost tôi đã xem qua tài liệu này . Trong cách tiếp cận này, cây được chuẩn hóa bằng định nghĩa độ phức tạp trong đó và là các tham số, là số lá cuối cùng và là điểm số trong mỗi lá.Ω(f)=γT+12λ∑j=1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = …

9 cart regularization boosting gradient-descent overfitting

2

Các giá trị CP (Độ phức tạp chi phí) được tính như thế nào trong RPART (hoặc cây quyết định nói chung)

Theo những gì tôi hiểu, đối số cp cho rparthàm giúp cắt tỉa trước cây theo cách tương tự như đối số minsplit hoặc minbucket. Điều tôi không hiểu là cách tính giá trị CP. Ví dụ df<-data.frame(x=c(1,2,3,3,3,4), y=as.factor(c(TRUE, TRUE, FALSE, TRUE, FALSE, FALSE)), method="class") mytree<-rpart(y ~ x, data = …

9 r cart rpart

2

Một lời giải thích đơn giản và rõ ràng về tạp chất Gini?

Trong bối cảnh chia tách cây quyết định, không rõ ràng tại sao tạp chất Gini là thước đo của tạp chất nút t . Có một lời giải thích dễ dàng về điều này?tôi ( t ) = 1 -Σj = 1kp2( j | t )Tôi(t)= =1-Σj= =1kp2(j|t) i(t)=1-\sum\limits_{j=1}^k …

9 cart intuition gini

1

Tôi có thể kết hợp nhiều cây tăng cường độ dốc bằng cách sử dụng kỹ thuật đóng bao

Dựa trên Gradient Boosting Tree vs Random Forest . GBDT và RF sử dụng chiến lược khác nhau để giải quyết sai lệch và phương sai. Câu hỏi của tôi là tôi có thể lấy mẫu lại tập dữ liệu (có thay thế) để đào tạo nhiều GBDT và kết …

8 random-forest cart boosting bagging gradient

3

Hồi quy tuyến tính (không) tại cây quyết định lá

Có phổ biến để có một kỹ thuật hồi quy khác nhau ở lá cây hồi quy (ví dụ hồi quy tuyến tính) không? Tôi đã tìm kiếm nó trong một giờ qua nhưng tất cả những gì tôi tìm thấy là những triển khai có giá trị không đổi …

8 cart nonlinear-regression

Câu hỏi được gắn thẻ «cart»