Thống kê và dữ liệu lớn feature-selection

1

Trong hồi quy bội, tại sao các tương tác được mô hình hóa thành các sản phẩm, mà không phải là thứ gì khác, của các yếu tố dự đoán?

Xem xét nhiều hồi quy tuyến tính. Câu hỏi này có thể đơn giản về mặt giả định, nhưng tôi đang cố gắng hiểu trực giác tại sao, giả sử nếu tôi có các yếu tố dự đoán X1 và X2, thì các tương tác giữa các yếu tố dự …

8 multiple-regression feature-selection interaction

2

Lựa chọn tính năng trên mô hình tuyến tính tổng quát phân cấp Bayes

Tôi đang tìm cách ước tính một GLM phân cấp nhưng với lựa chọn tính năng để xác định các hiệp phương sai nào có liên quan ở cấp độ dân số. Giả sử tôi có các nhóm với quan sát và biến có thể có nghĩa là tôi có …

8 machine-learning bayesian feature-selection hierarchical-bayesian shrinkage

1

Lưới đàn hồi

Lasso và lưới đàn hồi không thể xử lý các biến có nhiều hơn hai loại và do đó, việc phân chia các biến phân loại thành các hình nộm là cần thiết cho việc áp dụng các phương pháp này. Điều này có thể dẫn đến một số vấn …

8 machine-learning categorical-data feature-selection lasso elastic-net

1

Sử dụng các từ chủ đề được tạo bởi LDA để thể hiện một tài liệu

Tôi muốn phân loại tài liệu bằng cách biểu diễn mỗi tài liệu dưới dạng một tập hợp các tính năng. Tôi biết rằng có nhiều cách: BOW, TFIDF, ... Tôi muốn sử dụng Phân bổ Dirichlet tiềm ẩn (LDA) để trích xuất các từ khóa chủ đề của tài …

8 feature-selection text-mining topic-models latent-dirichlet-alloc

3

Liệu lựa chọn tính năng Boruta (trong R) có tính đến mối tương quan giữa các biến không?

Tôi là một người mới làm quen với R và lựa chọn tính năng, và đã thử gói Boruta để chọn (giảm) số lượng biến của tôi (n = 40). Tôi nghĩ rằng phương pháp này cũng đã tính đến mối tương quan có thể có giữa các biến, tuy …

8 r feature-selection random-forest boruta

2

Tại sao một mô hình thống kê sẽ phù hợp hơn nếu được cung cấp một bộ dữ liệu khổng lồ?

Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng): id, age, income, gender, job category, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

6

Việc sử dụng cùng một dữ liệu để lựa chọn tính năng và xác thực chéo có bị sai lệch hay không?

Chúng tôi có một bộ dữ liệu nhỏ (khoảng 250 mẫu * 100 tính năng) mà chúng tôi muốn xây dựng bộ phân loại nhị phân sau khi chọn tập hợp tính năng tốt nhất. Hãy nói rằng chúng tôi phân vùng dữ liệu thành: Đào tạo, kiểm tra và …

8 machine-learning cross-validation feature-selection train

3

Tôi có thể thực hiện tìm kiếm toàn diện với xác thực chéo để chọn tính năng không?

Tôi đã đọc một số bài viết về lựa chọn tính năng và xác thực chéo nhưng tôi vẫn có câu hỏi về quy trình chính xác. Giả sử tôi có một bộ dữ liệu với 10 tính năng và tôi muốn chọn các tính năng tốt nhất. Cũng giả …

8 cross-validation model-selection feature-selection

1

Khoảng tin cậy khi sử dụng định lý Bayes

Tôi đang tính toán một số xác suất có điều kiện và liên quan đến khoảng tin cậy 95%. Đối với nhiều trường hợp của tôi, tôi có đếm đơn giản của xnhững thành công ra khỏi nthử nghiệm (từ một bảng dự phòng), vì vậy tôi có thể sử …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

1

Hồi quy tuyến tính thưa thớt 0-Norm và 1-Norm

Chúng tôi có phản hồi và dự đoánY∈RnY∈RnY \in \Bbb R^nX=(x1,x2,⋯,xm)T∈Rn×mX=(x1,x2,⋯,xm)T∈Rn×mX = (x_1, x_2, \cdots, x_m)^T \in \Bbb R^{n \times m} Vấn đề chúng tôi muốn giải quyết là argmink∈Rm(∥Y−Xk∥22+λ∥k∥0)→k0argmink∈Rm(‖Y−Xk‖22+λ‖k‖0)→k0\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - Xk \Vert_2^2 + \lambda \Vert k \Vert_0) \rightarrow k_0 Tuy nhiên, đó là NP-hard, …

8 regression feature-selection regularization

1

Máy học và dữ liệu bị thiếu: Impute, và nếu vậy thì khi nào?

Tôi thường làm việc nhiều hơn về mặt ước tính hiệu quả / suy luận nguyên nhân của mọi thứ, nơi mọi người khá thoải mái với nhiều lần bị mất dữ liệu, nhưng hiện tại tôi đang làm việc trong một dự án nhiều hơn về mặt học máy. …

7 machine-learning feature-selection missing-data

1

Trong PCA, có cách nào để loại bỏ các biến có hệ thống để tối đa hóa sự phân chia của hai quần thể không?

Tôi đang cố gắng điều tra bằng cách sử dụng phân tích thành phần chính xem có thể đoán được với sự tự tin tốt từ dân số nào ("Aurignacian" hoặc "Gravettian") một datapoint mới đến từ đâu. Một datapoint được mô tả bởi 28 biến, hầu hết trong số …

7 classification pca multivariate-analysis feature-selection archaeology

1

Kiểm tra tỷ lệ AIC so với khả năng thích ứng trong lựa chọn biến mô hình

Phần mềm mà tôi hiện đang sử dụng để xây dựng mô hình so sánh mô hình "chạy hiện tại" với "mô hình tham chiếu" và báo cáo (nếu có thể) cả giá trị p bình phương dựa trên các thử nghiệm tỷ lệ khả năng và giá trị AIC …

7 feature-selection model-selection aic likelihood-ratio

Câu hỏi được gắn thẻ «feature-selection»