Thống kê và dữ liệu lớn model-selection

4

Tôi có một bộ dữ liệu lớn bao gồm các giá trị của hàng trăm biến tài chính có thể được sử dụng trong hồi quy bội để dự đoán hành vi của một quỹ chỉ số theo thời gian. Tôi muốn giảm số lượng biến xuống còn mười hoặc …

9 regression multivariate-analysis model-selection multiple-regression

1

Kế toán cho các tham số rời rạc hoặc nhị phân trong tiêu chí thông tin Bayes

BIC phạt dựa trên số lượng tham số. Điều gì nếu một số tham số là một số loại biến chỉ báo nhị phân? Làm những điều này được tính là tham số đầy đủ? Nhưng tôi có thể kết hợp tham số nhị phân thành một biến rời rạc …

9 bayesian model-selection bic parameterization

2

Trong cài đặt nào bạn muốn mô hình được tìm thấy bởi LARS khác với hầu hết mô hình được tìm thấy bởi tìm kiếm toàn diện?

Thêm một chút thông tin; giả sử rằng bạn biết trước có bao nhiêu biến để chọn và bạn đặt hình phạt phức tạp trong thủ tục LARS để có chính xác có bao nhiêu biến có hệ số không 0, chi phí tính toán không phải là một vấn …

9 regression model-selection

2

Tính toán đường cong ROC cho dữ liệu

Vì vậy, tôi có 16 thử nghiệm trong đó tôi đang cố gắng xác thực một người từ một đặc điểm sinh trắc học bằng cách sử dụng Hamming Khoảng cách. Ngưỡng của tôi được đặt thành 3,5. Dữ liệu của tôi ở bên dưới và chỉ có bản dùng …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

3

Tính toán tập hợp con tốt nhất của dự báo cho hồi quy tuyến tính

Để lựa chọn các yếu tố dự báo trong hồi quy tuyến tính đa biến với các yếu tố dự đoán phù hợp , phương pháp nào có sẵn để tìm một tập hợp con 'tối ưu' của các yếu tố dự đoán mà không kiểm tra rõ ràng tất …

9 modeling regression multivariable model-selection feature-selection

1

Lựa chọn mô hình chuỗi thời gian: AIC so với SSE ngoài mẫu và tính tương đương của chúng

AIC thường được đề xuất làm tiêu chí để so sánh các mô hình cho dự báo chuỗi thời gian. Xem ví dụ này trong bối cảnh mô hình hồi quy động : AIC có thể được tính cho mô hình cuối cùng và giá trị này có thể được …

9 time-series cross-validation model-selection arima aic

1

Xây dựng mô hình: Làm thế nào để xây dựng một mô hình gam có ý nghĩa? (mô hình phụ gia tổng quát)

Tôi đã thấy có nhiều câu hỏi khác nhau liên quan đến việc giải thích và xây dựng các trò chơi, dường như minh họa cho sự khó khăn cho những người không thống kê để đối phó với những điều đó. Thật không may, từ không có chủ đề …

9 r model-selection gam

2

Chính xác thì lựa chọn mô hình từng bước là gì?

Mặc dù giá trị của lựa chọn mô hình từng bước đã được thảo luận trước đây, nhưng đối với tôi, việc lựa chọn mô hình từng bước "hoặc" hồi quy từng bước " là không rõ ràng . Tôi nghĩ rằng tôi hiểu nó, nhưng không chắc chắn nữa. …

8 multiple-regression model-selection aic stepwise-regression

2

Có trường hợp nào BIC hữu ích và AIC không?

Trong mục Wikipedia cho tiêu chí thông tin Akaike , chúng tôi đọc phần So sánh với BIC (tiêu chí thông tin Bayes) rằng ... AIC / AICc có lợi thế về mặt lý thuyết so với BIC ... AIC / AICc có nguồn gốc từ các nguyên tắc thông …

8 model-selection aic prior information-theory bic

4

Chọn mô hình hồi quy

Làm thế nào một người có thể khách quan (đọc "theo thuật toán") chọn một mô hình thích hợp để thực hiện hồi quy bình phương tuyến tính nhỏ nhất đơn giản với hai biến? Ví dụ, giả sử dữ liệu dường như hiển thị xu hướng bậc hai và …

8 regression forecasting model-selection prediction

2

Tại sao một mô hình thống kê sẽ phù hợp hơn nếu được cung cấp một bộ dữ liệu khổng lồ?

Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng): id, age, income, gender, job category, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

Chọn một số liệu hiệu suất phân loại để lựa chọn mô hình, lựa chọn tính năng và xuất bản

Tôi có một bộ dữ liệu nhỏ, không cân bằng (70 dương, 30 âm) và tôi đã chơi xung quanh với lựa chọn mô hình cho các tham số SVM bằng BAC (độ chính xác cân bằng) và AUC (vùng dưới đường cong). Tôi đã sử dụng các trọng số …

8 svm cross-validation model-selection auc

2

Xử lý hiệu suất tốt về dữ liệu đào tạo và xác nhận, nhưng hiệu suất rất tệ đối với dữ liệu thử nghiệm

Tôi có một vấn đề hồi quy với 5-6k biến. Tôi chia dữ liệu của mình thành 3 bộ không chồng chéo: đào tạo, xác nhận và kiểm tra. Tôi huấn luyện chỉ sử dụng tập huấn luyện và tạo ra rất nhiều mô hình hồi quy tuyến tính khác …

8 regression cross-validation model-selection r-squared overfitting

1

Lựa chọn siêu tham số Bayes đầy đủ trong GPML

Có thể thực hiện lựa chọn siêu tham số Bayesian (1) gần đúng (ví dụ thang đo hiệp phương sai) với mã GPML, thay vì tối đa hóa khả năng cận biên (2) không? Tôi nghĩ rằng việc sử dụng các phương pháp MCMC để giải quyết các tích phân …

8 bayesian model-selection gaussian-process hyperparameter

1

Xác thực chéo một lần một: Ước tính tương đối không thiên vị về hiệu suất tổng quát hóa?

Tôi đã đọc được rằng xác thực chéo một lần cung cấp một ước tính không thiên vị tương đối về hiệu suất khái quát hóa thực sự (ví dụ ở đây ) và đây là một đặc tính có lợi của CV rời khỏi. Tuy nhiên, tôi không thấy …

8 cross-validation model-selection bias

Câu hỏi được gắn thẻ «model-selection»