Thống kê và dữ liệu lớn data-mining

1

Suy luận biến đổi trong tiếng Anh đơn giản

Khi xem video trên youtube, tôi cảm thấy mình không thể xác định được suy luận đa dạng là gì. Tôi có thể làm theo các thủ tục trong khi tôi đang xem các bài giảng video về nó. Nhưng khó để xác định những gì thực sự là. Hy …

11 machine-learning mathematical-statistics data-mining

1

Khi nào sử dụng tạp chất Gini và khi nào sử dụng thông tin đạt được?

Ai đó có thể vui lòng giải thích cho tôi khi sử dụng tạp chất Gini và thông tin đạt được cho cây quyết định không? Bạn có thể cho tôi tình huống / ví dụ về thời điểm tốt nhất để sử dụng không?

11 machine-learning classification data-mining cart

2

Có quá mức trong phương pháp modellng này không

Gần đây tôi được cho biết rằng quá trình tôi tuân theo (thành phần của Luận án MS) có thể được coi là quá phù hợp. Tôi đang tìm cách để hiểu rõ hơn về điều này và xem nếu người khác đồng ý. Mục tiêu của phần này của …

11 machine-learning data-mining predictive-models

3

Hướng dẫn thực hành PCA với dữ liệu

Tìm kiếm trên internet cho PCA hướng dẫn cho hàng ngàn kết quả (thậm chí cả video). Nhiều hướng dẫn rất tốt. Nhưng tôi không thể tìm thấy bất kỳ ví dụ thực tế nào trong đó PCA được giải thích bằng cách sử dụng một số bộ dữ liệu …

11 data-visualization dataset pca data-mining

1

Tìm quy tắc phù hợp cho dữ liệu mới bằng cách sử dụng arules

Tôi đang sử dụng R (và gói arules) để khai thác các giao dịch cho các quy tắc kết hợp. Những gì tôi muốn làm là xây dựng các quy tắc và sau đó áp dụng chúng cho dữ liệu mới. Ví dụ, giả sử tôi có nhiều quy tắc, …

11 r data-mining association-rules

14

Bao nhiêu thông tin bạn có thể khai thác từ một cái tên?

Tên: đầu tiên, có thể là tên đệm và họ. Tôi tò mò về bao nhiêu thông tin bạn có thể khai thác từ một cái tên, sử dụng các bộ dữ liệu có sẵn công khai. Tôi biết rằng bạn có thể nhận được những điều sau với bất …

11 dataset data-mining census

1

R / mgcv: Tại sao các sản phẩm tenor te () và ti () tạo ra các bề mặt khác nhau?

Các mgcvgói cho Rcó hai chức năng cho phù hợp tương tác sản phẩm tensor: te()và ti(). Tôi hiểu sự phân công lao động cơ bản giữa hai người (phù hợp với sự tương tác phi tuyến tính so với việc phân tách tương tác này thành các hiệu ứng …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Sách hay bao gồm tiền xử lý dữ liệu và kỹ thuật phát hiện ngoại lệ

Như tiêu đề, có ai biết về một cuốn sách hay, cập nhật bao gồm tiền xử lý dữ liệu nói chung và đặc biệt là các kỹ thuật phát hiện ngoại lệ không? Cuốn sách không cần tập trung hoàn toàn vào đó, nhưng nó sẽ giải quyết triệt …

11 dataset data-mining references outliers

1

Các ví dụ tài liệu / tái sản xuất của các ứng dụng thành công trong thế giới thực của các phương pháp kinh tế lượng?

Câu hỏi này nghe có vẻ rất rộng, nhưng đây là những gì tôi đang tìm kiếm. Tôi biết có rất nhiều cuốn sách tuyệt vời về phương pháp kinh tế lượng, và nhiều bài viết xuất sắc về kỹ thuật kinh tế lượng. Thậm chí có những ví dụ …

10 r machine-learning forecasting data-mining econometrics

2

Sự khác biệt giữa phân tích dữ liệu chức năng và phân tích dữ liệu chiều cao là gì

Có rất nhiều tài liệu tham khảo trong tài liệu thống kê về " dữ liệu chức năng " (tức là dữ liệu là các đường cong) và song song với " dữ liệu chiều cao " (tức là khi dữ liệu là các vectơ chiều cao). Câu hỏi của …

10 data-mining signal-processing curve-fitting wavelet

6

Sử dụng các nguyên tắc xử lý tín hiệu để xác định xu hướng

Tôi đang đề xuất thử và tìm một xu hướng trong một số dữ liệu dài hạn rất ồn ào. Dữ liệu về cơ bản là các phép đo hàng tuần của một thứ gì đó đã di chuyển khoảng 5 mm trong khoảng thời gian khoảng 8 tháng. Dữ …

10 time-series data-mining signal-processing trend

2

Các số liệu tốt để đánh giá chất lượng của PCA phù hợp, để chọn số lượng các thành phần là gì?

Một số liệu tốt để đánh giá chất lượng phân tích thành phần chính (PCA) là gì? Tôi đã thực hiện thuật toán này trên một tập dữ liệu. Mục tiêu của tôi là giảm số lượng tính năng (thông tin rất dư thừa). Tôi biết tỷ lệ phần trăm …

10 machine-learning pca data-mining information-theory

1

Kỹ thuật khai thác dữ liệu trong chiến dịch của Obama

Tôi đã xem qua bài viết này về nhóm khai thác dữ liệu trong chiến dịch tái tranh cử của Obama. Thật không may, bài báo rất mờ về máy móc thực tế của các thuật toán thống kê. Tuy nhiên, nghe có vẻ như các kỹ thuật chung được …

10 data-mining social-network social-science

1

Tại sao Anova () và drop1 () cung cấp các câu trả lời khác nhau cho GLMM?

Tôi có một GLMM có dạng: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Khi tôi sử dụng drop1(model, test="Chi"), tôi nhận được kết quả khác với nếu tôi sử dụng Anova(model, type="III")từ gói xe hơi hoặc summary(model). Hai cái sau cho cùng một …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

Trường hợp thuật ngữ học hỏi một mô hình thế giới đến từ đâu

Thường thì tôi đã nghe các công cụ khai thác dữ liệu ở đây sử dụng thuật ngữ này. Là một nhà thống kê đã nghiên cứu về các vấn đề phân loại, tôi quen thuộc với thuật ngữ "đào tạo một bộ phân loại" và tôi cho rằng "học …

10 classification data-mining terminology model

Câu hỏi được gắn thẻ «data-mining»