Thống kê và dữ liệu lớn

8

Hàm mục tiêu, hàm chi phí, hàm mất: chúng có giống nhau không?

Trong học máy, người ta nói về chức năng khách quan, chức năng chi phí, chức năng mất mát. Có phải họ chỉ là tên khác nhau của cùng một điều? Khi nào sử dụng chúng? Nếu chúng không phải luôn luôn đề cập đến cùng một điều, sự khác …

80 machine-learning terminology artificial-intelligence

8

Tính số thùng tối ưu trong biểu đồ

Tôi quan tâm đến việc tìm ra phương pháp tối ưu nhất có thể để xác định số lượng thùng tôi nên sử dụng trong biểu đồ. Dữ liệu của tôi nên dao động tối đa từ 30 đến 350 đối tượng và đặc biệt là tôi đang cố gắng …

80 rule-of-thumb histogram

2

Phân kỳ KL giữa hai Gaussian đơn biến

Tôi cần xác định sự phân kỳ KL giữa hai Gaussian. Tôi đang so sánh kết quả của mình với những kết quả này , nhưng tôi không thể sao chép kết quả của chúng. Kết quả của tôi rõ ràng là sai, vì KL không phải là 0 đối …

79 normal-distribution kullback-leibler

7

Cuốn sách Tại sao của Judea Pearl: Tại sao anh ta bash số liệu thống kê?

Tôi đang đọc cuốn sách Tại sao của Judea Pearl, và nó đang nằm dưới da tôi 1 . Cụ thể, tôi nhận ra rằng anh ta đang bẻ khóa các số liệu thống kê "cổ điển" một cách vô điều kiện bằng cách đưa ra một lập luận người …

79 causality

9

Xác suất của một sự kiện trong tương lai ngoài đời thực duy nhất: Điều đó có nghĩa là gì khi họ nói rằng Hill Hillary có 75% cơ hội chiến thắng trên truyền hình?

Vì cuộc bầu cử là một sự kiện một lần, nó không phải là một thử nghiệm có thể lặp lại. Vậy chính xác thì tuyên bố "Hillary có 75% cơ hội chiến thắng" về mặt kỹ thuật là gì? Tôi đang tìm kiếm một định nghĩa chính xác về …

79 probability prediction politics

5

Sự khác biệt giữa học tập ngoài chính sách và chính sách là gì?

Trang web trí tuệ nhân tạo định nghĩa học tập ngoài chính sách và chính sách như sau: "Một người học ngoài chính sách học giá trị của chính sách tối ưu một cách độc lập với các hành động của đại lý. Q-learning là một người học ngoài chính …

79 machine-learning reinforcement-learning artificial-intelligence

6

Làm thế nào để biết liệu dữ liệu được cụm cụm có đủ để các thuật toán phân cụm tạo ra kết quả có ý nghĩa hay không?

Làm thế nào bạn biết liệu dữ liệu (chiều cao) của bạn thể hiện đủ phân cụm sao cho kết quả từ kmeans hoặc thuật toán phân cụm khác thực sự có ý nghĩa? Đối với thuật toán k-mean nói riêng, mức giảm của phương sai trong cụm nên có …

78 clustering k-means

5

Cách tính diện tích theo đường cong (AUC) hoặc thống kê c bằng tay

Tôi quan tâm đến việc tính diện tích dưới đường cong (AUC), hoặc thống kê c, bằng tay cho một mô hình hồi quy logistic nhị phân. Ví dụ: trong tập dữ liệu xác thực, tôi có giá trị thực cho biến phụ thuộc, lưu giữ (1 = giữ lại; …

78 regression logistic classification roc auc

21

Tài nguyên miễn phí cho việc học R

Tôi thích học R với giá rẻ. Tài nguyên / sách / hướng dẫn miễn phí tốt nhất để học R là gì?

78 r references

7

Lợi ích của việc phá vỡ một biến dự đoán liên tục là gì?

Tôi đang tự hỏi giá trị là gì khi lấy một biến dự đoán liên tục và phá vỡ nó (ví dụ, thành các nhóm tinh túy), trước khi sử dụng nó trong một mô hình. Dường như với tôi, bằng cách biến đổi biến chúng ta mất thông tin. …

78 regression modeling continuous-data binning regression-strategies

6

Phân cụm trên đầu ra của t-SNE

Tôi đã có một ứng dụng trong đó rất tiện để phân cụm một tập dữ liệu ồn ào trước khi tìm kiếm các hiệu ứng nhóm phụ trong các cụm. Lần đầu tiên tôi nhìn vào PCA, nhưng phải mất ~ 30 thành phần để có được 90% khả …

78 clustering interpretation k-means tsne

1

Mối tương quan giữa một biến danh nghĩa (IV) và biến liên tục (DV)

Tôi có một biến danh nghĩa (các chủ đề khác nhau của cuộc hội thoại, được mã hóa là topic0 = 0, v.v.) và một số biến tỷ lệ (DV), chẳng hạn như độ dài của một cuộc hội thoại. Làm thế nào tôi có thể rút ra mối tương …

77 correlation continuous-data categorical-data

3

Một ví dụ: Hồi quy LASSO bằng glmnet cho kết quả nhị phân

Tôi bắt đầu say mê với việc sử dụng glmnetvới LASSO Regression trong đó kết quả quan tâm của tôi là phân đôi. Tôi đã tạo một khung dữ liệu giả nhỏ bên dưới: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Làm thế nào để tạo ra một sơ đồ đẹp về kết quả phân tích cụm k-nghĩa?

Tôi đang sử dụng R để thực hiện phân cụm K-nghĩa. Tôi đang sử dụng 14 biến để chạy K-mean Một cách khá hay để vẽ kết quả của K-nghĩa là gì? Có bất kỳ triển khai hiện có? Có 14 biến làm phức tạp âm mưu kết quả? Tôi …

77 data-visualization classification k-means unsupervised-learning

3

Khi nào R bình phương âm?

Hiểu biết của tôi là không thể âm vì nó là bình phương của R. Tuy nhiên tôi đã chạy hồi quy tuyến tính đơn giản trong SPSS với một biến độc lập duy nhất và một biến phụ thuộc. Đầu ra SPSS của tôi cho tôi giá trị âm …

77 regression spss r-squared