Thống kê và dữ liệu lớn data-mining

2

Xác định người đóng góp lớn nhất trong một nhóm

Tôi không biết nhiều về thống kê nên hãy đồng ý với tôi. Hãy nói rằng tôi có một bộ 1000 công nhân. Tôi muốn tìm ra ai là người làm việc chăm chỉ nhất nhưng tôi chỉ có thể đo lượng công việc được hoàn thành trong các nhóm …

9 r regression data-mining

2

Sử dụng tham số Gamma với các máy vectơ hỗ trợ

Khi sử dụng libsvm, tham số là tham số cho hàm kernel. Giá trị mặc định của nó là thiết lập như γ = 1γγ\gammaγ= 1số lượng tính năng.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} Có hướng dẫn lý thuyết nào để thiết lập tham số này bên cạnh các …

9 machine-learning svm data-mining libsvm kernel-trick

2

Hiểu và áp dụng phân tích tình cảm

Tôi vừa được giao một dự án tiến hành phân tích tình cảm cho một số bộ sưu tập tài liệu. Bởi Googling, rất nhiều nghiên cứu liên quan đến tình cảm đã xuất hiện. Câu hỏi của tôi là: Các phương pháp / thuật toán chính để phân tích …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

2

Loại bỏ các bản sao khỏi tập huấn luyện để phân loại

Hãy để chúng tôi nói rằng tôi có một loạt các hàng cho một vấn đề phân loại: X1,...XN,YX1,...XN,YX_1, ... X_N, Y Trong đó là các tính năng / dự đoán và Y là lớp kết hợp tính năng của hàng.X1,...,XNX1,...,XNX_1, ..., X_NYYY Nhiều kết hợp tính năng và các …

9 machine-learning classification data-mining logistic stratification

5

Tôi có thể làm gì ngoài tương quan Pearson?

Trong khi kiểm tra xem liệu hai biến có tương quan hay không, tôi quan sát thấy rằng áp dụng tương quan Pearson mang lại số lượng thấp đến 0,1 cho thấy không có mối tương quan. Có bất cứ điều gì tôi có thể làm để tăng cường yêu …

9 correlation data-mining pearson-r

3

Thuật toán Apriori bằng tiếng Anh?

Tôi đọc bài viết wiki về Apriori. Tôi gặp khó khăn trong việc hiểu các bước cắt tỉa và tham gia. Bất cứ ai có thể giải thích cho tôi làm thế nào thuật toán Apriori hoạt động bằng các thuật ngữ đơn giản (như Novice như tôi có thể …

9 data-mining algorithms frequentist

3

Làm thế nào để nhanh chóng chọn các biến quan trọng từ một tập dữ liệu rất lớn?

Tôi có một bộ dữ liệu với khoảng 2.000 biến nhị phân / 200.000 hàng và tôi đang cố gắng dự đoán một biến phụ thuộc nhị phân duy nhất. Mục tiêu chính của tôi trong giai đoạn này không phải là dự đoán chính xác, mà là xác định …

9 machine-learning data-mining large-data

2

Bắt đầu với việc đi xe đạp

Tôi đã thực hiện một số nghiên cứu trên internet về xe đạp. (Tôi đã đọc bài viết Wiki nhiều lần.) Cho đến nay, dường như có rất ít định nghĩa hoặc thuật ngữ tiêu chuẩn. Tôi đã tự hỏi nếu có bất kỳ giấy tờ hoặc sách tiêu chuẩn …

9 clustering data-mining

2

Tính toán đường cong ROC cho dữ liệu

Vì vậy, tôi có 16 thử nghiệm trong đó tôi đang cố gắng xác thực một người từ một đặc điểm sinh trắc học bằng cách sử dụng Hamming Khoảng cách. Ngưỡng của tôi được đặt thành 3,5. Dữ liệu của tôi ở bên dưới và chỉ có bản dùng …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Random Forest có phải là một lựa chọn tốt để phân loại dữ liệu không cân bằng? [đóng cửa]

Đã đóng cửa . Câu hỏi này cần được tập trung hơn . Nó hiện không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó chỉ tập trung vào một vấn đề bằng cách chỉnh sửa bài đăng này . Đóng …

9 machine-learning classification data-mining supervised-learning statistical-learning

2

Tập dữ liệu kiểm tra không cân bằng cao và dữ liệu đào tạo cân bằng trong phân loại

Tôi có một bộ huấn luyện với khoảng 3000 trường hợp tích cực và 3000 trường hợp tiêu cực. Nhưng bộ dữ liệu thử nghiệm của tôi là khá nhiều không cân bằng. Tập hợp dương chỉ có 50 trường hợp và âm có 1500 trường hợp. Điều này gây …

9 machine-learning classification data-mining svm

1

Thực hành tốt nhất để đo lường và tránh quá mức?

Tôi đang phát triển hệ thống giao dịch tự động cho thị trường chứng khoán. Những thách thức lớn đã được thừa. Bạn có thể giới thiệu một số tài nguyên mô tả các phương pháp để đo lường và tránh quá mức không? Tôi đã bắt đầu với các …

9 time-series machine-learning dataset data-mining validation

1

Hàm chi phí SVM: định nghĩa cũ và mới

Tôi đang cố gắng điều hòa các định nghĩa khác nhau của hàm chi phí / tổn thất SVM biên mềm ở dạng nguyên thủy. Có một toán tử "max ()" mà tôi không hiểu. Tôi đã học về SVM nhiều năm trước từ sách giáo khoa cấp đại học …

9 machine-learning classification svm data-mining loss-functions

1

GIỎ HÀNG: Lựa chọn công cụ dự đoán tốt nhất để phân tách khi mức tăng trong tạp chất giảm bằng nhau?

Câu hỏi của tôi liên quan đến cây phân loại . Xem xét ví dụ sau từ bộ dữ liệu Iris: Tôi muốn chọn thủ công dự đoán tốt nhất cho lần phân chia đầu tiên. Theo thuật toán GIỎI, tính năng tốt nhất để phân tách là tính năng …

8 r machine-learning classification data-mining cart

1

Khi nào thì thích hợp sử dụng PCA làm bước tiền xử lý?

Tôi hiểu rằng PCA được sử dụng để giảm kích thước để có thể vẽ các bộ dữ liệu ở dạng 2D hoặc 3D. Nhưng tôi cũng đã thấy mọi người áp dụng PCA như một bước tiền xử lý trong các tình huống phân loại trong đó họ áp …

8 machine-learning pca data-mining dimensionality-reduction

Câu hỏi được gắn thẻ «data-mining»