Thống kê và dữ liệu lớn clustering

4

Tôi đã nhận được câu hỏi sau đây như một câu hỏi kiểm tra cho bài kiểm tra của mình và tôi chỉ đơn giản là không thể hiểu câu trả lời. Một biểu đồ phân tán dữ liệu được chiếu lên hai thành phần chính đầu tiên được hiển …

8 clustering k-means

2

Tại sao một mô hình thống kê sẽ phù hợp hơn nếu được cung cấp một bộ dữ liệu khổng lồ?

Dự án hiện tại của tôi có thể yêu cầu tôi xây dựng một mô hình để dự đoán hành vi của một nhóm người nhất định. tập dữ liệu huấn luyện chỉ chứa 6 biến (id chỉ dành cho mục đích nhận dạng): id, age, income, gender, job category, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Tại sao chỉ có giá trị trung bình được sử dụng trong phương pháp phân cụm (K-mean)?

Trong các phương pháp phân cụm như K- mean, khoảng cách euclide là số liệu cần sử dụng. Do đó, chúng tôi chỉ tính các giá trị trung bình trong mỗi cụm. Và sau đó điều chỉnh được thực hiện trên các yếu tố dựa trên khoảng cách của chúng …

8 normal-distribution clustering k-means unsupervised-learning gaussian-mixture

1

Tự tổ chức bản đồ so với kernel k-nghĩa

Đối với một ứng dụng, tôi muốn phân cụm dữ liệu (có khả năng chiều cao) và trích xuất xác suất thuộc về một cụm. Tôi xem xét tại thời điểm Tự tổ chức bản đồ hoặc kernel k-nghĩa để thực hiện công việc. Những ưu và nhược điểm của …

8 clustering unsupervised-learning

2

Kết quả bất lợi của tiêu chí phân cụm

Tôi đã thực hiện một cụm các điểm tọa độ (kinh độ, vĩ độ) và thấy kết quả bất lợi, đáng ngạc nhiên từ các tiêu chí phân cụm cho số lượng cụm tối ưu. Các tiêu chí được lấy từ clusterCrit()gói. Các điểm mà tôi đang cố gắng phân …

8 r clustering

1

Phân tích một trận đấu bóng đá: những người chơi tương tự với DBSCAN và những quỹ đạo tương tự với TRACLUS

Tôi đang cố gắng phân tích một tập dữ liệu có nguồn gốc từ các cảm biến được đặt gần giày của người chơi trong một trận đấu ( http://www.orgs.ttu.edu/debs2013/index.php?goto=cfchallengedetails ). Tôi quyết định xem xét phân cụm để xác định: Quỹ đạo tương tự của người chơi trong trận …

8 clustering

3

Phát hiện các cụm trong một chuỗi nhị phân

Tôi có một chuỗi nhị phân như 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Trong đó các cụm chủ yếu là 1 được theo sau bởi số lượng không lớn hơn, như trong hình bên dưới (màu đen là 1): Tôi muốn áp dụng một kỹ thuật (tốt nhất là trong R hoặc trong Python), nơi …

8 classification clustering data-mining pattern-recognition binary-data

3

Tính không ổn định của phép tính ma trận hiệp phương sai

Tôi có 65 mẫu dữ liệu 21 chiều (được dán ở đây ) và tôi đang xây dựng ma trận hiệp phương sai từ nó. Khi được tính trong C ++, tôi nhận được ma trận hiệp phương sai được dán ở đây . Và khi được tính toán trong …

8 clustering matlab covariance distance-functions matrix-inverse

3

Bài kiểm tra hoc trong ANOVA thiết kế hỗn hợp 2x3 bằng SPSS?

Tôi có hai nhóm 10 người tham gia được đánh giá ba lần trong một thử nghiệm. Để kiểm tra sự khác biệt giữa các nhóm và trong ba đánh giá, tôi đã chạy ANOVA thiết kế hỗn hợp 2x3 với group(kiểm soát, thử nghiệm), time(thứ nhất, thứ hai, ba) …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Khoảng tin cậy khi sử dụng định lý Bayes

Tôi đang tính toán một số xác suất có điều kiện và liên quan đến khoảng tin cậy 95%. Đối với nhiều trường hợp của tôi, tôi có đếm đơn giản của xnhững thành công ra khỏi nthử nghiệm (từ một bảng dự phòng), vì vậy tôi có thể sử …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

2

Dữ liệu nhấp vào cụm

Gần đây tôi đã tham gia vào lĩnh vực học máy và một dự án tôi đang thực hiện yêu cầu tôi phân cụm người dùng dựa trên thứ tự họ truy cập các trang web trên một trang web. Tôi có dữ liệu ở dạng: ['user_id', 1, 2, 4, …

8 clustering unsupervised-learning model-based-clustering

3

Mô hình hỗn hợp và hỗn hợp quy trình Dirichlet (bài giảng hoặc bài viết mới bắt đầu)

Trong bối cảnh phân cụm trực tuyến, tôi thường tìm thấy nhiều bài báo nói về: "quy trình dirichlet" và "mô hình hỗn hợp hữu hạn / vô hạn". Cho rằng tôi chưa bao giờ sử dụng hoặc đọc về quy trình dirichlet hoặc mô hình hỗn hợp. Bạn có …

8 clustering inference mixture dirichlet-distribution dirichlet-process

1

Sửa lỗi tiêu chuẩn khi các biến độc lập được tự động tương thích

Tôi có một câu hỏi về cách sửa lỗi tiêu chuẩn khi biến độc lập có tương quan. Trong một thiết lập chuỗi thời gian đơn giản, chúng ta có thể sử dụng ma trận hiệp phương sai Newey-West với một loạt độ trễ và điều đó sẽ giải quyết …

8 clustering standard-error panel-data

1

Sự khác biệt chính giữa các phân tích Taxometric (ví dụ: phân tích MAXCOV, MAXEIG) và phân tích lớp tiềm ẩn là gì?

Nghiên cứu gần đây đã cố gắng xác định xem một số cấu trúc tâm lý nhất định là chiều hoặc phân loại gần đây (nghĩa là, bao gồm cả taxi hoặc các lớp). Ví dụ, các nhà nghiên cứu có thể quan tâm đến việc tìm hiểu xem có …

8 clustering latent-variable psychology latent-class model-based-clustering

1

Phát hiện hình dạng cho dữ liệu chuỗi thời gian

Tôi có một bộ sưu tập lớn về chuỗi thời gian - các phép đo được thực hiện cứ sau 15 phút (96 lần đo trong một ngày) trong khoảng thời gian 1 năm tại nhiều địa điểm khác nhau. Tôi đã chia mỗi chuỗi thời gian thành 365 chuỗi …

8 time-series clustering curves

Câu hỏi được gắn thẻ «clustering»