Thống kê và dữ liệu lớn clustering

5

Phân cụm một tập dữ liệu với cả hai biến rời rạc và liên tục

Tôi có một tập dữ liệu X có 10 thứ nguyên, 4 trong số đó là các giá trị rời rạc. Trong thực tế, 4 biến rời rạc đó là thứ tự, nghĩa là giá trị cao hơn hàm ý ngữ nghĩa cao hơn / tốt hơn. 2 trong số …

33 clustering k-means discrete-data continuous-data gaussian-mixture

2

Chọn phương pháp liên kết đúng cho phân cụm phân cấp

Tôi đang thực hiện phân cụm theo phân cấp trên dữ liệu tôi đã thu thập và xử lý từ kết xuất dữ liệu reddit trên Google BigQuery. Quá trình của tôi là như sau: Nhận 1000 bài đăng mới nhất trong / r / chính trị Tập hợp tất …

33 clustering distance unsupervised-learning hierarchical-clustering

1

PCA sẽ giúp như thế nào với phân tích phân cụm k-mean?

Bối cảnh : Tôi muốn phân loại các khu dân cư của thành phố thành các nhóm dựa trên đặc điểm kinh tế xã hội của họ, bao gồm mật độ đơn vị nhà ở, mật độ dân số, diện tích không gian xanh, giá nhà ở, số trường học …

32 clustering pca k-means dimensionality-reduction

3

Những tiêu chí dừng cho phân cụm phân cấp kết tụ được sử dụng trong thực tế?

Tôi đã tìm thấy tài liệu bao quát đề xuất tất cả các loại tiêu chí (ví dụ Glenn et al. 1985 (pdf) và Jung et al. 2002 (pdf)). Tuy nhiên, hầu hết trong số này không dễ thực hiện (ít nhất là theo quan điểm của tôi). Tôi đang …

32 clustering

3

Phân cụm một danh sách dài các chuỗi (từ) thành các nhóm tương tự

Tôi có một vấn đề sau: Tôi có một danh sách rất dài các từ, có thể là tên, họ, v.v. Tôi cần phải phân cụm danh sách từ này, sao cho các từ tương tự, ví dụ các từ có khoảng cách chỉnh sửa tương tự (Levenshtein) xuất hiện …

31 clustering k-means pattern-recognition

3

Phân tích lớp tiềm ẩn so với phân tích cụm - sự khác biệt trong suy luận?

Sự khác biệt trong suy luận có thể được thực hiện từ phân tích lớp tiềm ẩn (LCA) so với phân tích cụm là gì? Có đúng không khi LCA giả định một biến tiềm ẩn tiềm ẩn làm phát sinh các lớp, trong khi phân tích cụm là một …

30 clustering latent-variable latent-class

5

Cách xử lý dữ liệu phân cấp / lồng nhau trong học máy

Tôi sẽ giải thích vấn đề của tôi bằng một ví dụ. Giả sử bạn muốn dự đoán thu nhập của một cá nhân được cung cấp một số thuộc tính: {Tuổi, Giới tính, Quốc gia, Vùng, Thành phố}. Bạn có một tập dữ liệu đào tạo như vậy train …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

So sánh các dendrogram phân cụm phân cấp thu được bằng các khoảng cách & phương pháp khác nhau

[Tiêu đề ban đầu "Đo lường độ tương tự cho các cây phân cụm theo cấp bậc" sau đó đã được thay đổi bởi @ttnphns để phản ánh tốt hơn chủ đề] Tôi đang thực hiện một số phân tích cụm phân cấp trên khung dữ liệu của hồ sơ …

28 r clustering distance-functions similarities dendrogram

1

Tính toán độ lặp lại của hiệu ứng từ mô hình lmer

Tôi vừa xem qua bài viết này , trong đó mô tả cách tính toán độ lặp lại (còn gọi là độ tin cậy, hay còn gọi là tương quan nội hàm) của phép đo thông qua mô hình hiệu ứng hỗn hợp. Mã R sẽ là: #fit the model …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Sự khác biệt giữa các thuật toán k-mean tiêu chuẩn và hình cầu

Tôi muốn hiểu, sự khác biệt thực hiện chính giữa các thuật toán phân cụm k-nghĩa tiêu chuẩn và hình cầu là gì. Trong mỗi bước, k-có nghĩa là tính khoảng cách giữa các vectơ phần tử và trọng tâm cụm và gán lại tài liệu cho cụm này, mà …

28 clustering data-mining algorithms k-means

4

Làm thế nào để giảm kích thước trong R

Tôi có một ma trận trong đó a (i, j) cho tôi biết tôi đã xem trang j bao nhiêu lần. Có 27K cá nhân và 95 nghìn trang. Tôi muốn có một số "kích thước" hoặc "các khía cạnh" trong không gian của các trang tương ứng với các …

28 r clustering dimensionality-reduction

2

Làm thế nào để sử dụng cả hai biến nhị phân và biến liên tục với nhau trong phân cụm?

Tôi cần sử dụng các biến nhị phân (giá trị 0 & 1) trong k-mean. Nhưng k-có nghĩa là chỉ hoạt động với các biến liên tục. Tôi biết một số người vẫn sử dụng các biến nhị phân này trong k-mean bỏ qua thực tế là k-mean chỉ được …

27 r clustering binary-data k-means mixed-type-data

3

Làm thế nào là tìm trung tâm khác với tìm trung bình?

Khi thực hiện phân cụm theo cấp bậc, người ta có thể sử dụng nhiều số liệu để đo khoảng cách giữa các cụm. Hai số liệu như vậy ngụ ý tính toán trọng tâm và phương tiện của các điểm dữ liệu trong các cụm. Sự khác biệt giữa …

26 clustering mean

3

LSA so với PCA (phân cụm tài liệu)

Tôi đang điều tra các kỹ thuật khác nhau được sử dụng trong phân cụm tài liệu và tôi muốn xóa một số nghi ngờ liên quan đến PCA (phân tích thành phần chính) và LSA (phân tích ngữ nghĩa tiềm ẩn). Điều đầu tiên - sự khác biệt giữa …

25 clustering pca data-mining svd lsa

1

Giá trị chấp nhận được của tiêu chí Calinski & Harabasz (CH) là gì?

Tôi đã thực hiện một phân tích dữ liệu cố gắng phân cụm dữ liệu theo chiều dọc bằng cách sử dụng R và gói kml . Dữ liệu của tôi chứa khoảng 400 quỹ đạo riêng lẻ (như được gọi trong bài báo). Bạn có thể thấy kết quả …

25 r clustering panel-data

Câu hỏi được gắn thẻ «clustering»