Câu hỏi được gắn thẻ «clustering»

Phân tích cụm là nhiệm vụ phân vùng dữ liệu thành các tập hợp con của các đối tượng theo "độ tương tự" lẫn nhau của chúng mà không sử dụng kiến ​​thức có sẵn như nhãn lớp. [Các cụm-tiêu chuẩn-lỗi và / hoặc các mẫu cụm phải được gắn thẻ như vậy; KHÔNG sử dụng thẻ "phân cụm" cho chúng.]

1
k-nghĩa là | | aka K-Means ++ có thể mở rộng
Bahman Bahmani et al. giới thiệu k-nghĩa | |, đây là phiên bản nhanh hơn của k-nghĩa ++. Thuật toán này được lấy từ trang 4 của bài báo của họ , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., & Vassilvitskii, S. (2012). Khả năng mở rộng k-nghĩa là …

4
Là bất đẳng thức tam giác được thực hiện cho các khoảng cách dựa trên tương quan?
Để phân cụm theo phân cấp, tôi thường thấy hai "số liệu" sau đây (chúng không nói chính xác) để đo khoảng cách giữa hai biến ngẫu nhiên XXX và YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align} Có ai thực hiện bất đẳng thức tam …

5
Làm thế nào để thực hiện việc cắt bỏ các giá trị trong số lượng điểm dữ liệu rất lớn?
Tôi có một bộ dữ liệu rất lớn và thiếu khoảng 5% giá trị ngẫu nhiên. Các biến này có mối tương quan với nhau. Ví dụ R tập dữ liệu sau đây chỉ là một ví dụ đồ chơi với dữ liệu tương quan giả. set.seed(123) # matrix of …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Bạn có thể so sánh các phương pháp phân cụm khác nhau trên một tập dữ liệu không có sự thật cơ bản bằng cách xác thực chéo không?
Hiện tại, tôi đang cố gắng phân tích một bộ dữ liệu tài liệu văn bản không có sự thật. Tôi đã nói rằng bạn có thể sử dụng xác nhận chéo k-Fold để so sánh các phương pháp phân cụm khác nhau. Tuy nhiên, các ví dụ tôi đã …



2
Phân cụm dữ liệu không gian trong R
Tôi có một bộ dữ liệu hàng tháng về nhiệt độ mặt nước biển (SST) và tôi muốn áp dụng một số phương pháp cụm để phát hiện các vùng có mẫu SST tương tự. Tôi có một tập hợp các tệp dữ liệu hàng tháng chạy từ năm 1985 …
12 r  clustering  spatial 



1






Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.