Câu hỏi được gắn thẻ «clustering»

Phân tích cụm là nhiệm vụ phân vùng dữ liệu thành các tập hợp con của các đối tượng theo "độ tương tự" lẫn nhau của chúng mà không sử dụng kiến ​​thức có sẵn như nhãn lớp. [Các cụm-tiêu chuẩn-lỗi và / hoặc các mẫu cụm phải được gắn thẻ như vậy; KHÔNG sử dụng thẻ "phân cụm" cho chúng.]




2
Phân cụm dữ liệu ồn ào hoặc với các ngoại lệ
Tôi có một dữ liệu ồn ào của hai biến như thế này. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) …


3
Chọn cụm cho k-nghĩa: trường hợp 1 cụm
Có ai biết một phương pháp tốt để xác định xem việc phân cụm bằng kmeans có phù hợp không? Đó là, nếu mẫu của bạn thực sự đồng nhất thì sao? Tôi biết một cái gì đó giống như một mô hình hỗn hợp (thông qua mclust trong R) …
9 r  clustering  k-means 


1
Làm thế nào để so sánh các sự kiện quan sát so với dự kiến?
Giả sử tôi có một mẫu tần số gồm 4 sự kiện có thể xảy ra: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 và tôi có xác suất dự kiến ​​của các sự kiện của tôi sẽ xảy ra: p1 - 0.2 p2 - 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 




2
Có phải một khoảng cách phải là một số liệu của dòng Điên để một cụm phân cấp có giá trị trên đó không?
Hãy để chúng tôi nói rằng chúng tôi xác định một khoảng cách, không phải là một số liệu , giữa N mục. Dựa trên khoảng cách này, sau đó chúng tôi sử dụng phân cụm phân cấp kết tụ . Chúng ta có thể sử dụng từng thuật toán …



3
Phân cụm không gian hiệu quả
Hầu hết các thuật toán phân cụm mà tôi thấy bắt đầu bằng việc tạo khoảng cách từng điểm cho tất cả các điểm, điều này trở thành vấn đề trên các bộ dữ liệu lớn hơn. Có ai không làm điều đó? Hoặc nó trong một số cách tiếp …

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.