Thống kê và dữ liệu lớn k-means

2

Tôi biết có thuật toán phân cụm k-mean và k-median. Một cái sử dụng giá trị trung bình là trung tâm của cụm và cái còn lại sử dụng trung vị. Câu hỏi của tôi là: khi nào / sử dụng ở đâu?

14 clustering k-means

2

Tại sao k-nghĩa là không được tối ưu hóa bằng cách sử dụng độ dốc?

Tôi biết phương tiện k thường được tối ưu hóa bằng cách sử dụng Tối đa hóa kỳ vọng . Tuy nhiên, chúng tôi có thể tối ưu hóa chức năng mất của nó giống như cách chúng tôi tối ưu hóa bất kỳ chức năng nào khác! Tôi đã …

14 optimization k-means expectation-maximization loss-functions

3

Tại sao chúng ta sử dụng phương tiện k thay vì các thuật toán khác?

Tôi đã nghiên cứu về phương tiện k và đây là những gì tôi nhận được: k-mean là một trong những thuật toán đơn giản nhất sử dụng phương pháp học tập không giám sát để giải quyết các vấn đề phân cụm đã biết. Nó hoạt động thực sự …

14 clustering data-mining algorithms k-means

4

Có bất kỳ thuật toán phân cụm không dựa trên khoảng cách?

Dường như đối với phương tiện K và các thuật toán liên quan khác, việc phân cụm dựa trên việc tính toán khoảng cách giữa các điểm. Có một cái mà làm việc mà không có nó?

14 machine-learning clustering data-mining k-means

3

Sự phù hợp của ANOVA sau phân tích cụm k-nghĩa

Thông báo sau bảng ANOVA sau phân tích K-mean chỉ ra rằng các mức ý nghĩa không nên được xem là thử nghiệm của các phương tiện bằng nhau, vì giải pháp cụm đã được rút ra dựa trên khoảng cách Euclide để tối đa hóa khoảng cách. Tôi nên …

14 anova k-means

2

Có một chức năng nào trong R lấy trung tâm của các cụm được tìm thấy và gán các cụm cho một tập dữ liệu mới không

Tôi có hai phần của tập dữ liệu đa chiều, hãy gọi cho họ trainvà test. Và tôi muốn xây dựng một mô hình dựa trên tập dữ liệu tàu và sau đó xác nhận nó trên tập dữ liệu thử nghiệm. Số lượng các cụm được biết đến. Tôi …

14 r clustering k-means

4

k-nghĩa là thực hiện với ma trận khoảng cách tùy chỉnh trong đầu vào

Bất cứ ai cũng có thể chỉ cho tôi một triển khai k-mean (sẽ tốt hơn nếu trong matlab) có thể lấy ma trận khoảng cách trong đầu vào? Việc thực hiện MATLAB tiêu chuẩn cần ma trận quan sát trong đầu vào và không thể tùy chỉnh thay đổi …

14 clustering matlab k-means

5

Làm cách nào tôi có thể chuyển đổi khoảng cách (Euclide) thành điểm tương tự

Tôi đang sử dụng kkk có nghĩa là phân cụm để giọng nói cụm. Khi tôi so sánh cách phát âm với dữ liệu loa được phân cụm, tôi nhận được méo trung bình (dựa trên khoảng cách Euclide). Khoảng cách này có thể trong phạm vi của [0,∞][0,∞][0,\infty] . …

13 clustering k-means distance euclidean

4

Khởi tạo trung tâm K-mean bằng các mẫu con ngẫu nhiên của tập dữ liệu?

Nếu tôi có một tập dữ liệu nhất định, việc khởi tạo các trung tâm cụm bằng cách sử dụng các mẫu ngẫu nhiên của tập dữ liệu đó sẽ thông minh đến mức nào? Ví dụ, giả sử tôi muốn 5 clusters. Tôi 5 random samplesnói, size=20%của các dữ …

13 clustering k-means unsupervised-learning

2

Sử dụng BIC để ước tính số lượng k trong KMEANS

Tôi hiện đang cố gắng tính BIC cho bộ dữ liệu đồ chơi của mình (ofc iris (:). Tôi muốn sao chép các kết quả như được hiển thị ở đây (Hình 5). Bài báo đó cũng là nguồn của tôi cho các công thức BIC. Tôi có 2 vấn …

13 python k-means scikit-learn bic

4

Bạn làm gì khi không có điểm khuỷu tay để phân cụm

Tôi đã học được rằng khi chọn một số cụm, bạn nên tìm một điểm khuỷu tay cho các giá trị khác nhau của K. Tôi đã vẽ các giá trị của các giá trị cho các giá trị của k từ 1 đến 10, nhưng tôi không thấy rõ …

13 clustering k-means

3

Tôi có cần bỏ các biến tương quan / collinear trước khi chạy kmeans không?

Tôi đang chạy kmeans để xác định cụm khách hàng. Tôi có khoảng 100 biến để xác định các cụm. Mỗi biến này đại diện cho% chi tiêu của khách hàng cho một danh mục. Vì vậy, nếu tôi có 100 danh mục, tôi có 100 biến này sao cho …

13 clustering data-mining k-means multicollinearity compositional-data

1

k-nghĩa là | | aka K-Means ++ có thể mở rộng

Bahman Bahmani et al. giới thiệu k-nghĩa | |, đây là phiên bản nhanh hơn của k-nghĩa ++. Thuật toán này được lấy từ trang 4 của bài báo của họ , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., & Vassilvitskii, S. (2012). Khả năng mở rộng k-nghĩa là …

12 clustering k-means

5

Làm thế nào để thực hiện việc cắt bỏ các giá trị trong số lượng điểm dữ liệu rất lớn?

Tôi có một bộ dữ liệu rất lớn và thiếu khoảng 5% giá trị ngẫu nhiên. Các biến này có mối tương quan với nhau. Ví dụ R tập dữ liệu sau đây chỉ là một ví dụ đồ chơi với dữ liệu tương quan giả. set.seed(123) # matrix of …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

3

Phân phối xác suất phân cụm - phương pháp & số liệu?

Tôi có một số điểm dữ liệu, mỗi điểm chứa 5 vectơ kết quả riêng biệt được kết tụ, mỗi kết quả của vectơ được tạo bởi một phân phối khác nhau (loại cụ thể mà tôi không chắc chắn, theo phỏng đoán tốt nhất của tôi là Weibull, với …

12 distributions clustering feature-selection kolmogorov-smirnov k-means

Câu hỏi được gắn thẻ «k-means»