Làm cách nào để kiểm tra xem cụm dữ liệu nhị phân của tôi có đáng kể hay không


12

Tôi đang phân tích giỏ hàng, tập dữ liệu của tôi được thiết lập các vectơ giao dịch, với các mặt hàng mà sản phẩm được mua.

Khi áp dụng phương tiện k trên các giao dịch, tôi sẽ luôn nhận được một số kết quả. Một ma trận ngẫu nhiên có thể cũng sẽ hiển thị một số cụm.

Có cách nào để kiểm tra xem cụm mà tôi tìm thấy có phải là một nhóm quan trọng hay không, đó có thể là một sự trùng hợp ngẫu nhiên. Nếu có, làm thế nào tôi có thể làm điều đó.

Câu trả lời:


14

Về phân tích giỏ hàng, tôi nghĩ rằng mục tiêu chính là phân chia các kết hợp thường xuyên nhất của các sản phẩm được mua bởi khách hàng. Đại association rulesdiện cho phương pháp tự nhiên nhất ở đây (thực sự chúng được phát triển cho mục đích này). Phân tích các kết hợp sản phẩm được khách hàng mua và số lần các kết hợp này được lặp lại, dẫn đến quy tắc loại 'nếu có điều kiện, sau đó đưa ra kết quả' với phép đo độ thú vị tương ứng. Bạn cũng có thể xem xét Log-linear modelsđể điều tra các mối liên quan giữa các biến được xem xét.

Bây giờ, để phân cụm, đây là một số thông tin có thể có ích:

Lúc đầu xem xét Variable clustering. Phân cụm biến được sử dụng để đánh giá cộng tuyến, dự phòng và để phân tách các biến thành các cụm có thể được ghi thành một biến duy nhất, do đó dẫn đến giảm dữ liệu. Tìm varclushàm (gói Hmisc in R)

Đánh giá độ ổn định của clusterwise: function clusterboot{R gói fpc}

Thống kê dựa trên khoảng cách để xác thực cụm: hàm cluster.stats{gói R fpc}

Như mbq đã đề cập, sử dụng chiều rộng hình bóng để đánh giá số cụm tốt nhất. Xem này . Về chiều rộng hình bóng, xem thêm chức năng optsil .

Ước tính số lượng cụm trong một tập dữ liệu thông qua thống kê khoảng cách

Để tính toán các chỉ số khác nhau và các số đo khoảng cách, hãy xem DSvdisvegdist

Thuật toán phân cụm EM có thể quyết định có bao nhiêu cụm được tạo bằng cách xác thực chéo, (nếu bạn không thể chỉ định apriori có bao nhiêu cụm để tạo). Mặc dù thuật toán EM được đảm bảo hội tụ đến mức tối đa, đây là mức tối đa cục bộ và có thể không nhất thiết phải giống với mức tối đa toàn cầu. Để có cơ hội đạt được mức tối đa toàn cầu tốt hơn, toàn bộ quy trình nên được lặp lại nhiều lần, với các dự đoán ban đầu khác nhau cho các giá trị tham số. Con số khả năng đăng nhập tổng thể có thể được sử dụng để so sánh các cấu hình cuối cùng khác nhau thu được: chỉ cần chọn cực đại lớn nhất của cực đại cục bộ . Bạn có thể tìm thấy một triển khai của trình phân cụm EM trong dự án nguồn mở WEKA

Đây cũng là một liên kết thú vị.

Cũng tìm kiếm ở đây choFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation

Cuối cùng, bạn có thể khám phá kết quả phân cụm bằng clusoston


8

Đây là một phương pháp sử dụng Monte Carlo để cho biết kết quả có đúng hay không.

Giả thuyết Null của chúng tôi H_0 là tập dữ liệu của chúng tôi không có một cụm thú vị. Giả thuyết thay thế của chúng tôi H_1 là tập dữ liệu của chúng tôi chứa một cụm thú vị.

Bằng cách này, chúng tôi nghĩ rằng thú vị như, thú vị hơn so với cấu trúc phân cụm của một tập dữ liệu ngẫu nhiên có cùng lề và hàng cột. Tất nhiên các ràng buộc khác có thể được chọn, nhưng để các ràng buộc lỏng lẻo sẽ làm cho kết quả của chúng ta quá chung chung và các ràng buộc hẹp sẽ khắc phục việc phân cụm thành nhiều, do đó làm cho kết quả của chúng ta không đáng kể. Các lề, như chúng ta sẽ thấy, là một lựa chọn tốt vì các phương thức hiện có để ngẫu nhiên hóa với nó.

Hãy xác định theo thống kê kiểm tra của chúng tôi về lỗi phân cụm (bình phương trong khoảng cách cụm), T từ Π_0. Giá trị cho tập dữ liệu gốc của chúng tôi là t .

Chúng tôi không biết gì về phân phối này, ngoại trừ việc chúng tôi có thể rút mẫu từ nó. Điều này làm cho nó trở thành một ứng cử viên sáng giá cho Monte Carlo.

Bây giờ chúng ta rút ra n (iid) các mẫu ngẫu nhiên từ Π_0 và tính giá trị p thực nghiệm với công thức p_emp = 1 / (n + 1) * (_i = 1 - n I (t_i> = t) + 1)

Việc lấy mẫu ngẫu nhiên có thể được thực hiện bằng cách ngẫu nhiên trao đổi. Nói một cách đơn giản, một hình vuông được tìm kiếm trên hai góc đối diện 1 và trên hai góc còn lại là 0. Sau đó các góc được lật. Điều này là giữ cho các cột và hàng lề. Quy trình được lặp lại đủ số lần cho đến khi tập dữ liệu đủ ngẫu nhiên (điều này sẽ mất một số thử nghiệm). Thông tin thêm về điều này có thể được tìm thấy trong Đánh giá kết quả khai thác dữ liệu thông qua Swap Randomization của Gionis et. al.

Một phương pháp để làm điều này là xác định phân phối dữ liệu của bạn và nhận lỗi phân cụm làm thống kê kiểm tra t.

Ví dụ: nếu chúng ta coi tất cả các tập dữ liệu có cùng lề hàng và cột là phân phối dữ liệu của mình, thì chúng ta có thể lấy n ma trận ngẫu nhiên Xi từ phân phối này và tính toán lỗi phân cụm cho chúng. Sau đó, chúng ta có thể tính giá trị p emperical theo công thức


4

Có một cái gì đó giống như hình bóng , trong một chừng mực nào đó xác định thống kê xác định chất lượng cụm (ví dụ, nó được sử dụng để tối ưu hóa k). Bây giờ một Monte Carlo có thể sẽ diễn ra như sau: bạn tạo ra rất nhiều tập dữ liệu ngẫu nhiên tương tự như bản gốc của bạn (ví dụ bằng cách xáo trộn các giá trị giữa các hàng trong mỗi cột), phân cụm và thu được phân phối hình bóng trung bình có thể được sử dụng để kiểm tra mức ý nghĩa của hình bóng trong dữ liệu thực. Tôi vẫn quản trị rằng tôi chưa bao giờ thử ý tưởng này.


1
Điều này làm tôi nhớ đến một poster tôi đã xem tại hội nghị Lập bản đồ não người 2010. Tom Nichols đã sử dụng bootstrap tham số để đánh giá tính ổn định của mối tương quan cophenetic và hình bóng trong phân cụm phân cấp, nhưng xem poster của anh ấy: j.mp/9yXObA .
chl

@chl Cảm ơn; thực sự gần đây tôi đã thấy điều tương tự được thực hiện trong phòng thí nghiệm của tôi; kết quả là các cụm không đáng kể mặc dù: - /

Tôi đồng ý rằng điều này nghe giống như bootstrapping.
Vass

(FYI: giải thích giá trị hình bóng ). Ngoài ra, lưu ý rằng giá trị hình bóng không được xác định cho cụm k = 1, vì vậy chúng tôi không thể so sánh giả thuyết k = 1 (tức là tập dữ liệu không được bao gồm) so với k> 1 (tập dữ liệu được phân cụm) bằng cách sử dụng giá trị hình.
Franck Dernoncourt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.