Tìm kiếm dữ liệu nhân tạo 2D để chứng minh các thuộc tính của thuật toán phân cụm

9

Tôi đang tìm kiếm bộ dữ liệu của datapoint 2 chiều (mỗi datapoint là một vectơ của hai giá trị (x, y)) theo các phân phối và biểu mẫu khác nhau. Mã để tạo dữ liệu như vậy cũng sẽ hữu ích. Tôi muốn sử dụng chúng để vẽ / hình dung cách thức một số thuật toán phân cụm thực hiện. Dưới đây là một số ví dụ:

— steffen
nguồn

Tôi bỏ phiếu cho cw;)

— steffen

Một câu hỏi tương tự trong dòng bộ dữ liệu cụ thể đã bị đóng cửa ở đây: stats.stackexchange.com/questions/38928/...

— xe tang

Đối với SPSS, tôi đã viết một macro tạo cụm (truy cập trang của tôi, xem "Tạo cụm"). Tuy nhiên, nó không tạo ra các hình dạng tự phụ như nhẫn hoặc xoắn ốc.

— ttnphns

11

R đi kèm với rất nhiều bộ dữ liệu và có vẻ như nó sẽ không phải là vấn đề lớn để sao chép hầu hết các ví dụ bạn đã trích dẫn với một vài dòng mã. Bạn cũng có thể thấy gói mlbench hữu ích, đặc biệt là các bộ dữ liệu tổng hợp bắt đầu bằng mlbench.*. Một số minh họa được đưa ra dưới đây.

nhập mô tả hình ảnh ở đây

Bạn sẽ tìm thấy các ví dụ bổ sung bằng cách xem Chế độ xem nhiệm vụ cụm trên CRAN. Ví dụ, gói fpc có một trình tạo tích hợp cho các bộ dữ liệu điểm chuẩn cụm "hình mặt" ( rFace).

nhập mô tả hình ảnh ở đây

Các cân nhắc tương tự áp dụng cho Python, nơi bạn sẽ tìm thấy các bài kiểm tra và bộ dữ liệu điểm chuẩn thú vị để phân cụm với scikit-learn .

Kho lưu trữ học máy của UCI cũng lưu trữ rất nhiều bộ dữ liệu , nhưng tốt hơn hết bạn nên tự mô phỏng dữ liệu bằng ngôn ngữ bạn chọn.

— chl
nguồn

4

Dưới đây là một số bộ dữ liệu được thiết kế chính xác cho nhiệm vụ này:

Bộ vấn đề phân cụm cơ bản của Ultsch

— Steffen
nguồn

2

Đây benchmark đồ chơi phân nhóm chứa nhiều tập hợp dữ liệu ở định dạng ARFF (có thể dễ dàng chuyển đổi sang CSV), chủ yếu là với các nhãn thực địa. Điểm chuẩn sẽ xác nhận các thuộc tính mong muốn cơ bản của các thuật toán phân cụm. Hầu hết các tập dữ liệu đến từ các giấy tờ phân cụm như:

BIRCH - Zhang, Tian, Raghu Ramakrish Nam và Miron Livny. "BIRCH: một phương pháp phân cụm dữ liệu hiệu quả cho cơ sở dữ liệu rất lớn." Bản ghi SIGMOD ACM. Tập 25. Số 2. ACM, 1996.
Chữa bệnh - Guha, Sudipto, Rajeev Rastogi và Kyuseok Shim. "CURE: một thuật toán phân cụm hiệu quả cho các cơ sở dữ liệu lớn." Bản ghi SIGMOD ACM. Tập 27. Số 2. ACM, 1998.
Tắc kè hoa - Karypis, George, Eui-Hong Han và Vipin Kumar. "Tắc kè hoa: Phân cụm theo phân cấp sử dụng mô hình động." Máy tính 32.8 (1999): 68-75.
Bộ vấn đề phân cụm cơ bản - Ultsch, A.: Phân cụm với SOM: U * C, In Proc. Hội thảo về Bản đồ tự tổ chức, Paris, Pháp, (2005), trang 75-82
MOCK - Handl, Julia và Joshua Knowles. "Một cách tiếp cận tiến hóa để phân cụm nhiều đối tượng." Tính toán tiến hóa, Giao dịch của IEEE ngày 11.1 (2007): 56-76.
Phân cụm phổ dựa trên đường dẫn mạnh mẽ - Chang, Hong và Dit-Yan Yeung. "Phân cụm phổ dựa trên đường dẫn mạnh mẽ." Nhận dạng mẫu 41.1 (2008): 191-203.

— Tombart
nguồn

1

ELKI đi kèm với một vài bộ dữ liệu (cũng kiểm tra các bài kiểm tra đơn vị, chúng chứa nhiều hơn các bộ trên trang web, cùng với các cài đặt tham số).

Nó cũng bao gồm một trình tạo dữ liệu khá linh hoạt.

— Có QUIT - Anony-Mousse
nguồn

1

Đây là một trình tạo cụm tùy chỉnh. Nó chỉ giải quyết một lớp tập hợp dữ liệu nhất định, nhưng chắc chắn nó có thể được sử dụng để điều tra thuật toán cụm.

Dưới đây là một ví dụ về loại cụm mà nó có thể tạo:

Liên kết cụm được lưu trong một tệp văn bản. Mã này là mã nguồn mở theo giấy phép MIT.

— Felix Dobslaw
nguồn

1

Kịch bản Matlab này tạo dữ liệu 2D để phân cụm. Nó chấp nhận một số tham số để dữ liệu được tạo ra nằm trong yêu cầu của người dùng.

— giả
nguồn

0

Tôi không thể tin rằng không ai đã đề cập đến dữ liệu Iris của Fisher.

Tôi không nghĩ rằng tôi đã thấy một kỹ thuật phân cụm không sử dụng dữ liệu mống mắt làm ví dụ.

Trong r, chỉ cần gõ "iris" để truy cập dữ liệu.

Dưới đây là một ví dụ về một cốt truyện iris đẹp (và điển hình): http://ygc.name/2011/12/24/ml- class-7-kmeans -clustering /

— genorama
nguồn