Có một số bộ dữ liệu cổ điển cho các nhiệm vụ phân loại / hồi quy máy học. Phổ biến nhất là:
- Bộ dữ liệu hoa Iris ;
- Tập dữ liệu Titanic ;
- Ô tô xu hướng ;
- Vân vân.
Nhưng có ai biết bộ dữ liệu tương tự cho phân tích mạng / lý thuyết đồ thị không? Cụ thể hơn - Tôi đang tìm bộ dữ liệu tiêu chuẩn Vàng để so sánh / đánh giá / học hỏi:
- biện pháp trung tâm;
- thuật toán phân cụm mạng.
Tôi không cần một danh sách lớn các mạng / biểu đồ có sẵn công khai, nhưng một vài bộ dữ liệu thực sự phải biết.
BIÊN TẬP:
Thật khó để cung cấp các tính năng chính xác cho "bộ dữ liệu tiêu chuẩn vàng", nhưng đây là một số suy nghĩ. Tôi nghĩ rằng, bộ dữ liệu cổ điển thực sự phải đáp ứng các tiêu chí sau:
- Nhiều tài liệu tham khảo trong các bài báo và sách giáo khoa;
- Bao gồm trong các gói phần mềm phân tích mạng nổi tiếng;
- Đủ thời gian tồn tại;
- Sử dụng trong một số khóa học về phân tích biểu đồ.
Liên quan đến lĩnh vực mà tôi quan tâm, tôi cũng cần các lớp được gắn nhãn cho các đỉnh và / hoặc tiền mã hóa (hoặc được xác định trước) "điểm số thẩm quyền" (tức là ước tính trung tâm). Sau khi hỏi câu hỏi này, tôi tiếp tục tìm kiếm, và đây là một số ví dụ phù hợp:
- Câu lạc bộ Karate của Zachary : được giới thiệu vào năm 1977, được trích dẫn hơn 1,5 nghìn lần (theo Google Scholar), các đỉnh có thuộc tính Faction (có thể được sử dụng để phân cụm).
- Mạng cộng tác Erdos : thật không may, tôi không tìm thấy mạng này ở dạng tệp dữ liệu, nhưng nó khá nổi tiếng và nếu ai đó sẽ làm phong phú mạng với dữ liệu chuyên môn của các nhà toán học, nó cũng có thể được sử dụng để kiểm tra các thuật toán phân cụm.