Phân tích mạng dữ liệu cổ điển


10

Có một số bộ dữ liệu cổ điển cho các nhiệm vụ phân loại / hồi quy máy học. Phổ biến nhất là:

Nhưng có ai biết bộ dữ liệu tương tự cho phân tích mạng / lý thuyết đồ thị không? Cụ thể hơn - Tôi đang tìm bộ dữ liệu tiêu chuẩn Vàng để so sánh / đánh giá / học hỏi:

  1. biện pháp trung tâm;
  2. thuật toán phân cụm mạng.

Tôi không cần một danh sách lớn các mạng / biểu đồ có sẵn công khai, nhưng một vài bộ dữ liệu thực sự phải biết.

BIÊN TẬP:

Thật khó để cung cấp các tính năng chính xác cho "bộ dữ liệu tiêu chuẩn vàng", nhưng đây là một số suy nghĩ. Tôi nghĩ rằng, bộ dữ liệu cổ điển thực sự phải đáp ứng các tiêu chí sau:

  • Nhiều tài liệu tham khảo trong các bài báo và sách giáo khoa;
  • Bao gồm trong các gói phần mềm phân tích mạng nổi tiếng;
  • Đủ thời gian tồn tại;
  • Sử dụng trong một số khóa học về phân tích biểu đồ.

Liên quan đến lĩnh vực mà tôi quan tâm, tôi cũng cần các lớp được gắn nhãn cho các đỉnh và / hoặc tiền mã hóa (hoặc được xác định trước) "điểm số thẩm quyền" (tức là ước tính trung tâm). Sau khi hỏi câu hỏi này, tôi tiếp tục tìm kiếm, và đây là một số ví dụ phù hợp:

  • Câu lạc bộ Karate của Zachary : được giới thiệu vào năm 1977, được trích dẫn hơn 1,5 nghìn lần (theo Google Scholar), các đỉnh có thuộc tính Faction (có thể được sử dụng để phân cụm).
  • Mạng cộng tác Erdos : thật không may, tôi không tìm thấy mạng này ở dạng tệp dữ liệu, nhưng nó khá nổi tiếng và nếu ai đó sẽ làm phong phú mạng với dữ liệu chuyên môn của các nhà toán học, nó cũng có thể được sử dụng để kiểm tra các thuật toán phân cụm.

1
Tôi nghĩ bạn có thể cải thiện câu hỏi này bằng cách định nghĩa "bộ dữ liệu tiêu chuẩn vàng" theo cách khách quan hơn. Điều gì làm cho nó "phải biết"? Nó có nên được tham khảo trong một số sách giáo khoa? Được sử dụng trong một số mô hình được công bố? V.v. Nếu không, các câu trả lời sẽ chủ quan VÀ chúng sẽ thay đổi khi thời gian trôi qua. Một sự kết hợp tồi tệ ở đây.
Không khí

Câu trả lời:


5

Những gì bạn đang tìm kiếm có thể được tìm thấy trong KONECT (trang web không hoạt động vì tôi đang viết bài này nhưng nó sẽ sớm được sửa!). Đây gần như là bộ sưu tập dữ liệu toàn diện nhất để phân tích mạng. Nhưng câu hỏi là cái nào là tiêu chuẩn hơn để sử dụng?

Chà, không có câu trả lời rõ ràng nào ngoại trừ Câu lạc bộ Karate của Zachary!

Nếu bạn thực hiện đánh giá tài liệu trong các thuật toán Phát hiện Cộng đồng, bạn sẽ thấy rằng hầu hết tất cả các bài viết sáng đều sử dụng các mạng khác nhau. Đề nghị của tôi là xem xét những gì Andrea Lancichinetti và Santo Fortunato đã làm cho biểu đồ điểm chuẩn. Họ đề xuất một số thuật toán tạo đồ thị chuẩn, ví dụ như thuật toán này .

Hy vọng nó giúp :)


bạn có thể xác định vị trí này thông qua máy wayback, web người bạn tốt nhất của bạn.archive.org/web/20150402165739/http://konect.uni-koblenz.de/ trộm
albert


1

Điều duy nhất tôi biết là dữ liệu điểm chuẩn cho Cơ sở dữ liệu đồ thị, chẳng hạn như Neo4j.

Bạn có thể tìm thấy các liên kết tương tự như liên kết này: http://istc-bigdata.org/index.php/benchmarking-graph-database/

nơi bạn có thể tìm thấy dữ liệu để kiểm tra phân tích mạng và lý thuyết đồ thị.

Hơn nữa, bạn có thể chơi với API của Twitter / Facebook để thu thập dữ liệu của riêng bạn. Đây cũng là một gợi ý trong trường hợp bạn không tìm thấy dữ liệu bạn đang tìm kiếm.


Cảm ơn, nhưng đó không phải là chính xác những gì tôi đang tìm kiếm. Xem cập nhật để biết thêm chi tiết.
sobach
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.