Bộ dữ liệu cho các ví dụ trực quan hóa dữ liệu, giảng dạy và nghiên cứu


9

Tôi đang tìm kiếm các bộ dữ liệu hiện có mà chúng tôi có thể sử dụng để kiểm tra một số kỹ thuật dữ liệu mà chúng tôi đang nghiên cứu.

Tôi biết một số tài nguyên như những tài nguyên có trong R (thử plot(Orange)hoặc xem tại đây ).

Nhưng tôi muốn tiến lên một bước:

  • Những bộ dữ liệu trong thế giới thực tốt nhất để kiểm tra một công cụ trực quan?
  • Những bộ dữ liệu nào bạn đã sử dụng trong các bài báo học thuật hoặc các slide giảng dạy về datavis?
  • Đâu là ví dụ tốt nhất từ ​​thế giới thực để chỉ ra những lợi thế của đồ thị?

2
Nhiều ví dụ thực tế tốt, với một số dự án được liên kết cung cấp các bộ dữ liệu (nhưng hầu hết không, không may): infosthetic.com
WSkid

1
Bạn rõ ràng đang tìm kiếm bộ dữ liệu miễn phí ?
Fomite

3
Hình dung phụ thuộc vào bối cảnh và đối tượng (trong số những thứ khác), cho thấy "tốt nhất" là mơ hồ trong bối cảnh này. Bạn có thể tập trung hơn, trả lời thích hợp bằng cách chỉ ra "kỹ thuật" nào bạn đang nghiên cứu.
whuber

1
@whuber Kỹ thuật, về tự động hóa trực quan hóa. Tốt nhất, để giải thích. Tốt nhất, cho điểm chuẩn.
robermorales

@EpiGrad Có, miễn phí nhất có thể.
robermorales

Câu trả lời:


5

Có số lượng lớn các cơ sở dữ liệu có sẵn trên internet. Tùy thuộc vào đối tượng, bạn có thể nhận được các nguồn khác nhau.

Ví dụ: trong lĩnh vực chủ đề Phát triển con người, bạn có thể có các nguồn dữ liệu tại (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Đối với quan sát biến đổi khí hậu, có một trang web có dữ liệu khí hậu có độ phân giải cao tại (http://www.ipcc-data.org/), ví dụ:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Cả hai ví dụ, chứa dữ liệu thực, được sử dụng trong các bài báo khoa học được công bố, với số lượng lớn dữ liệu. Thời gian liên quan và / hoặc dữ liệu liên quan đến không gian. Khả năng trực quan của những dữ liệu đó là vô tận.


bạn thích nhất bộ dữ liệu nào từ các nguồn tuyệt vời này? cảm ơn
robermorales

1
Nó phụ thuộc vào sự phù hợp cho "hương vị" của hình dung. Ví dụ: để khám phá / hiển thị chuỗi thời gian, web IPCC có đủ dữ liệu và được sử dụng rộng rãi (rõ ràng để phân tích biến đổi khí hậu), để hiển thị dữ liệu không gian, trang web Phát triển Con người chứa nhiều dữ liệu liên quan đến không gian cũng như dữ liệu liên quan đến thời gian.
Jose Zubcoff

Liên kết đầu tiên của bạn bị hỏng (lỗi DNS).
horaceT

Thật không may, liên kết đầu tiên bị hỏng (5 năm sau), nhưng có rất nhiều dữ liệu mở ngoài đó: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff

9

Tôi thích sử dụng các bộ dữ liệu Anscombe (cũng có sẵn trong R) để cho thấy tầm quan trọng của âm mưu khi thực hiện hồi quy. Nếu bạn không quen thuộc, bạn sẽ có cùng dòng hồi quy và chẩn đoán từ cả bốn bộ dữ liệu, mặc dù bản thân tất cả các bộ trông khá khác nhau. Bạn có thể lấy các ô bên dưới và biến chúng thành các ô dư để minh họa các vấn đề mà bạn có thể tìm kiếm trong phần dư sau khi thực hiện hồi quy.

Bộ dữ liệu của Anscombe


Vâng, chúng tôi đã biết rằng bộ dữ liệu. Đó là một điểm khởi đầu tốt.
robermorales

Vấn đề chính là nó không phải là một bộ dữ liệu trong thế giới thực.
robermorales

3
@robermorales, Đủ công bằng, nhưng tôi nghĩ rằng việc nhìn thấy phiên bản "thuần túy" của vấn đề giúp dễ hiểu các vấn đề / hình ảnh / thế giới thực lộn xộn hơn.
Charlie

6

ví dụ tốt nhất từ ​​thế giới thực để chỉ ra những lợi thế của đồ thị là gì?

Bất kỳ bàn lớn. Ví dụ: hình ảnh google của "bảng điều tra dân số chính thức". Bạn sẽ thấy những thứ như dưới đây .

Cũng nhìn vào Gelman et al. (2002) Hãy thực hành những gì chúng ta giảng: Biến các bảng thành đồ thị. Thống kê người Mỹ 56: 121-130

bảng phức tạp lớn


Mẹo tốt! Chúng tôi không biết ref.
robermorales

4

William S. Cleveland có hai cuốn sách sử dụng đồ họa tuyệt vời, dữ liệu và mã để tạo các biểu đồ trong Visualization Data có trên trang web của anh ấy


bạn thích cái nào hơn trong bộ dữ liệu của Cleveland? cảm ơn
robermorales

1
@robertomorales Tôi nghĩ rằng tất cả chúng đều được lựa chọn tốt cho mục đích của chúng. Bất cứ ai quan tâm đến đồ họa thống kê nên nghiên cứu kỹ về Cleveland.
Peter Flom

1
Dữ liệu cho Trực quan hóa Dữ liệu có thể được tìm thấy tại lib.stat.cmu.edu/datasets/visualizing.data.zip Tôi không còn có thể tìm thấy chúng trên trang web riêng của Cleveland.
Nick Cox

4

Có thể bạn đã biết về những điều này, nhưng dù sao thì chúng vẫn ở đây:

Các UCI Machine Learning Repositor y có nhiều truy cập công khai, tập hợp dữ liệu thế giới thực.

Chính phủ Hoa Kỳ công khai nhiều bộ dữ liệu của mình tại data.gov .

Nếu bạn muốn một số dữ liệu trực quan phức tạp, tôi khuyên bạn nên xem xét một nhiệm vụ phân loại. Dường như với tôi rằng Bag of Words được đặt trên UCI MLR có một số thuộc tính đẹp, nhưng tôi có thể bị nhầm lẫn (đã được một thời gian kể từ khi tôi sử dụng nó).


Cảm ơn! Có rất nhiều !
robermorales

3

Ở đây có một ít.

Bộ dữ liệu mẫu của Công cụ Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets Bộ dữ liệu
mẫu đi kèm với Công cụ Sci2.

Bộ dữ liệu mẫu của Tableau
https://public.tableau.com/s/resource?qt-overview_resource=1#qt-overview_resource Bộ
dữ liệu mẫu để bắt đầu với Tableau.

Dữ liệu công cộng tuyệt vời
https://github.com/caesar0301/awclaw-public-datasets/blob/master/README.rst
Danh sách các nguồn dữ liệu công khai này được thu thập và thu thập từ blog, câu trả lời và phản hồi của người dùng. Hầu hết các bộ dữ liệu là miễn phí, một số thì không.

Chủ đề này là khá cũ, hy vọng vết sưng này sẽ nhận được một số đóng góp mới!


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.