Bộ dữ liệu có sẵn công khai

168

Một trong những vấn đề phổ biến trong khoa học dữ liệu là thu thập dữ liệu từ nhiều nguồn khác nhau theo định dạng được làm sạch bằng cách nào đó (bán cấu trúc) và kết hợp các số liệu từ nhiều nguồn khác nhau để thực hiện phân tích cấp cao hơn. Nhìn vào nỗ lực của người khác, đặc biệt là các câu hỏi khác trên trang web này, có vẻ như nhiều người trong lĩnh vực này đang làm công việc có phần lặp đi lặp lại. Ví dụ: phân tích các tweet, bài đăng trên facebook, bài viết trên Wikipedia, v.v ... là một phần của rất nhiều vấn đề dữ liệu lớn.

Một số bộ dữ liệu này có thể truy cập được bằng các API công khai do trang web của nhà cung cấp cung cấp, nhưng thông thường, một số thông tin hoặc số liệu có giá trị bị thiếu trong các API này và mọi người phải thực hiện phân tích lặp đi lặp lại. Ví dụ: mặc dù người dùng phân cụm có thể phụ thuộc vào các trường hợp sử dụng và lựa chọn tính năng khác nhau, nhưng việc phân nhóm cơ sở người dùng Twitter / Facebook có thể hữu ích trong nhiều ứng dụng Dữ liệu lớn, do API cung cấp và không có sẵn công khai trong các bộ dữ liệu độc lập .

Có bất kỳ chỉ mục hoặc trang web lưu trữ dữ liệu có sẵn công khai có chứa các bộ dữ liệu có giá trị có thể được sử dụng lại để giải quyết các vấn đề dữ liệu lớn khác không? Tôi có nghĩa là một cái gì đó như GitHub (hoặc một nhóm các trang web / bộ dữ liệu công cộng hoặc ít nhất là một danh sách toàn diện) cho khoa học dữ liệu. Nếu không, những lý do cho việc không có một nền tảng như vậy cho khoa học dữ liệu là gì? Giá trị thương mại của dữ liệu, cần thường xuyên cập nhật bộ dữ liệu, ...? Chúng ta không thể có một mô hình nguồn mở để chia sẻ các tập dữ liệu được tạo ra cho các nhà khoa học dữ liệu?

open-source dataset

— Amir Ali Akbari
nguồn

18

Câu hỏi này có thể phù hợp hơn trên opendata dành riêng . Điều đó nói rằng, tôi bắt chéo ngón tay của mình để lấy dat , nó khao khát trở thành một "Git cho dữ liệu".

— ojdo

2

@ojdo Cảm ơn, tôi không bao giờ nghe nói về opendata.SE trước đây, tôi cũng phát hiện này câu hỏi thú vị (và rất giống nhau) ở đó.

— Amir Ali Akbari

2

Xem quora.com/Where-can-I-find-large-datasets-open-to-the-public .

— Piotr Migdal

Tôi chưa tìm thấy bất kỳ bộ dữ liệu toàn diện miễn phí tốt nào cho các ứng dụng Business Intelligence thông thường. Bộ dữ liệu Microsoft Contoso BI Demo cho ngành bán lẻ từ Trung tâm tải xuống chính thức của Microsoft tải xuống hoạt động với một số sản phẩm của Microsoft (xem AndyGett trên SharePoint và phần mềm doanh nghiệp khác ), nhưng tôi không thấy bất kỳ bản sao sql hoặc csv đơn giản nào của nó, cũng như bất kỳ thông tin giấy phép nào .

— nealmcb

1

Bạn đã tham gia trao đổi ngăn xếp dữ liệu mở? opendata.stackexchange.com

— sss4r

88

Trên thực tế, có một danh sách rất hợp lý các bộ dữ liệu có sẵn công khai, được hỗ trợ bởi các doanh nghiệp / nguồn khác nhau.

Một số trong số họ là dưới đây:

Bộ dữ liệu công khai trên Amazon WebService ;
Kho lưu trữ thực hiện khai thác mục thường xuyên ;
Kho lưu trữ máy học UCI ;
KDnuggets - một danh sách lớn gồm rất nhiều kho lưu trữ công cộng.

Bây giờ, hai cân nhắc về câu hỏi của bạn. Đầu tiên, liên quan đến chính sách chia sẻ cơ sở dữ liệu. Từ kinh nghiệm cá nhân, có một số cơ sở dữ liệu không thể được cung cấp công khai, vì liên quan đến các hạn chế quyền riêng tư (như đối với một số thông tin mạng xã hội) hoặc liên quan đến thông tin của chính phủ (như cơ sở dữ liệu hệ thống y tế).

Một điểm khác liên quan đến việc sử dụng / ứng dụng của bộ dữ liệu. Mặc dù một số cơ sở có thể được xử lý lại cho phù hợp với nhu cầu của ứng dụng, nhưng thật tuyệt vời khi có một số tổ chức tốt đẹp của các bộ dữ liệu theo mục đích. Việc phân loại nên liên quan đến phân tích biểu đồ xã hội, khai thác vật phẩm, phân loại và rất nhiều lĩnh vực nghiên cứu khác có thể có.

— Rubens
nguồn

64

Cập nhật:

Kaggle.com , ngôi nhà của những người đam mê khoa học dữ liệu & máy học hiện đại :), đã mở kho lưu trữ dữ liệu của riêng mình .

Ngoài các nguồn được liệt kê.

Một số bộ dữ liệu mạng xã hội:

Có rất nhiều nguồn được liệt kê tại Thống kê SE:

— IharS
nguồn

37

Có rất nhiều bộ dữ liệu có sẵn, một trong số nhiều người thường bỏ qua là data.gov . Như đã đề cập trước đây, Freebase rất tuyệt, vì vậy tất cả các ví dụ được đăng bởi @Rubens

— MCP_infiltrator
nguồn

35

Freebase là một cơ sở dữ liệu hướng đến cộng đồng miễn phí bao gồm nhiều chủ đề thú vị và chứa khoảng 2,5 tỷ sự kiện ở định dạng máy có thể đọc được. Nó cũng có API tốt để thực hiện các truy vấn dữ liệu.

Dưới đây là một danh sách tổng hợp các tập dữ liệu mở: http://www.datapure.co/open-data-sets

— Konstantin V. Salikhov
nguồn

Freebase đang đóng cửa và cơ sở dữ liệu của nó sẽ sớm chuyển đến Wikidata .

— cynddl

31

Các liên kết sau đây có sẵn

— Jakubee
nguồn

25

Đối với dữ liệu chuỗi thời gian nói riêng, Quandl là một tài nguyên tuyệt vời - một thư mục có thể dễ dàng duyệt qua (hầu hết) chuỗi thời gian sạch.

Một trong những tính năng thú vị nhất của họ là giá cổ phiếu dữ liệu mở - tức là dữ liệu tài chính có thể được chỉnh sửa theo kiểu wiki và không bị hạn chế bởi cấp phép.

— azza-bazoo
nguồn

20

Enigma là một kho lưu trữ các bộ dữ liệu có sẵn công khai. Gói miễn phí của nó cung cấp tìm kiếm dữ liệu công khai, với các cuộc gọi API 10k mỗi tháng. Không phải tất cả các cơ sở dữ liệu công cộng được liệt kê, nhưng danh sách này là đủ cho các trường hợp phổ biến.

Tôi đã sử dụng nó cho nghiên cứu học thuật và nó đã tiết kiệm cho tôi rất nhiều thời gian.

Một nguồn dữ liệu thú vị khác là dự án @unitedstates , chứa dữ liệu và công cụ để thu thập chúng, về Hoa Kỳ (thành viên của Quốc hội, hình dạng địa lý).

— cynddl
nguồn

18

Tôi muốn chỉ đến Điều tra dân số mở . Đây là một sáng kiến của Quỹ Tri thức mở dựa trên sự đóng góp của những người ủng hộ dữ liệu mở và các chuyên gia trên toàn thế giới.

Giá trị của Điều tra dữ liệu mở là mở, hướng đến cộng đồng và nỗ lực có hệ thống để thu thập và cập nhật cơ sở dữ liệu của các bộ dữ liệu mở trên toàn cầu và trong một số trường hợp, như ở Hoa Kỳ, ở cấp thành phố .

Ngoài ra, đây là cơ hội để so sánh các quốc gia và thành phố khác nhau trong các lĩnh vực được lựa chọn.

— tomaskazemekas
nguồn

18

Ngoài ra còn có một tài nguyên khác được cung cấp bởi The Guardian, British Daily trên trang web của họ. Các bộ dữ liệu được xuất bản bởi Guardian Datablog đều được lưu trữ. Các bộ dữ liệu liên quan đến tài khoản của Câu lạc bộ bóng đá Premier League, Lạm phát và chi tiết GDP của Vương quốc Anh, dữ liệu giải thưởng Grammy, vv Các bộ dữ liệu có sẵn tại

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

Một số tài nguyên hơn. Một số bộ dữ liệu ở định dạng R hoặc R comm tồn tại để nhập trực tiếp dữ liệu vào R.

http://www.inside-r.org/howto/finding-data-iNET

— binga
nguồn

17

Tìm kiếm Google tùy chỉnh

Bạn có thể sử dụng Tìm kiếm Google tùy chỉnh cho các bộ dữ liệu:

Tìm kiếm tùy chỉnh của Google: Bộ dữ liệu

Nó bao gồm 230 nguồn và siêu nguồn của bộ dữ liệu, bao gồm tất cả các đề cập trong câu hỏi này. Xin vui lòng, loại trừ .gov và bất kỳ trang web nào khác khỏi kết quả bằng cách thêm "-.gov" hoặc "-site.com" vào dòng tìm kiếm. Các nhà khai thác tìm kiếm Google khác làm việc.

Đừng ngần ngại liên hệ với tôi nếu bạn có ý tưởng nên thêm trang web nào.

IOGDS

Dịch vụ sau đây phân loại hơn 1.000.000 bộ dữ liệu công cộng:

IOGDS: Tìm kiếm bộ dữ liệu chính phủ mở quốc tế

— Anton Tarasenko
nguồn

Các thông số cho liên kết tìm kiếm tùy chỉnh bạn cung cấp là gì? Nó có tìm kiếm trong một danh sách các trang web, từ khóa, vv?

— Amir Ali Akbari

@AmirAliAkbari Nó tìm kiếm thông qua các nguồn như Data.gov, Quandl và các kho dữ liệu lớn khác.

— Anton Tarasenko

16

Câu trả lời muộn, nhưng đây là danh sách chiết trung của hơn 100 bộ dữ liệu thú vị

Bài đăng trên blog rất thú vị và dễ đọc (Tôi không có liên kết). Thật đáng để quét qua và quét một vài cái từ trên xuống:

Những lời cuối cùng của mọi tù nhân Texas bị xử tử từ năm 1984
10.000 hình ảnh chú thích của mèo
2,2 triệu trận đấu cờ vua

— philshem
nguồn

15

Tôi đã tìm thấy liên kết này trong Trung tâm khoa học dữ liệu với danh sách các bộ dữ liệu miễn phí: Bộ dữ liệu lớn có sẵn miễn phí

— lafdez
nguồn

15

Bạn có biết về các tiêu chuẩn và dữ liệu tải xuống PUMA không? https://sites.google.com/site/farazahmad/pumadatasets

Nó bao gồm những điều sau đây:

TeraSort
Wikipedia
Danh sách mục
Tự tham gia
Danh sách điều chỉnh
Cơ sở dữ liệu phim
Xếp hạng-Đảo ngược-Chỉ số

— algarecu
nguồn

15

Chính phủ Vương quốc Anh cung cấp một nguồn dữ liệu phi cá nhân tuyệt vời được thu thập trên khắp các cơ quan chính phủ: http://data.gov.uk

— Federer
nguồn

14

Tôi mới vào diễn đàn này. Chiming vào cuối câu hỏi này. Tôi đã duy trì (tôi là người đồng sáng lập) một danh mục các cổng dữ liệu có sẵn công khai. Hiện có hơn 1000 danh sách được liệt kê và bao gồm các cổng thông tin ở cấp quốc tế, liên bang, tiểu bang, thành phố và học thuật trên toàn cầu.

http://www.opengeocode.org/opendata/

— Andrew - Mã nguồn mở
nguồn

14

Tôi ngạc nhiên một người đã không đề cập đến điều này, vì nó có vẻ khá rõ ràng: http://www.kaggle.com luôn có các bộ dữ liệu mới và rất thú vị. Thông tin được coi là một tài sản, vì vậy, thường các công ty không muốn tiết lộ dữ liệu đó (cộng với những lo ngại về quyền riêng tư). Kaggle cung cấp cho bạn dữ liệu và họ hy vọng bạn giải quyết các vấn đề kinh doanh với nó để trao đổi.

— Ram
nguồn

14

Tập dữ liệu

Torrent học thuật
Quora
hadoopilluminated.com
data.gov
Quandl
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
Cơ sở dữ liệu GeoLite Legacy có thể tải xuống
Bộ dữ liệu lớn của Quora Trả lời
Bộ dữ liệu lớn công cộng
Cổng thông tin dữ liệu Houston
Nguồn dữ liệu Kaggle
Một danh mục sâu về biến dị di truyền của con người
Một cơ sở dữ liệu được quản lý bởi cộng đồng gồm những người, địa điểm và những thứ nổi tiếng
Dữ liệu công khai của Google
Dữ liệu ngân hàng thế giới
Dữ liệu taxi NYC
Dữ liệu mở Philly Kết nối mọi người với dữ liệu cho Philadelphia
Kho lưu trữ mạng Một kho lưu trữ dữ liệu tương tác với hơn 600 mạng trong hơn 20 bộ sưu tập; từ các mạng xã hội quy mô lớn, đồ thị web, mạng sinh học, mạng truyền thông và công nghệ, v.v.
Danh sách các nguồn hữu ích Một bài đăng blog bao gồm nhiều cơ sở dữ liệu tập hợp dữ liệu

Tập dữ liệu từ awesome-datascience

— chenrui333
nguồn

1

Bạn có thể vui lòng cung cấp cho chúng tôi một số thông tin về cả hai tập dữ liệu / liên kết không? Điều này thực sự sẽ giảm bớt gánh nặng của những người tìm kiếm các loại dữ liệu cụ thể. Hãy xem các bài viết khác để xem loại thông tin nào mà tài liệu tham khảo của bạn bị thiếu.

— Rubens

11

Như bạn đã đề cập, API là phần cứng chứ không phải dữ liệu. Quandl dường như giải quyết vấn đề này bằng cách cung cấp hơn 10 triệu bộ dữ liệu có sẵn công khai dưới một API RESTful dễ dàng. Nếu lập trình không phải là phù hợp mạnh mẽ của bạn, có một công cụ miễn phí để tải dữ liệu vào Excel rất dễ dàng. Ngoài ra, nếu bạn làm thưởng thức chương trình, có một số thư viện có nguồn gốc trong R, Python, Java và nhiều hơn nữa .

— Rủi ro Brian
nguồn

11

Để thêm vào danh sách có thể không bao giờ kết thúc:

như được đề cập bởi cyndd, có Wikidata ,

và đối với kiến thức có cấu trúc giám tuyển, Wolfram Alpha .

— image_doctor
nguồn

11

Tôi đã xem qua bộ sưu tập này trên Github. Bộ sưu tập được phân loại là tốt.

https://github.com/caesar0301/awgie-public-datasets

Và về phần

Không thể một mô hình nguồn mở để chia sẻ các tập dữ liệu được tạo ra cho các nhà khoa học dữ liệu?

bạn có thể tham khảo Hướng dẫn nhóm Leek để chia sẻ dữ liệu

— Shagun Sodhani
nguồn

10

Không phải tất cả dữ liệu của chính phủ được liệt kê trên data.gov - Sunlight Foundation đã tập hợp một bộ bảng tính trở lại vào tháng 2 để mô tả các bộ dữ liệu có sẵn.

— Steve Kallestad
nguồn

9

Một nguồn dữ liệu khác mà tôi không thấy được liệt kê là Dự án GDELT . Từ trang web:

Dự án GDELT theo dõi tin tức phát thanh, in ấn và web trên thế giới từ gần như mọi nơi trên mọi quốc gia bằng hơn 100 ngôn ngữ và xác định người, địa điểm, tổ chức, số lượng, chủ đề, nguồn và sự kiện thúc đẩy xã hội toàn cầu của chúng tôi mỗi giây mỗi ngày, tạo ra một nền tảng mở miễn phí cho điện toán trên toàn thế giới.

— dvdnglnd
nguồn

8

Subreddit này liệt kê rất nhiều Bộ dữ liệu đã biết

Bộ dữ liệu Reddit

Có rất nhiều yêu cầu dữ liệu trên subreddit đó, một vài trong số đó đã được trả lời.

— Một số người
nguồn

6

Tôi đã tạo ra một repo github cho việc này. Các bộ dữ liệu không lớn, nhưng là các ví dụ tối thiểu có nghĩa là để thực hành và khám phá các kỹ thuật mô hình dự đoán mà sau đó có thể được mở rộng thành các bộ dữ liệu lớn.

Kinh Thánh vấn đề máy học (MLPB)

Điều thú vị / độc đáo của repo này là mọi vấn đề đều được gắn thẻ với các thẻ như [đa lớp], [dữ liệu không cân bằng], [hồi quy], v.v. giúp bạn dễ dàng tìm thấy một số loại vấn đề / bộ dữ liệu nhất định.

— Bến
nguồn

6

Eurostats http://ec.europa.eu/eurostat và Ngân hàng Trung ương châu Âu https://www.ecb.europa.eu/stats/html/index.en.html cung cấp nhiều bộ dữ liệu tuyệt vời mà tôi sử dụng khá thường xuyên trong dự án làm việc.

— Juha
nguồn

6

Bên cạnh tất cả các bộ dữ liệu này, nếu bạn quan tâm đến dữ liệu liên quan đến Ấn Độ. Trang web chính thức công khai của Chính phủ Ấn Độ là

https://data.gov.in/

Nó cung cấp các bộ dữ liệu từ các bộ khác nhau của chính phủ Ấn Độ, có thể được sử dụng tốt cho Phân tích dữ liệu lớn & Học máy.

— Bò tót
nguồn

4

Yahoo vừa phát hành một bộ dữ liệu khổng lồ cho cộng đồng nghiên cứu. Hãy tận hưởng nó!

— Kasra Manshaei
nguồn

4

Chỉ cần chúng tôi tải gói MASS trong R, chúng tôi truy cập nhiều tệp dữ liệu hoặc bộ dữ liệu.

install.packages ("MASS") yêu cầu ("MASS")

— dileep balineni
nguồn

3

3 bộ dữ liệu từ https://www.jc-bingo.com/about

visitor-Interest.csv Các lợi ích của khách truy cập được tổng hợp dựa trên nhật ký truy cập web 1 tuần. Bao gồm địa chỉ IP của khách truy cập, chuỗi tác nhân người dùng, quốc gia khách truy cập, ngôn ngữ trang và chủ đề được truy cập. 19.926 hồ sơ, 2,9 Mb.
user-agent.csv Tác nhân người dùng khách truy cập thực sự được sắp xếp theo mức độ phổ biến. 4.826 hồ sơ, 716 Kb.
bot.csv Địa chỉ IP Robot và chuỗi tác nhân người dùng được trích xuất từ nhật ký truy cập web. 1.293 hồ sơ, 122 Kb.

— Yuri
nguồn

3

Rõ ràng, có một bộ cơ sở dữ liệu công cộng lớn.

Một điều chưa được đề cập, là từ FAO ( Tổ chức Lương thực và Nông nghiệp của Liên Hợp Quốc), có thể truy cập tại:

http://www.fao.org/faostat/

Nó chứa dữ liệu về sản xuất thực phẩm cho các nước trên toàn thế giới.

— setempler
nguồn