Bộ dữ liệu có sẵn công khai


168

Một trong những vấn đề phổ biến trong khoa học dữ liệu là thu thập dữ liệu từ nhiều nguồn khác nhau theo định dạng được làm sạch bằng cách nào đó (bán cấu trúc) và kết hợp các số liệu từ nhiều nguồn khác nhau để thực hiện phân tích cấp cao hơn. Nhìn vào nỗ lực của người khác, đặc biệt là các câu hỏi khác trên trang web này, có vẻ như nhiều người trong lĩnh vực này đang làm công việc có phần lặp đi lặp lại. Ví dụ: phân tích các tweet, bài đăng trên facebook, bài viết trên Wikipedia, v.v ... là một phần của rất nhiều vấn đề dữ liệu lớn.

Một số bộ dữ liệu này có thể truy cập được bằng các API công khai do trang web của nhà cung cấp cung cấp, nhưng thông thường, một số thông tin hoặc số liệu có giá trị bị thiếu trong các API này và mọi người phải thực hiện phân tích lặp đi lặp lại. Ví dụ: mặc dù người dùng phân cụm có thể phụ thuộc vào các trường hợp sử dụng và lựa chọn tính năng khác nhau, nhưng việc phân nhóm cơ sở người dùng Twitter / Facebook có thể hữu ích trong nhiều ứng dụng Dữ liệu lớn, do API cung cấp và không có sẵn công khai trong các bộ dữ liệu độc lập .

Có bất kỳ chỉ mục hoặc trang web lưu trữ dữ liệu có sẵn công khai có chứa các bộ dữ liệu có giá trị có thể được sử dụng lại để giải quyết các vấn đề dữ liệu lớn khác không? Tôi có nghĩa là một cái gì đó như GitHub (hoặc một nhóm các trang web / bộ dữ liệu công cộng hoặc ít nhất là một danh sách toàn diện) cho khoa học dữ liệu. Nếu không, những lý do cho việc không có một nền tảng như vậy cho khoa học dữ liệu là gì? Giá trị thương mại của dữ liệu, cần thường xuyên cập nhật bộ dữ liệu, ...? Chúng ta không thể có một mô hình nguồn mở để chia sẻ các tập dữ liệu được tạo ra cho các nhà khoa học dữ liệu?


18
Câu hỏi này có thể phù hợp hơn trên opendata dành riêng . Điều đó nói rằng, tôi bắt chéo ngón tay của mình để lấy dat , nó khao khát trở thành một "Git cho dữ liệu".
ojdo

2
@ojdo Cảm ơn, tôi không bao giờ nghe nói về opendata.SE trước đây, tôi cũng phát hiện này câu hỏi thú vị (và rất giống nhau) ở đó.
Amir Ali Akbari


Tôi chưa tìm thấy bất kỳ bộ dữ liệu toàn diện miễn phí tốt nào cho các ứng dụng Business Intelligence thông thường. Bộ dữ liệu Microsoft Contoso BI Demo cho ngành bán lẻ từ Trung tâm tải xuống chính thức của Microsoft tải xuống hoạt động với một số sản phẩm của Microsoft (xem AndyGett trên SharePoint và phần mềm doanh nghiệp khác ), nhưng tôi không thấy bất kỳ bản sao sql hoặc csv đơn giản nào của nó, cũng như bất kỳ thông tin giấy phép nào .
nealmcb

1
Bạn đã tham gia trao đổi ngăn xếp dữ liệu mở? opendata.stackexchange.com
sss4r

Câu trả lời:


88

Trên thực tế, có một danh sách rất hợp lý các bộ dữ liệu có sẵn công khai, được hỗ trợ bởi các doanh nghiệp / nguồn khác nhau.

Một số trong số họ là dưới đây:

Bây giờ, hai cân nhắc về câu hỏi của bạn. Đầu tiên, liên quan đến chính sách chia sẻ cơ sở dữ liệu. Từ kinh nghiệm cá nhân, có một số cơ sở dữ liệu không thể được cung cấp công khai, vì liên quan đến các hạn chế quyền riêng tư (như đối với một số thông tin mạng xã hội) hoặc liên quan đến thông tin của chính phủ (như cơ sở dữ liệu hệ thống y tế).

Một điểm khác liên quan đến việc sử dụng / ứng dụng của bộ dữ liệu. Mặc dù một số cơ sở có thể được xử lý lại cho phù hợp với nhu cầu của ứng dụng, nhưng thật tuyệt vời khi có một số tổ chức tốt đẹp của các bộ dữ liệu theo mục đích. Việc phân loại nên liên quan đến phân tích biểu đồ xã hội, khai thác vật phẩm, phân loại và rất nhiều lĩnh vực nghiên cứu khác có thể có.


64

37

Có rất nhiều bộ dữ liệu có sẵn, một trong số nhiều người thường bỏ qua là data.gov . Như đã đề cập trước đây, Freebase rất tuyệt, vì vậy tất cả các ví dụ được đăng bởi @Rubens


35

Freebase là một cơ sở dữ liệu hướng đến cộng đồng miễn phí bao gồm nhiều chủ đề thú vị và chứa khoảng 2,5 tỷ sự kiện ở định dạng máy có thể đọc được. Nó cũng có API tốt để thực hiện các truy vấn dữ liệu.

Dưới đây là một danh sách tổng hợp các tập dữ liệu mở: http://www.datapure.co/open-data-sets


Freebase đang đóng cửa và cơ sở dữ liệu của nó sẽ sớm chuyển đến Wikidata .
cynddl


25

Đối với dữ liệu chuỗi thời gian nói riêng, Quandl là một tài nguyên tuyệt vời - một thư mục có thể dễ dàng duyệt qua (hầu hết) chuỗi thời gian sạch.

Một trong những tính năng thú vị nhất của họ là giá cổ phiếu dữ liệu mở - tức là dữ liệu tài chính có thể được chỉnh sửa theo kiểu wiki và không bị hạn chế bởi cấp phép.


20

Enigma là một kho lưu trữ các bộ dữ liệu có sẵn công khai. Gói miễn phí của nó cung cấp tìm kiếm dữ liệu công khai, với các cuộc gọi API 10k mỗi tháng. Không phải tất cả các cơ sở dữ liệu công cộng được liệt kê, nhưng danh sách này là đủ cho các trường hợp phổ biến.

Tôi đã sử dụng nó cho nghiên cứu học thuật và nó đã tiết kiệm cho tôi rất nhiều thời gian.


Một nguồn dữ liệu thú vị khác là dự án @unitedstates , chứa dữ liệu và công cụ để thu thập chúng, về Hoa Kỳ (thành viên của Quốc hội, hình dạng địa lý).


18

Tôi muốn chỉ đến Điều tra dân số mở . Đây là một sáng kiến ​​của Quỹ Tri thức mở dựa trên sự đóng góp của những người ủng hộ dữ liệu mở và các chuyên gia trên toàn thế giới.

Giá trị của Điều tra dữ liệu mở là mở, hướng đến cộng đồng và nỗ lực có hệ thống để thu thập và cập nhật cơ sở dữ liệu của các bộ dữ liệu mở trên toàn cầu và trong một số trường hợp, như ở Hoa Kỳ, ở cấp thành phố .

Ngoài ra, đây là cơ hội để so sánh các quốc gia và thành phố khác nhau trong các lĩnh vực được lựa chọn.


18

Ngoài ra còn có một tài nguyên khác được cung cấp bởi The Guardian, British Daily trên trang web của họ. Các bộ dữ liệu được xuất bản bởi Guardian Datablog đều được lưu trữ. Các bộ dữ liệu liên quan đến tài khoản của Câu lạc bộ bóng đá Premier League, Lạm phát và chi tiết GDP của Vương quốc Anh, dữ liệu giải thưởng Grammy, vv Các bộ dữ liệu có sẵn tại

Một số tài nguyên hơn. Một số bộ dữ liệu ở định dạng R hoặc R comm tồn tại để nhập trực tiếp dữ liệu vào R.


17

Tìm kiếm Google tùy chỉnh

Bạn có thể sử dụng Tìm kiếm Google tùy chỉnh cho các bộ dữ liệu:

Tìm kiếm tùy chỉnh của Google: Bộ dữ liệu

Nó bao gồm 230 nguồn và siêu nguồn của bộ dữ liệu, bao gồm tất cả các đề cập trong câu hỏi này. Xin vui lòng, loại trừ .gov và bất kỳ trang web nào khác khỏi kết quả bằng cách thêm "-.gov" hoặc "-site.com" vào dòng tìm kiếm. Các nhà khai thác tìm kiếm Google khác làm việc.

Đừng ngần ngại liên hệ với tôi nếu bạn có ý tưởng nên thêm trang web nào.

IOGDS

Dịch vụ sau đây phân loại hơn 1.000.000 bộ dữ liệu công cộng:

IOGDS: Tìm kiếm bộ dữ liệu chính phủ mở quốc tế


Các thông số cho liên kết tìm kiếm tùy chỉnh bạn cung cấp là gì? Nó có tìm kiếm trong một danh sách các trang web, từ khóa, vv?
Amir Ali Akbari

@AmirAliAkbari Nó tìm kiếm thông qua các nguồn như Data.gov, Quandl và các kho dữ liệu lớn khác.
Anton Tarasenko

16

Câu trả lời muộn, nhưng đây là danh sách chiết trung của hơn 100 bộ dữ liệu thú vị

Bài đăng trên blog rất thú vị và dễ đọc (Tôi không có liên kết). Thật đáng để quét qua và quét một vài cái từ trên xuống:

  • Những lời cuối cùng của mọi tù nhân Texas bị xử tử từ năm 1984

  • 10.000 hình ảnh chú thích của mèo

  • 2,2 triệu trận đấu cờ vua




15

Chính phủ Vương quốc Anh cung cấp một nguồn dữ liệu phi cá nhân tuyệt vời được thu thập trên khắp các cơ quan chính phủ: http://data.gov.uk


14

Tôi mới vào diễn đàn này. Chiming vào cuối câu hỏi này. Tôi đã duy trì (tôi là người đồng sáng lập) một danh mục các cổng dữ liệu có sẵn công khai. Hiện có hơn 1000 danh sách được liệt kê và bao gồm các cổng thông tin ở cấp quốc tế, liên bang, tiểu bang, thành phố và học thuật trên toàn cầu.

http://www.opengeocode.org/opendata/


14

Tôi ngạc nhiên một người đã không đề cập đến điều này, vì nó có vẻ khá rõ ràng: http://www.kaggle.com luôn có các bộ dữ liệu mới và rất thú vị. Thông tin được coi là một tài sản, vì vậy, thường các công ty không muốn tiết lộ dữ liệu đó (cộng với những lo ngại về quyền riêng tư). Kaggle cung cấp cho bạn dữ liệu và họ hy vọng bạn giải quyết các vấn đề kinh doanh với nó để trao đổi.


14

1
Bạn có thể vui lòng cung cấp cho chúng tôi một số thông tin về cả hai tập dữ liệu / liên kết không? Điều này thực sự sẽ giảm bớt gánh nặng của những người tìm kiếm các loại dữ liệu cụ thể. Hãy xem các bài viết khác để xem loại thông tin nào mà tài liệu tham khảo của bạn bị thiếu.
Rubens

11

Như bạn đã đề cập, API là phần cứng chứ không phải dữ liệu. Quandl dường như giải quyết vấn đề này bằng cách cung cấp hơn 10 triệu bộ dữ liệu có sẵn công khai dưới một API RESTful dễ dàng. Nếu lập trình không phải là phù hợp mạnh mẽ của bạn, có một công cụ miễn phí để tải dữ liệu vào Excel rất dễ dàng. Ngoài ra, nếu bạn làm thưởng thức chương trình, có một số thư viện có nguồn gốc trong R, Python, Java và nhiều hơn nữa .


11

Để thêm vào danh sách có thể không bao giờ kết thúc:

như được đề cập bởi cyndd, có Wikidata ,

và đối với kiến ​​thức có cấu trúc giám tuyển, Wolfram Alpha .




9

Một nguồn dữ liệu khác mà tôi không thấy được liệt kê là Dự án GDELT . Từ trang web:

Dự án GDELT theo dõi tin tức phát thanh, in ấn và web trên thế giới từ gần như mọi nơi trên mọi quốc gia bằng hơn 100 ngôn ngữ và xác định người, địa điểm, tổ chức, số lượng, chủ đề, nguồn và sự kiện thúc đẩy xã hội toàn cầu của chúng tôi mỗi giây mỗi ngày, tạo ra một nền tảng mở miễn phí cho điện toán trên toàn thế giới.



6

Tôi đã tạo ra một repo github cho việc này. Các bộ dữ liệu không lớn, nhưng là các ví dụ tối thiểu có nghĩa là để thực hành và khám phá các kỹ thuật mô hình dự đoán mà sau đó có thể được mở rộng thành các bộ dữ liệu lớn.

Kinh Thánh vấn đề máy học (MLPB)

Điều thú vị / độc đáo của repo này là mọi vấn đề đều được gắn thẻ với các thẻ như [đa lớp], [dữ liệu không cân bằng], [hồi quy], v.v. giúp bạn dễ dàng tìm thấy một số loại vấn đề / bộ dữ liệu nhất định.



6

Bên cạnh tất cả các bộ dữ liệu này, nếu bạn quan tâm đến dữ liệu liên quan đến Ấn Độ. Trang web chính thức công khai của Chính phủ Ấn Độ là

Nó cung cấp các bộ dữ liệu từ các bộ khác nhau của chính phủ Ấn Độ, có thể được sử dụng tốt cho Phân tích dữ liệu lớn & Học máy.



4

Chỉ cần chúng tôi tải gói MASS trong R, chúng tôi truy cập nhiều tệp dữ liệu hoặc bộ dữ liệu.

install.packages ("MASS") yêu cầu ("MASS")


3

3 bộ dữ liệu từ https://www.jc-bingo.com/about

  • visitor-Interest.csv Các lợi ích của khách truy cập được tổng hợp dựa trên nhật ký truy cập web 1 tuần. Bao gồm địa chỉ IP của khách truy cập, chuỗi tác nhân người dùng, quốc gia khách truy cập, ngôn ngữ trang và chủ đề được truy cập. 19.926 hồ sơ, 2,9 Mb.
  • user-agent.csv Tác nhân người dùng khách truy cập thực sự được sắp xếp theo mức độ phổ biến. 4.826 hồ sơ, 716 Kb.
  • bot.csv Địa chỉ IP Robot và chuỗi tác nhân người dùng được trích xuất từ ​​nhật ký truy cập web. 1.293 hồ sơ, 122 Kb.

3

Rõ ràng, có một bộ cơ sở dữ liệu công cộng lớn.

Một điều chưa được đề cập, là từ FAO ( Tổ chức Lương thực và Nông nghiệp của Liên Hợp Quốc), có thể truy cập tại:

http://www.fao.org/faostat/

Nó chứa dữ liệu về sản xuất thực phẩm cho các nước trên toàn thế giới.

Licensed under cc by-sa 3.0 with attribution required.