Tôi có thể lấy dữ liệu thô công cộng miễn phí ở đâu? [đóng cửa]


26

Trong phát triển web, mashup là một trang web hoặc ứng dụng sử dụng và kết hợp dữ liệu , bản trình bày hoặc chức năng từ hai hoặc nhiều nguồn để tạo ra các dịch vụ mới.

Có nhiều nguồn để lấy dữ liệu (thông tin thô). Chính phủ là những ví dụ tốt.
Tuy nhiên nhiều trong số những chi phí và có giấy phép phức tạp. Ví dụ, SMHI ở Thụy Điển bán dữ liệu nhiệt độ trong khi nước láng giềng Na Uy của chúng tôi cung cấp miễn phí.

Người ta sẽ nói bạn đang xây dựng loại ứng dụng nào và bạn cần dữ liệu gì? Tôi sẽ nói cho tôi một số dữ liệu thú vị và tôi sẽ làm một bản mashup tốt cho nó. Tôi chỉ có thể vẽ nó trên bản đồ Google chẳng hạn.

Vì vậy, câu hỏi là: Tôi có thể nhận dữ liệu miễn phí ở đâu?

Lưu ý: Tôi không quan tâm đến việc khai thác dữ liệu bằng cách sử dụng webcrawler!

Hãy chia sẻ nguồn của bạn với tôi.


Những loại dữ liệu bạn đang tìm kiếm? Chỉ cần bất kỳ dữ liệu bạn có thể nhận được miễn phí?
Jetti

Bất cứ dữ liệu nào có thể có ý nghĩa với một lượng lớn người.
Amir Rezaei

1
Làm thế nào về odata.stackexchange.com ?
ChrisF

@ChrisF: "Trang này chứa các lỗi sau: lỗi trên dòng 2 ở cột 29: Char 0x0 ngoài phạm vi cho phép Dưới đây là kết xuất của trang cho đến lỗi đầu tiên." Khi nhấp vào liên kết odata.
Chris

@Chris - Nó hoạt động tốt với tôi, nhưng nếu bạn gặp trường hợp lặp lại, hãy báo cáo vấn đề với nhóm trên MSO. Tôi chỉ là người điều hành;)
ChrisF

Câu trả lời:


11

Để biết thông tin chung, một nơi tốt để bắt đầu có thể là trang Dữ liệu mở của Wikipedia - cụ thể là phần dưới cùng của trang ( Các tổ chức quảng bá dữ liệu mở , Xem thêmLiên kết ngoài )

Tôi sẽ biến phần còn lại của bài đăng này thành một danh sách các nguồn dữ liệu cho dữ liệu dựa trên quốc gia và khu vực ... nhưng Báo Guardian UK đã đi và biên soạn một Kho lưu trữ dữ liệu của chính phủ thế giới để thay vào đó là sự trùng lặp nỗ lực, thay vào đó tôi tôi sẽ chỉ vào ...

Người giám hộ.co.uk / world-g chính-data

... Cho một danh mục của rất nhiều Sáng kiến ​​Dữ liệu Mở cấp quốc gia và thành phố khác nhau.
(Nó không có trụ sở ở Anh, mặc dù nó dường như tập trung vào các quốc gia nói tiếng Anh.)

Tại thời điểm chỉnh sửa, nó chứa dữ liệu cho Vương quốc Anh, Mỹ, Úc, Canada, New Zealand và Basque Tây Ban Nha.

Một điều không được liệt kê trên đó nhưng đáng nói đến là dữ liệu bản đồ của OrDNance Survey UK .


Người bảo vệ cũng có thói quen tốt khi cung cấp dữ liệu được tham chiếu trong câu chuyện của họ trong phần lớn thời gian.
Jon Hopkins

6

Có dữ liệu trên tất cả các loại. Cách tiếp cận tốt nhất là tìm ra loại dữ liệu bạn cần, tìm một trang web có dữ liệu đó và xem trang web đó có cung cấp API không. Tuy nhiên, đây là một số nguồn chung:






3

Ai đó đã hỏi khá nhiều câu hỏi tương tự trên Reddit Compsci một lúc trước ... đây là những gì tôi đã nói sau đó . Tôi nghĩ tất cả vẫn đứng vững.

Chọc vào một số trang web này, tôi chắc chắn có điều gì đó ở đó để thu hút sự quan tâm của bạn.

Tùy thuộc vào những gì bạn đang cố gắng làm, có rất nhiều bộ dữ liệu ngoài kia. Một trò chơi thú vị, nhưng có thể có hoặc không liên quan đến bạn, đó là Bộ dữ liệu email Enron . Đó là kết quả của rất nhiều email công ty Enron nội bộ được trát hầu tòa và phát hành ra công chúng trong vụ bê bối Enron lớn .

Và nếu bạn không thể tìm thấy chính xác dữ liệu bạn muốn, đừng đánh giá thấp khả năng viết trình thu thập dữ liệu / trình quét của riêng bạn. Tùy thuộc vào dữ liệu bạn muốn, có thể khá đơn giản để chỉ thu thập dữ liệu web cho tập dữ liệu của riêng bạn. Có tất cả các loại công cụ - từ wget đến apache droids - để giúp bạn lấy thông tin theo chương trình.



2

Dữ liệu nước

Bạn có thể sử dụng NOAA để lấy số lượng lớn dữ liệu để chơi. Tôi đã sử dụng nó nhiều lần và API không phải là một nửa xấu. Nếu bạn không quan tâm đến những gì và chỉ đơn giản là tôi sẽ đi bao nhiêu .




Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.