Định vị các mẫu dữ liệu có sẵn miễn phí


98

Tôi đã nghiên cứu một phương pháp mới để phân tích và phân tích bộ dữ liệu để xác định và cô lập các nhóm con của dân số mà không biết trước bất kỳ đặc điểm nào của nhóm phụ. Mặc dù phương pháp này hoạt động đủ tốt với các mẫu dữ liệu nhân tạo (tức là các bộ dữ liệu được tạo riêng cho mục đích xác định và phân tách các tập hợp con của dân số), tôi muốn thử kiểm tra nó với dữ liệu trực tiếp.

Những gì tôi đang tìm kiếm là một nguồn dữ liệu có sẵn miễn phí (tức là không bảo mật, không độc quyền). Tốt nhất là một trong đó có phân phối lưỡng kim hoặc đa phương thức hoặc rõ ràng bao gồm nhiều tập hợp con không thể dễ dàng tách ra thông qua các phương tiện truyền thống. Tôi sẽ đi đâu để tìm thông tin như vậy?



4
Bạn có thể thích getthedata.org một trang web câu hỏi và câu trả lời dành riêng cho việc tìm kiếm bộ dữ liệu
Jeromy Anglim

Câu trả lời:



46


17

Ngân hàng Thế giới cung cấp khá nhiều dữ liệu thú vị và gần đây đã rất tích cực trong việc phát triển API đẹpcho nó.

Ngoài ra, dự án commugrate có một danh sách thú vị có sẵn.

Đối với đầu dữ liệu liên quan đến sức khỏe của Hoa Kỳ cho Kho chỉ số sức khỏe .

Blog của Daniel Lemire chỉ ra một vài ví dụ thú vị (chủ yếu được điều chỉnh theo nghiên cứu DB) bao gồm cả điều tra dân số Canada 1880báo cáo đám mây khái quát .

Và như ngày hôm nay (03/04/2012) hồ sơ điều tra dân số năm 1940 của Hoa Kỳ cũng có sẵn để tải xuống.


2
Ngân hàng Thế giới đang tiến xa hơn với dữ liệu và bản đồ mở, cho Stata và R.
Fr.

13

Gapminder có một số (430 ở cái nhìn cuối cùng) của bộ dữ liệu, có thể có hoặc không sử dụng cho bạn.


11

MLComp có khá nhiều bộ dữ liệu thú vị và như một phần thưởng, thuật toán của bạn sẽ được xếp hạng nếu bạn tải nó lên.


10

Một nơi tốt để tìm là Thư viện Dữ liệu và Câu chuyện của Đại học Carnegie Mellon hoặc DASL , chứa các tệp dữ liệu "minh họa việc sử dụng các phương pháp thống kê cơ bản ... Một ví dụ hay có thể làm cho một bài học về một phương pháp thống kê cụ thể sinh động và phù hợp. DASL là được thiết kế để giúp giáo viên định vị và xác định các tệp dữ liệu cho việc giảng dạy. Chúng tôi hy vọng rằng DASL cũng sẽ phục vụ như một kho lưu trữ dữ liệu từ các tài liệu thống kê. "


9

Bắt đầu R và gõ data(). Điều này sẽ hiển thị tất cả các bộ dữ liệu trong đường dẫn tìm kiếm. Nhiều bộ dữ liệu bổ sung có sẵn trong các gói bổ sung. Ví dụ, có một số bộ dữ liệu khoa học xã hội trong thế giới thực thú vị trong AERgói.




5

Mạng Stack Exchange hiện có một trang web mới, Open Data (bản beta kể từ ngày 5 tháng 3 năm 2015), dành riêng cho dữ liệu. Nó mô tả chính nó như:

Open Data Stack Exchange là một trang web câu hỏi và trả lời cho các nhà phát triển và nhà nghiên cứu quan tâm đến dữ liệu mở. Nó được xây dựng và điều hành bởi bạn như một phần của mạng Stack Exchange của các trang web Hỏi & Đáp. Với sự giúp đỡ của bạn, chúng tôi sẽ hợp tác để xây dựng một thư viện các câu trả lời chi tiết cho mọi câu hỏi về dữ liệu mở.

"Dữ liệu mở" đề cập đến các bộ dữ liệu "có sẵn miễn phí cho mọi người sử dụng và xuất bản lại theo ý muốn, không bị hạn chế về bản quyền, bằng sáng chế hoặc các cơ chế kiểm soát khác" ( Wikipedia ). Tuy nhiên, trang web có vẻ phù hợp với yêu cầu cho các bộ dữ liệu đóng .



3

Thêm một cặp vào danh sách:

Cả hai đều có sẵn thông qua API REST và có gói dùng thử miễn phí.






2

Tìm kiếm một bộ dữ liệu phù hợp cho nhu cầu của tôi, tôi vừa tình cờ thấy hai trang web phù hợp với cuộc thảo luận này.

Datacite.org tự mô tả là ...

Chúng tôi là một tổ chức quốc tế nhằm mục đích:

  • thiết lập quyền truy cập dễ dàng hơn vào dữ liệu nghiên cứu
  • tăng sự chấp nhận dữ liệu nghiên cứu như những đóng góp hợp pháp trong hồ sơ học thuật, và
  • hỗ trợ lưu trữ dữ liệu để cho phép các kết quả được xác minh và tái mục đích cho nghiên cứu trong tương lai.

DataBib.org tự mô tả là ...

Databib là một công cụ giúp mọi người xác định và định vị kho lưu trữ dữ liệu nghiên cứu trực tuyến. Người dùng và thư mục tạo và quản lý các bản ghi mô tả kho dữ liệu mà người dùng có thể tìm kiếm.

Nghĩ rằng nó sẽ có giá trị để thêm nó vào danh sách ở đây cho người khác.

Bây giờ để tìm một cái gì đó trong các liên kết phù hợp với nhu cầu của tôi!


2

Tôi rất khuyên bạn nên kiểm tra quandl.com . Đây là một lập trình viên dữ liệu mơ ước. Nó cung cấp một API rất dễ dàng để truy cập vào bất kỳ trong số hơn 10 triệu dữ liệu khác nhau. Bạn đang tìm kiếm dữ liệu hai phương thức hoặc đa biến, vì vậy tôi khuyên bạn nên kiểm tra các bộ dữ liệu dân số khác nhau, ví dụ biểu đồ dân số thế giới này chứa các quốc gia và vùng lãnh thổ phụ thuộc vào tổng số.


1
Một số dữ liệu quandl là miễn phí, một số "Premium" tức là chi phí $$. Ngoài ra, giấc mơ API của tôi bao gồm các chuỗi thời gian, ncols và các lô trực tuyến (tôi muốn có một con ngựa).
chối


1

Sử dụng theo thời gian

Một bảng tính Excel rất lớn có sẵn để tải xuống có chứa các điểm dữ liệu cho tất cả các hoạt động trực tuyến, với nhân khẩu học của người dùng, theo thời gian. Vui lòng đọc Tip Tip (bên dưới) trước khi tải xuống hoặc sử dụng bảng tính này.

http://pewiNET.org/Trend-Data/Usage-Over-Time.aspx





Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.