Cần một bộ dữ liệu quỹ đạo GPS điểm chuẩn?


13

Tôi đang tìm kiếm một bộ dữ liệu GPS chuẩn, có sẵn cho mục đích nghiên cứu miễn phí. Tôi đã tìm thấy bộ dữ liệu GeoLife GPS Trabities từ Microsoft Research nhưng tôi thấy nó không đầy đủ.

Những gì tôi cần là dữ liệu hoạt động GPS của một người, như trong các bộ dữ liệu (vĩ độ, kinh độ, ngày), được theo dõi trong ít nhất vài tháng, tốt nhất là liên tục. Tôi cũng muốn các bản thu âm không thưa thớt; nhiều nhất là 1 phút giữa mỗi bản ghi.

Tôi thực sự đánh giá cao nó nếu bạn có thể hướng tôi đến một tập dữ liệu đáng tin cậy như vậy.


2
Liệu bộ dữ liệu này có phải là của một con người? (Cách mà bạn đã diễn đạt mọi thứ cho đến nay có nghĩa là có, nhưng tôi không nghĩ rằng nó đã được tuyên bố rõ ràng.)
Dan S.

Câu trả lời:


17

Tôi nghĩ cơ hội tốt nhất của bạn sẽ là theo dõi chính mình. Nếu ý tưởng làm phiền bạn, đó là lý do tại sao bạn sẽ không tìm thấy dữ liệu đó ở bất kỳ đâu.


6

Điều tốt nhất tôi có thể nghĩ đến là các dấu vết GPS có sẵn từ OpenStreetMap. Họ sẽ không liên tục, nhưng có một số lượng lớn trong số họ.

Trên trang web OSM, chọn "Dấu vết GPS" để xem những gì có sẵn cho một khu vực cụ thể.


2
Tôi tin rằng đây là liên kết bạn bỏ lỡ trong câu trả lời: blog.openstreetmap.org/2012/04/01/bulk-gps-point-data
Dror Atariah

4

Tôi sẽ không nín thở. Dữ liệu với độ chính xác như vậy sẽ là một công việc khổng lồ và có ý nghĩa bảo mật rất lớn (thậm chí chỉ trong 30 ngày đối với một cá nhân sẽ bao gồm 43.200 điểm dữ liệu (nếu được ghi lại mỗi phút) và chắc chắn sẽ xác định được vị trí nhà).

Nếu bạn quan tâm đến những câu hỏi thực sự mà dữ liệu đó sẽ giữ lời khuyên này sẽ không có ích. Nhưng nếu bạn chỉ quan tâm đến một số loại chiến lược phân tích để xử lý dữ liệu lớn như vậy, bạn có thể chỉ cần mô phỏng dữ liệu ở quy mô đó để phục vụ cho dù mục đích của bạn là gì. Để mô phỏng dữ liệu, tôi khuyên bạn nên xem chương trình thống kê R, và gói spatstat và gói chuyến đi nói riêng (cũng như tất cả các mô-đun không gian trong R).

Tôi sẽ hoài nghi ngay cả dữ liệu theo dõi động vật sẽ đáp ứng yêu cầu của bạn cho các điểm dữ liệu trong khoảng thời gian ngắn như vậy. Tôi có thể liệt kê một vài bài báo tôi đã đọc sử dụng dữ liệu điện thoại di động để ước tính mô hình hoạt động của con người, nhưng không có bài báo nào tôi đọc sẽ đến bất cứ nơi nào gần đó trong thời gian dài hoặc đo lường hoạt động của từng cá nhân thường xuyên.


4

Một lựa chọn là soạn thảo hợp đồng và thuê rất nhiều người. Cung cấp cho họ các đơn vị GPS được định cấu hình để đọc các dữ liệu bạn cần, đủ pin để kéo dài hợp đồng và hướng dẫn (cắm cáp này để tải lên hàng đêm, gửi email cho tôi tệp này, v.v.)

Bạn chắc chắn cần phải viết trong hợp đồng cách bạn hạn chế phân phối dữ liệu và ẩn danh dữ liệu đó để bảo vệ dữ liệu (có thể cung cấp bán kính nửa dặm loại trừ xung quanh các điểm mà người đó chỉ ra là riêng tư) và thậm chí bạn có thể xem xét mua bảo hiểm chống mất mát. Nếu dấu vết hoạt động của mọi người trở nên công khai, họ sẽ chứa đầy thông tin như: "Tôi đi làm mỗi sáng lúc 7:00 và về nhà vào mỗi tối lúc 19:00", và một âm mưu sẽ giống như một dấu hoa thị khổng lồ ở giữa trên ngôi nhà của họ nói rằng "cướp nơi này trong khoảng thời gian từ 8:00 đến 18:00." Bạn có thể thấy lý do tại sao bạn cần quan tâm đến quyền riêng tư và bảo mật.

Nếu bạn nghĩ về nó, bạn đang yêu cầu một số dữ liệu rất đắt tiền. Và nếu không có một bộ đủ lớn về mặt thống kê, nó sẽ có giá trị đáng ngờ. Hãy nghĩ về những dấu vết khác nhau giữa một công nhân xây dựng (một tuyến đường lặp đi lặp lại mới sau mỗi tòa nhà hoàn thành), một hãng vận chuyển bưu chính (một tuyến đường rất lặp đi lặp lại và rất ngoằn ngoèo), một nhân viên văn phòng (một tuyến đường trực tiếp lặp đi lặp lại) và một chiếc xe tải kéo lái xe (tuyến mới liên tục.) Tình trạng kinh tế xã hội có thể ảnh hưởng đến dấu vết: thu nhập thấp hơn có thể đi theo các tuyến vận chuyển công cộng nhiều hơn và đi ít hơn. Phụ huynh của trẻ em độ tuổi đi học có thể có cao hơn trung bình sau khi làm việc đi lại dặm. Chưa kể anh chàng lái xe Google Street View.

Không có dấu vết nào trong số đó có khả năng giao cắt với bất kỳ dấu vết nào khác theo bất kỳ cách có ý nghĩa nào.

Số lượng các kiểu độc đáo có khả năng là hữu hạn, nhưng cao đến mức đòi hỏi một ngân sách đáng kể để có được. Và đó sẽ chỉ trong một thành phố.

Bạn có thể có được bộ dữ liệu nhỏ hơn (rẻ hơn) nếu bạn xác định mục tiêu của mình tốt hơn. Nếu bạn đang cố gắng định lượng các loại mẫu khác nhau, có thể bạn lấy mẫu nhiều người ở nhiều thành phố khác nhau. Nếu bạn đang cố gắng tìm ra ai sẽ được hưởng lợi từ phương tiện giao thông đại chúng, hoặc nơi đặt hành lang đường sắt đi lại, có lẽ bạn nên đếm xe ô tô trên các tuyến đường khác nhau quanh khu vực bạn dự định phục vụ và thực hiện khảo sát.


2

Tôi cũng đang tìm loại dữ liệu chính xác mà bạn đang tìm kiếm. Thật không may, cho đến nay tôi vẫn chưa tìm thấy. Mặc dù dữ liệu GeoLife, một nguồn khác tôi tìm thấy là CRAWDAD . Trang web này có nhật ký GPS từ các xe taxi ở San Francisco và cả người đi bộ ở New York. Thật không may, đối với người đi bộ NYC họ chỉ cung cấp tọa độ tương đối chứ không phải lat / lon.


2

Có nhiều chủ đề nghiên cứu trong đó dữ liệu cần thiết để trả lời câu hỏi không có sẵn vì lý do đạo đức và các thử nghiệm vượt qua các giới hạn này có thể dẫn đến các hạn chế trong tương lai, như trường hợp của thí nghiệm Milgram . Gần đây, AOL đã phải rút ra một loạt các truy vấn tìm kiếm vì những lo ngại về quyền riêng tư và dữ liệu đáng tin cậy duy nhất chúng tôi có về thói quen email đến từ bản dùng thử Enron .

Vì vậy, trong khi về mặt kỹ thuật hoàn toàn có thể có được một bộ dữ liệu quỹ đạo như vậy, nó có thể không bao giờ thực tế do ý nghĩa riêng tư. Như các câu trả lời khác đã đề cập, các bộ dữ liệu tương đối, tổng hợp qua các cá nhân hoặc mô phỏng đều có thể là cách tiếp cận tốt hơn để giải quyết câu hỏi của bạn, đồng thời tránh vấn đề riêng tư.



2

Dự án PFLOW mở cung cấp:

dữ liệu mở cho phong trào quần chúng điển hình ở khu vực thành thị

Khu vực đô thị Tokyo có sẵn và khu vực đô thị Chukyo dường như đang được chuẩn bị.

Chi tiết có thể được tìm thấy trong một ấn phẩm gần đây:

Takehiro Kashiyama, Yanbo Pang, Yoshi leather Sekimoto, Open PFLOW: Tạo và đánh giá một bộ dữ liệu mở cho phong trào quần chúng điển hình ở khu vực thành thị, Nghiên cứu giao thông Phần C: Công nghệ mới nổi (2017) Tập 85, Trang 249.


Bộ dữ liệu quỹ đạo T-Drive là một phát hiện gần đây. Nó cung cấp:

quỹ đạo một tuần của 10.357 taxi. Tổng số điểm trong bộ dữ liệu này là khoảng 15 triệu và tổng khoảng cách của các quỹ đạo đạt tới 9 triệu km.


Mặc dù không phải về chuyển động của con người, công ty Liquid Robotics cung cấp bộ dữ liệu thú vị từ thử thách PacX . Dữ liệu về vị trí và cảm biến đọc môi trường của bốn tàu lượn robot đi qua Thái Bình Dương có sẵn để tải xuống . Thông tin thêm về dự án (thực sự tuyệt vời) trên blog , thông qua WIREDbài nói chuyện này .


Một lựa chọn khác để giải quyết các vấn đề riêng tư là sử dụng dữ liệu theo dõi động vật. Tôi đoán bảo vệ dữ liệu sẽ ít gặp vấn đề ở đây. Như một lợi thế, bạn vẫn có thể kiểm tra phần mềm / phương pháp của mình bằng dữ liệu chuyển động trong thế giới thực. Nhược điểm có thể là nếu ứng dụng của bạn cần các chuyển động 'cụ thể của con người' - chúng có thể không phù hợp với mục đích của bạn.

Có một cái nhìn tại Movebank hoặc Dryad trang web để kiểm tra xem một số dữ liệu của họ có thể phù hợp với dự án của bạn.


Đối với dữ liệu iphone, đề cập bởi Matthew , bạn có thể có một cái nhìn tại crowdflowopenpaths dự án. Có lẽ có một cách để che giấu somedata thông qua họ? Cập nhật: cả hai liên kết dường như đã chết bây giờ.


Một lựa chọn khác là phần không gian của dữ liệu taxi NYC của Chris Whong . Họ chỉ cung cấp các địa điểm đón và trả, tuy nhiên, âm lượng (11 GB!) Và thông tin theo ngữ cảnh (giá vé, hành khách, v.v.) làm cho chúng thực sự hấp dẫn ( tải xuống thay thế , thông tin thêm về những lo ngại về quyền riêng tư được nêu ra bởi dữ liệu).


Bài đăng của Urška Demšar trên bài báo gần đây của cô về 'Phân tích khả năng di chuyển của con người từ dữ liệu di chuyển tự nguyện và thông tin bối cảnh':

Cũng sẽ có một bộ dữ liệu miễn phí về các quỹ đạo GPS tự nguyện được liên kết với bài viết này sớm. Giữ nguyên.

( thêm thông tin )

Cập nhật: giấy đề cập rằng dữ liệu sẽ có sẵn trên CRAWDAD được đề cập bởi @ejel nhưng tôi chưa tìm thấy nó ở đó.


Một lựa chọn khác có thể là tự tạo dữ liệu tổng hợp . Nếu bạn cần một chút cảm hứng, hãy xem bài báo gần đây của van Dijk J (2018) Xác định các điểm du lịch hoạt động từ dữ liệu GPS với nhiều cửa sổ di chuyển Máy tính, Môi trường và Hệ thống đô thị ( liên kết ). Thông tin chi tiết được cung cấp trong phụ lục giấy và mã và tập dữ liệu mẫu có sẵn trên github .


1

Tahina Expedition (Blog Google Earth) http://www.tahinaexpedition.com/map đã đi thuyền trong hầu hết năm ngoái.

KML có thể được xử lý http://maps.google.com/maps/ms?source=embed&hl=en&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [được một Theo dõi GPS hiện nay chuyển đổi sang kml]


@Mapperez - Cảm ơn bạn Mapperez, nhưng những gì tôi cần là một chút khác biệt. Tôi muốn các điểm GPS được ghi lại từng ngày, từng phút của một người trên đất liền. Một người có thói quen hàng ngày (phần nào là thói quen) - như thức dậy, đi làm, dành hàng giờ ở đó, đi mua sắm, đến nhà, lặp lại.
Murat

1

Mọi người cung cấp dữ liệu đó cho Google miễn phí suốt ngày đêm. Nó được gọi là Latitude. Có thể họ sẽ chia sẻ nó một cách hào phóng như người dùng của họ đã chia sẻ nó với họ.


1
Tôi chắc chắn hy vọng rằng họ sẽ không. Tôi khá chắc chắn rằng họ sẽ không được phép tiết lộ bất kỳ dữ liệu nào ở cấp độ theo yêu cầu của ứng dụng @ Murat.
underdark
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.