Quỹ đạo phân cụm (dữ liệu GPS của (x, y) điểm) và khai thác dữ liệu


14

Chỉ một ngày nữa tại văn phòng cho súng thần công của con người.

Tôi đã có 2 câu hỏi về phân tích bộ dữ liệu GPS.

1) Trích xuất quỹ đạo Tôi có một cơ sở dữ liệu khổng lồ về tọa độ GPS được ghi lại của biểu mẫu (latitude, longitude, date-time). Theo giá trị thời gian của các bản ghi liên tiếp, tôi đang cố gắng trích xuất tất cả các quỹ đạo / đường dẫn theo sau bởi người đó. Ví dụ; nói theo thời gian M, các (x,y)cặp liên tục thay đổi cho đến thời gian N. Sau đó N, sự thay đổi trong (x,y)các cặp giảm dần, tại thời điểm đó tôi kết luận rằng con đường được thực hiện theo thời gian MđếnNcó thể được gọi là một quỹ đạo. Đó có phải là một cách tiếp cận hợp lý để làm theo khi trích xuất quỹ đạo? Có bất kỳ phương pháp / phương pháp / thuật toán nổi tiếng nào bạn có thể đề xuất không? Có bất kỳ cấu trúc dữ liệu hoặc định dạng nào bạn muốn đề nghị tôi duy trì các điểm đó một cách hiệu quả không? Có lẽ, với mỗi quỹ đạo, việc tìm ra vận tốc và gia tốc sẽ hữu ích?

2) Khai thác các quỹ đạo Một khi tôi đã thực hiện tất cả các quỹ đạo theo sau / đường dẫn, làm thế nào tôi có thể so sánh / phân cụm chúng? Tôi muốn biết nếu điểm bắt đầu hoặc điểm kết thúc tương tự nhau, thì làm thế nào để so sánh các đường dẫn trung gian?

Làm cách nào để so sánh 2 đường dẫn / tuyến đường và kết luận xem chúng có giống nhau hay không. Hơn nữa; Làm thế nào để tôi nhóm các đường dẫn tương tự lại với nhau?

Tôi sẽ đánh giá rất cao nếu bạn có thể chỉ cho tôi một nghiên cứu hoặc một cái gì đó tương tự về vấn đề này.

Sự phát triển sẽ có trong Python, nhưng tất cả các loại đề xuất thư viện đều được chào đón.

Tôi đang mở chính xác câu hỏi /programming/4910510/compared-clustering-trabities-gps-data-of-xy-point-and-mining-the-data trong StackOverflow. Nghĩ rằng tôi sẽ nhận được nhiều câu trả lời hơn ở đây ...


1
Một câu trả lời tốt sẽ chú ý đến lý do tại sao bạn thực hiện phân tích này. Những "hoạt động" của bạn đang làm gì? Bạn có ý nghĩa gì, trong bối cảnh này, bởi một "quỹ đạo"? Tại sao bạn quan tâm đến quỹ đạo? Điều đó có nghĩa gì cho các quỹ đạo là "tương tự"? Làm rõ của bạn sẽ đề xuất câu trả lời thích hợp; không làm rõ, nhận được câu trả lời phù hợp sẽ là vấn đề may mắn và phỏng đoán.
whuber

Chà, tôi thích tìm hiểu thói quen hàng ngày của con người; cô ấy đi đâu hàng ngày / hàng tuần / hàng tháng và cô ấy thường đi theo con đường nào khi đến đó? Con đường nào cô ấy hiếm khi đi theo?
Murat

Cơ sở dữ liệu chứa các điểm GPS được ghi lại của mọi người trong hơn một tháng, với tần suất 1-2 giây. Tôi không biết họ đang làm gì; Thật ra, đó là những gì tôi muốn tìm hiểu.
Murat

1
@Murat OK, tốt quá. Hãy nói chính xác hơn. Khi một người di chuyển xung quanh nhà hoặc văn phòng, bạn sẽ coi đó là văn phòng phẩm hay bạn cũng đang cố gắng theo dõi những quỹ đạo đó? Khi bạn nói hai quỹ đạo là "tương tự", bạn có nghĩa là chúng dường như đi theo cùng một con đường giữa các điểm A và B, hoặc cả hai đều đi từ điểm A đến điểm B (có thể theo các tuyến đường khác nhau, nhưng không dừng lại), hoặc một cái gì khác? BTW, dữ liệu của bạn đã hoàn thành hay - như người ta mong đợi - có những giai đoạn khi dữ liệu bị thiếu hoặc được biết là có lỗi?
whuber

1
@ user5013 - Hãy xem những gì Microsoft Research đã xuất bản. Nó "chứa 17.621 quỹ đạo với tổng khoảng cách khoảng 1,2 triệu km và tổng thời gian hơn 48.000 giờ." research.microsoft.com/en-us/downloads/...
Murat

Câu trả lời:


2

Hai bài viết mà bạn có thể sẽ quan tâm, vì chúng có động lực tương tự như của bạn:

Giới hạn của khả năng dự đoán trong khả năng di chuyển của con người bằng cách: Chaoming Song, Zehui Qu, Nicholas Blumm, Albert-László Barabási. Khoa học , Tập. 327, số 5968. (19 tháng 2 năm 2010), trang 1018-1021.

Hiểu mô hình di động của con người bằng cách: Marta C. Gonzalez, Cesar A. Hidalgo, Albert-Laszlo Barabasi. Thiên nhiên , Tập. 453, số 7196. (ngày 5 tháng 6 năm 2008), trang 779-782.

Lưu ý hai nghiên cứu sử dụng cùng một dữ liệu, tương tự dữ liệu của bạn nhưng không ở mức độ chính xác về không gian hoặc thời gian. Tôi không nghĩ những gì tôi sẽ mô tả những gì bạn muốn tìm là một quỹ đạo, nhưng tôi không chắc tôi sẽ gọi nó là gì. Tại sao chính xác bạn muốn phân cụm các nút bắt đầu / kết thúc của "quỹ đạo" của bạn.


2

PySAL - Thư viện phân tích không gian Python có thể là một khởi đầu tốt - http://code.google.com.vn/p/pysal/

Phần bán tự động:

Tự động tương quan không gian liên quan đến mẫu không ngẫu nhiên của các giá trị thuộc tính trên một tập hợp các đơn vị không gian. Điều này có thể có hai hình thức chung: tự tương quan dương phản ánh sự tương đồng về giá trị trong không gian và tự tương quan âm hoặc không tương đồng giá trị trong không gian. Trong cả hai trường hợp, sự tự tương quan phát sinh khi mô hình không gian quan sát được khác với những gì sẽ xảy ra trong một quá trình ngẫu nhiên hoạt động trong không gian.

http://pysal.org/1.2/users/tutorials/autocorrelation.html

Bạn cũng có thể xem xét sử dụng thư viện R http://cran.r-project.org/web/view/Spatial.html để phân tích mô hình điểm .

Các gói R khác:

Chức năng truy cập và thao tác dữ liệu không gian để theo dõi động vật. Lọc tốc độ và tạo các ô dành thời gian từ dữ liệu theo dõi động vật.

Nó cũng có thể đơn giản hóa việc phân tích nếu bạn chụp các điểm vào các mạng truyền tải tuyến tính hiện có (đường / đường sắt) có sẵn từ OSM. Sau đó, bạn có thể tượng trưng dựa trên những dòng này và có bao nhiêu người sử dụng chúng vào những thời điểm cụ thể trong ngày.


Với bối cảnh của câu hỏi gợi ý để kiểm tra sự tự tương quan không có ý nghĩa gì. Tự động tương quan thuộc tính nào?
Andy W

Dấu thời gian cho các bài đọc GPS có thể được sử dụng để xem khu vực nào của thị trấn hoặc thành phố được sử dụng vào các thời điểm khác nhau trong ngày. Mặc dù không rõ liệu nghiên cứu chính là tìm kiếm những gì mọi người làm, hoặc làm thế nào mọi người đến đó.
geographika

Ngoài ra, một bộ dữ liệu điểm xuất phát với các điểm liên quan chặt chẽ cho các cá nhân được nhóm và đưa ra một tham số "thời lượng" có thể được phân tích
geographika

Nhận xét đầu tiên của bạn thay đổi đơn vị phân tích từ người đến nơi. Mặc dù tôi đồng ý câu hỏi hơi mơ hồ, nhưng không có gì trong đó để ám chỉ OP muốn phân cụm các địa điểm. Tôi có thể thấy một đối số cho nhận xét thứ hai (một điểm có thuộc tính vận tốc). Mặc dù là một khái niệm thú vị, nhưng nó khá trừu tượng và mới lạ, do đó tôi không nghĩ rằng nên đề xuất kiểm tra tương quan tự động không gian và có thể gây nhầm lẫn (bạn có thể phân cụm các điểm trong khung đó, không phải toàn bộ đường dẫn). Tôi đồng ý mặc dù các thư viện pysal và R sẽ được quan tâm.
Andy W

2

Mặc dù tôi không thể nhận xét nhiều về quỹ đạo hoặc đường đi của người của bạn, tôi nghĩ rằng bạn đang đi đúng hướng với cách tiếp cận cụm và thời gian.

Tôi đã đưa ra một bản demo cho Esri UC năm ngoái khi làm việc với một số người tại Bảo tồn Báo tuyết, có tại: http://resource.arcgis.com/gallery/file/geoprocessing/details?entryID=1F9F376F-1422-2418 -7FBC-C359E9644702

Nó xem xét "các trang web cho ăn" (cụm) của Báo tuyết dựa trên các tiêu chí nhất định:

  • làm thế nào được nhóm lại những điểm đó (khoảng cách với nhau)
  • một ngưỡng điểm tối thiểu (phân tích của tôi yêu cầu hơn 4 điểm vì bài đọc được thực hiện trong khoảng 12 giờ)
  • các điểm phải được tuần tự (phần dễ dàng của phân tích vì chúng cần được thu thập theo thứ tự tuyến tính)

Mặc dù nó sử dụng các công cụ Esri để thực hiện phân tích khoảng cách, tập lệnh python bên trong có thể giúp bạn với ý tưởng phân cụm một khi bạn biết điểm nào ở gần nhau. (nó sử dụng lý thuyết đồ thị: http://en.wikipedia.org/wiki/Graph_theory )

Như đã đề cập trong các câu trả lời khác, có các bài báo để xác định các thuộc tính bạn cần đưa ra quyết định.

Phân tích dựa trên các khái niệm từ: Knopff, KH, ARA Knopff, MB Warren và MS Boyce. 2009. Đánh giá các kỹ thuật đo từ xa của Hệ thống định vị toàn cầu để ước tính các tham số dự đoán báo sư tử. Tạp chí Quản lý động vật hoang dã73: 586-597.


2

Để chạy bất kỳ loại phân cụm nào trên tập hợp các quỹ đạo của bạn, bạn cần có cách tính độ tương tự hoặc khoảng cách của các cặp quỹ đạo. Có một số phương pháp hiện có cho phương pháp này và những phương pháp mới đang được phát triển cho các trường hợp đặc biệt hoặc để khắc phục một thiếu sót của phương pháp truyền thống (cá nhân tôi đang nghiên cứu một phương pháp mới cho luận án tiến sĩ của mình). Các thuật toán nổi tiếng là như sau:

  • Khoảng cách cặp gần nhất: chỉ cần xác định khoảng cách của 2 quỹ đạo bằng khoảng cách của cặp điểm gần nhau nhất. Các quỹ đạo phải bao gồm cùng một số điểm.
  • Tổng khoảng cách các cặp: Tính khoảng cách cho mỗi cặp điểm và cộng chúng lên. Cũng chỉ hoạt động nếu các quỹ đạo có cùng chiều dài
  • Khoảng cách cong vênh thời gian động (DTW): Thuật toán này được phát triển để xử lý các quỹ đạo có lượng điểm đo khác nhau. Nó hoạt động trên các cặp điểm và cho phép một điểm của một quỹ đạo được sử dụng nhiều lần trong các phép tính khoảng cách của cặp, nếu điểm kia di chuyển "quá nhanh". Minh họa DTW(Ảnh từ Wikipedia )
  • Hậu quả chung dài nhất: như tên gọi của nó, nó xác định sự giống nhau của hai quỹ đạo theo chiều dài của quỹ đạo phụ dài nhất nơi các đường dẫn ban đầu đi sát nhau.
  • Chỉnh sửa khoảng cách trên chuỗi thực (EDR) và Chỉnh sửa khoảng cách với Real Penalty (ERP) xác định độ tương tự bằng số lượng thao tác chỉnh sửa (thêm, xóa hoặc thay thế) cần thiết để chuyển đổi một trong các quỹ đạo sang một quỹ đạo khác.

Nếu bạn tham gia vào lĩnh vực này, tôi đánh giá cao cuốn sách có tên "Tính toán với các quỹ đạo không gian" từ một số nhà tái định cư Microsoft Châu Á.


0

Điều này cũng có thể giúp ích cho bạn:

Orellana D, Wachowicz M. Khám phá các mô hình đình chỉ chuyển động trong khả năng di chuyển của người đi bộ. Geogr Hậu môn. 2011; 43 (3): 241-60. PubMed PMID: 22073410.

Cũng có một cái nhìn vào blog này:

idorymovement.wordpress.com/

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.