Làm thế nào để lọc sai điểm GPS?


11

Tôi có một cơ sở dữ liệu về các điểm GPS. Không có bất kỳ dấu vết, chỉ có điểm. Tôi cần tính toán một số giá trị cho mỗi 100 mét, nhưng đôi khi GPS đưa ra tọa độ sai nằm xa các điểm GPS thực và thay vì tính giá trị cho một hình vuông nhỏ, tôi phải tính toán cho diện tích hình chữ nhật thực sự lớn.

Thuật toán tốt nhất để lọc các điểm GPS sai là gì?

Tôi đã tạo một ảnh chụp màn hình để giúp hiểu:

! [http://content.screencast.com


1
Tôi sẽ sử dụng bội số nhỏ của khung di chuyển (giả sử 10 điểm cuối) khoảng cách trung bình giữa các điểm làm tiêu chí để phát hiện các ngoại lệ đó.
lynxlynxlynx

Bạn có thể mô tả phương pháp của bạn chi tiết hơn? Tôi có một cơ sở dữ liệu về các điểm, chúng không được sắp xếp theo bất kỳ loại nào. Vì vậy, khoảng cách có thể là 2 mét hoặc 500 mét. Nhưng một số điểm rất xa. Tôi đã tạo một ảnh chụp màn hình để giúp bạn hiểu
smirnoffs

2
Tôi hiểu rồi. Trong trường hợp này cách tiếp cận của tôi là không tốt. Thay vào đó tôi sẽ tính điểm lân cận gần nhất cho mỗi điểm và sau đó cạo sạch các ngoại lệ ở đó.
lynxlynxlynx

2
Cách tiếp cận thứ hai được đề xuất bởi @lynx sẽ hoạt động tốt với dữ liệu mẫu, đặc biệt khi phương pháp phát hiện ngoại lệ là phương pháp tốt. Xem câu hỏi về các ngoại lệ trên trang web thống kê của chúng tôi để biết các tùy chọn. Chẳng hạn, nhiều cách tiếp cận sáng tạo (và hợp lệ) được đề xuất tại stats.stackexchange.com/questions/213 .
whuber

Câu trả lời:


3

Chạy Anselin Local Moran's I chống lại các điểm và ném ra bất cứ thứ gì có chỉ số z dưới -1,96. Đó là một phương pháp thống kê để định vị các ngoại lệ không gian. Bạn phải đảm bảo rằng tất cả các điểm có giá trị liên quan đến vị trí không gian của chúng để làm điều đó.

Nhưng khi kiểm tra các công cụ trong 10.1 sau nhận xét của người đăng ký, tôi nhận ra rằng nếu bạn sử dụng ArcGIS 10.1, công cụ phân tích nhóm có sẵn, đó thực sự là điều bạn muốn làm.

Tôi nghĩ rằng bạn muốn thực hiện phân tích nhóm với một ràng buộc không gian tam giác Delaunay. Rào cản ở đây là bạn cần có một số nhóm phân vùng bằng hoặc lớn hơn số lượng các nhóm bị ngắt kết nối (nếu bất kỳ ngoại lệ nào là hàng xóm tự nhiên với nhau). Mặt khác, các ngoại lệ không có hàng xóm tự nhiên sẽ không có nhóm từ phân tích nhóm.

Dựa vào đó, tôi nghĩ rằng tam giác Delauney có thể là nguồn gốc của thuật toán lọc, nhưng tôi chưa chắc chắn.

Một cập nhật khác: Sau khi đào sâu vào phân vùng, tập lệnh chạy công cụ phân tích nhóm, tôi nghĩ có thể sử dụng thuật toán trong đó cho các nhóm bị ngắt kết nối với phần NoNeighbor, mặc dù tôi gặp khó khăn khi đào phần đó kịch bản.


(-1) Điều này được đảm bảo để ném đi khoảng 1 trong 40 điểm bất kể là gì. Không nên sử dụng bất kỳ thử nghiệm như vậy để phát hiện ngoại lệ.
whuber

1
Điều đó không đúng khi kiểm tra các ngoại lệ không gian thuần túy - tồn tại các ngoại lệ không gian. Nếu các ngoại lệ không gian không tồn tại, thì bạn sẽ có vấn đề đó, nhưng nếu chúng tồn tại thì chỉ những ngoại lệ đó mới rơi vào điểm z thấp như vậy. Tất cả phụ thuộc vào sự phân bố không gian của các điểm.
blord-castillo

1
Hầu như: nếu các ngoại lệ tự tạo thành một cụm, bạn có thể không phát hiện ra chúng hoàn toàn. . họ có thể đi bao xa; liệu họ có thể co cụm; v.v ... Theo nguyên tắc chung, các số liệu thống kê đưa ra các giả định phân phối (như cách sử dụng I của Local Moran này) không hoạt động tốt như các thống kê mạnh mẽ, không tham số.
whuber

2
Tôi đã xem xét một vấn đề lý thuyết cụ thể, trong đó bạn có các điểm GPS "tốt" và bạn có số điểm GPS "xấu" bằng nhau xếp chồng lên nhau ở một góc xa của hộp giới hạn. Không có kiến ​​thức về lĩnh vực quan tâm cho điểm "tốt", tôi không nghĩ bạn có thể tách biệt về mặt thống kê bộ nào là "tốt" và bộ nào là "xấu". Đây có thể là một vấn đề đòi hỏi chỉ định thủ công các lĩnh vực quan tâm.
blord-castillo

2
Đó là chính xác: bạn đã mô tả một phân phối đa biến hai chiều. Những gì thường được thực hiện trong các trường hợp như vậy là ước tính mô hình hỗn hợp hoặc ứng dụng thuật toán cụm. Kết quả là tách ra các thành phần hỗn hợp / cụm nhưng không chỉ định bất kỳ thành phần nào trong số chúng là "ngoại lệ:" nhiệm vụ đó phải thuộc về người dùng.
whuber

3

Điều này có thể giúp để có được một danh sách các ngoại lệ:

SELECT p1.point_id 
FROM p1 AS points, p2 AS points
WHERE p1.point_id <> p2.point_id AND
ST_Distance(p1.geom, p2.geom) > 10000

Ở đây, point_id sẽ là khóa chính trong bảng điểm của bạn. Hàm khoảng cách sẽ tìm các điểm nơi gần nhất lớn hơn 10000 mét. (Tất nhiên, bạn có thể đặt bất kỳ giá trị phù hợp)

Nếu cách trên hoạt động, sau đó thay đổi thành một thống kê XÓA, đại loại như:

DELETE FROM points WHERE point_id IN (
-- SELECT as above
SELECT ....
);

1
1. Các điểm không được sắp xếp. 2. Nếu lỗi sẽ thấp hơn 10000 mét thì sao? Ví dụ 150 mét?
smirnoffs

1
Có lẽ tôi không hiểu. Từ hình ảnh của bạn, tôi thấy rằng hầu hết tất cả các điểm được tập hợp trong một khu vực và một số rất nhỏ ở rất xa. Đó không phải là vấn đề? Nếu một điểm chỉ cách điểm khác 150 mét, làm sao bạn biết đó là một ngoại lệ?
Micha

1

Tôi sẽ cố gắng cung cấp một câu trả lời thiết thực hơn để giúp bạn hoàn thành công việc. (xin lỗi nếu bạn đang tìm kiếm một cuộc thảo luận về thuật toán)

Kịch bản 1: Bạn đề cập đến points Điểm GPS ', vì vậy nếu bạn có quyền truy cập vào điểm tham chiếu GPS ban đầu, công việc sẽ trở nên dễ dàng hơn nhiều. Bạn có thể ném ra các điểm có HDOP / VDOP cao hoặc số lượng vệ tinh trong chế độ xem - điều này sẽ gây ra lỗi ban đầu. Một công cụ miễn phí như gpsbabel có các bộ lọc như vậy được tích hợp sẵn. http://www.gpsbabel.org/htmldoc-development/Data_Filters.html

Kịch bản 2: Bạn chỉ cần có một tập hợp các điểm. Vấn đề sau đó trở thành phát hiện các ngoại lệ không gian. Có rất nhiều nghiên cứu trong lĩnh vực này và tôi thấy nhiều bài viết về chủ đề này từ một tìm kiếm trên web. Nếu bạn đang tìm cách dọn sạch dữ liệu của mình, bạn có thể sử dụng thuật toán v.out trước đó của GRASS sẽ hoạt động trong trường hợp của bạn dựa trên ảnh chụp màn hình bạn đã chia sẻ. http://grass.osgeo.org/gdp/html_grass63/v.outlier.html


Cảm ơn vì đã bình luận. Thật không may, tôi chỉ có tọa độ. GPS chỉ là một nguồn tọa độ và tôi không truy cập vào các bản nhạc GPS gốc.
smirnoffs

-2

Tôi nghĩ bạn đã có dữ liệu rác. Trên thực tế, nếu bạn quan tâm đến thực tế là một số dữ liệu sai và bạn không thể xác định đáng tin cậy mọi điểm sai bằng cách sử dụng một số yếu tố khác, thì bạn sẽ có một số dữ liệu xấu trong phân tích của mình.

Nếu đó là vấn đề, thì có lẽ bạn nên xem xét việc ném mọi thứ, tìm ra nguyên nhân gốc (ví dụ: các điểm GPS xấu là từ đa đường), giải quyết nguyên nhân gốc đó (ví dụ: thêm ăng-ten bị sặc hoặc loại GPS tốt hơn hoặc bất kỳ cách khắc phục tốt nhất là), và sau đó làm lại việc thu thập dữ liệu.

Nếu dữ liệu xấu không thành vấn đề, thì chỉ cần sử dụng nó và bỏ qua các lỗi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.