Tìm điểm GPS trung bình


11

Tôi cần viết một chương trình để tìm điểm GPS trung bình từ dân số điểm.

Trong thực tế, những điều sau đây xảy ra:

  • Mỗi tháng một người ghi lại một điểm GPS của cùng một tài sản tĩnh.
  • Do tính chất của GPS, các điểm này hơi khác nhau mỗi tháng.
  • Đôi khi, một người mắc lỗi ghi lại các xác nhận sai ở một địa điểm hoàn toàn khác.
  • Mỗi điểm GPS có trọng số chắc chắn ( HDOP ) cho biết mức độ chính xác của dữ liệu GPS hiện tại. Các điểm GPS có giá trị HDOP tốt hơn được ưu tiên hơn các điểm thấp hơn ..

Làm thế nào để tôi xác định như sau:

  • Xử lý dữ liệu với 2 giá trị so với một giá trị duy nhất như tuổi. (Tìm độ tuổi trung bình trong dân số)
  • Xác định các ngoại lệ. Trong ví dụ dưới đây, chúng sẽ là [-28.252, 25.018] và [-28.632, 25.219]
  • Sau khi loại trừ các ngoại lệ, tìm điểm GPS trung bình trong điểm này có thể là [-28.389, 25.245].
  • Sẽ là một phần thưởng nếu có thể làm việc với "trọng số" được cung cấp bởi giá trị HDOP cho mỗi điểm.

văn bản thay thế


1
Câu trả lời này đủ tương tự để giúp bạn tính trung bình các điểm, stats.stackexchange.com/questions/2493/ , thật đơn giản để kết hợp các trọng số trong khung đó. Tôi nghĩ bạn sẽ có thể sử dụng một số phương pháp phỏng đoán đơn giản để xác định các ngoại lệ, nhưng điều đó không ngăn cản bạn thực hiện một cách tiếp cận thực nghiệm hơn như Stephan đề xuất.
Andy W

Câu trả lời:


8

Một trong những vấn đề với dữ liệu đa biến là quyết định và sau đó diễn giải, một số liệu phù hợp để tính khoảng cách, do đó các khái niệm thông minh nhưng hơi khó giải thích như khoảng cách Mahalanobis. Nhưng trong trường hợp này chắc chắn sự lựa chọn là hiển nhiên - khoảng cách Euclide . Tôi muốn đề xuất một thuật toán heuristic đơn giản như:

  1. Tính trọng tâm (không trọng số) của các điểm dữ liệu, nghĩa là trung bình (không trọng số) của 2 tọa độ
  2. Tính khoảng cách Euclide của tất cả các số đọc từ tâm
  3. Không bao gồm bất kỳ bài đọc nào xa hơn một khoảng cách nhất định (được xác định dựa trên kinh nghiệm và kiến ​​thức về công nghệ của bạn hoặc không có một chút thử nghiệm và xác thực chéo lỗi - 100m, 1km, 10km ??)
  4. Tính trung bình trọng số của cả hai điểm của các điểm còn lại, tính trọng số theo tỷ lệ nghịch của điểm HDOP (hoặc một số hàm đơn điệu của nó - tôi đã xem nhanh trang wikipedia được liên kết trong câu hỏi và nghĩ rằng có thể bạn không cần như vậy một chức năng nhưng tôi cần nghiên cứu thêm để chắc chắn)

Rõ ràng có một số cách để làm cho điều này trở nên tinh vi hơn, chẳng hạn như các ngoại lệ giảm trọng lượng hoặc sử dụng công cụ ước tính M thay vì chỉ loại trừ chúng, nhưng tôi không chắc liệu sự tinh vi như vậy có thực sự cần thiết ở đây hay không.


3

Rob Hyndman gần đây đã đặt ra một câu hỏi về việc phát hiện các ngoại lệ trong dữ liệu đa biến . Các câu trả lời có thể cung cấp một vài cách tiếp cận có thể (và nếu không, bạn có thể muốn đặt câu hỏi về việc tìm các ngoại lệ 2-d trong một câu hỏi riêng biệt).

Và bạn có thể tính trung bình thành phần dữ liệu GPS còn lại của mình theo thành phần - thêm tất cả các thành phần đầu tiên lên và chia cho số điểm, sẽ cung cấp cho bạn thành phần đầu tiên của mức trung bình. Tương tự với các thành phần thứ hai.

Tính trung bình này có thể được cân bằng bởi HDOP. Tổng hợp các sản phẩm của thành phần đầu tiên, nhân với số điểm HDOP tương ứng và chia tổng cho tổng số điểm HDOP. Tương tự với các thành phần thứ hai.

Tôi sẽ tự do xóa thẻ "phân phối bình thường" ...


Cảm ơn @Stephan Kolassa, điều này sẽ giúp tìm ra giải pháp.
Philip Fourie

2

Gọi HDOP là biến độc lập. Sử dụng này để cân sau này. Vì vậy, bạn có các bộ tọa độ - gọi đây (x1, y1); (x2, y2), v.v ... Đầu tiên bỏ qua các ngoại lệ. Tính trung bình trọng số của các tọa độ x là [(x1 * h1) + (x2 * h2) + .... + (xn * hn)] / [sum (h1, h2, ..., hn)] trong đó h1, h2, ... là giá trị HDOP. Làm tương tự cho tọa độ y. Điều này sẽ đưa ra một giá trị trung bình khá chính xác cho mỗi phối hợp.

Đối phó với các ngoại lệ có thể là một chút khó khăn. Làm thế nào để bạn biết nếu họ là ngoại lệ hay không? Nghiêm túc, bạn cần xác định sự phù hợp thống kê với các quan sát và trong khoảng tin cậy xác định xem chúng có phải là chính hãng hay không. Nhìn vào câu hỏi Phân phối độc sẽ xuất hiện trong tâm trí. Nhưng điều này có lẽ là rất nhiều công việc và tôi chắc chắn bạn không muốn đi sâu vào vấn đề này. Có thể sử dụng một xấp xỉ? Giả sử bạn cho rằng giá trị phối hợp trung bình là một phương tiện tốt để sử dụng. Sau đó xác định một giá trị cho độ lệch chuẩn. Tôi nghĩ rằng dev tiêu chuẩn hoặc phân phối độc là 1 / (trung bình). Sau đó, gần đúng bằng cách sử dụng phân phối bình thường và khoảng tin cậy 95%. Nói nếu một quan sát nằm ngoài khoảng (mean- * 1.645 * std dev; mean + 1.645 * std dev) thì đó có phải là ngoại lệ không? Cho nó đi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.