Các tọa độ GPS (vĩ độ và kinh độ) có thể được sử dụng làm các tính năng trong mô hình tuyến tính không?


10

Tôi có các bộ dữ liệu chứa, trong số nhiều tính năng, tọa độ GPS (vĩ độ và kinh độ). Tôi muốn sử dụng các bộ dữ liệu này để khám phá các vấn đề như: (1) tính toán ETA để lái xe giữa điểm bắt đầu và điểm kết thúc; và (2) ước tính số lượng tội phạm cho một điểm cụ thể.

Tôi muốn sử dụng mô hình hồi quy tuyến tính. Tuy nhiên, tôi có thể sử dụng các tọa độ GPS này trực tiếp trong mô hình tuyến tính không?

Vĩ độ và kinh độ không có thuộc tính thứ tự , chẳng hạn như với tuổi của một người. Ví dụ: hai điểm (40.805996, -96.681473) và (41.226682, -95.986587) dường như không có bất kỳ thứ tự có ý nghĩa nào. Họ chỉ là những điểm trong không gian. Tôi đã nghĩ đến việc thay thế chúng bằng mã zip phân loại của Hoa Kỳ và sau đó thực hiện mã hóa một lần nóng , nhưng điều đó sẽ dẫn đến rất nhiều biến số.


1
Bạn có phải sử dụng chúng trực tiếp ? Bạn đã nghe nói về các công cụ phân vùng, chẳng hạn như thuật toán AZP của S. Openshaw? Bạn thậm chí có thể phân cách thủ công các vùng trong bản đồ thành các vùng / vùng riêng biệt, nếu khu vực này tương đối nhất quán.
Mephy

@Mephy: Điều đó có nghĩa là tôi sẽ chuyển đổi lat / long thành các vùng, phải không? Nhưng sau đó tôi sẽ có hàng trăm hoặc hàng ngàn khu vực phân loại, giống như với mã zip. Tôi phải mã hóa một nóng tất cả chúng.
stackoverflowuser2010

Tất nhiên phụ thuộc vào cách bạn cắt các khu vực. Nếu bạn chọn "phía nam của đường xích đạo / phía bắc của đường xích đạo", thì đó chỉ là hai. Nhiều thuật toán phân vùng có một số tham số siêu để xác định số lượng như số lượng vùng hoặc kích thước vùng tối thiểu.
Mephy

Tôi có cùng một vấn đề. Tôi muốn dự đoán vị trí của mọi người. Tôi đã geohashing tất cả các tính năng định vị địa lý trong dữ liệu đào tạo. Sau đó, LabelDecoder được sử dụng để chuyển đổi tính năng vị trí phân loại. Cuối cùng, kết quả thật tồi tệ. Có bất kỳ ý tưởng tốt để đối phó với dự đoán không gian?
berisfu

Câu trả lời:


5

Bạn không thể sử dụng chúng trực tiếp, vì không chắc có mối quan hệ tuyến tính thực sự trừ khi bạn đang dự đoán "ai đó ở phía đông hay phía bắc". Như đã đề cập trong các ý kiến, bạn cần chuyển đổi chúng thành các khu vực. Nếu bạn muốn giữ cho nó thực sự đơn giản, bạn có thể sử dụng thuật toán phân cụm kNN với số lượng cụm tiềm năng thấp và sau đó gán cho mỗi phiên bản một tính năng mới với ID cụm, sau đó mã hóa một điểm nóng đó.

Bạn cũng có thể muốn đọc về cách mọi người nội suy tọa độ để dự đoán các giá trị trên toàn bản đồ. Ví dụ đầu tiên là với các trạm nhiệt độ, nhưng bạn cũng có thể tưởng tượng đó là "vùng nóng" cho tội phạm.

( DOCS )


2

Bạn có thể làm bất cứ điều gì trái tim bạn mong muốn, nhưng trừ khi mô hình của bạn dự đoán nhiệt độ hoặc chênh lệch thời gian, tôi không thể đưa ra bất kỳ biến mục tiêu nào khác chỉ phụ thuộc vào tọa độ.

Những gì bạn có thể muốn làm là sử dụng nguồn dữ liệu ngoài và làm phong phú dữ liệu của bạn với mã Quốc gia / Zip / khí hậu / các tính năng địa lý khác sẽ giúp mô hình của bạn thực hiện.


0

Tọa độ GPS có thể được chuyển đổi trực tiếp thành geohash . Geohash chia Trái đất thành các "xô" có kích thước khác nhau dựa trên số chữ số (mã Geohash ngắn tạo ra các khu vực lớn và mã dài hơn cho các khu vực nhỏ hơn).

Geohash là một số duy nhất có thể được sử dụng làm tính năng trong mô hình.

Geohash chỉ áp dụng cho toàn bộ thế giới, mã zip thì không.


Đầu ra của geohasher là một chuỗi, không phải là một số duy nhất, phải không? Và nếu geohash là một chuỗi, thì tôi phải mã hóa một lần nóng, điều này sẽ dẫn đến rất nhiều biến số, giống như với mã zip được mã hóa một lần nóng.
stackoverflowuser2010

Một geohash là một số duy nhất, được mã hóa trong cơ sở 32. Không có lý do gì để mã hóa 1 nóng. Chọn mức độ chính xác và sử dụng số chữ số có liên quan.
Brian Spiering

Tôi chỉ thấy các biểu diễn chuỗi của geohash. Tuy nhiên, ngay cả khi geohash được biểu diễn dưới dạng int dài, liệu có mối quan hệ tuyến tính nào giữa chúng để sử dụng trong mô hình tuyến tính không? Đó chính xác là điểm của câu hỏi ban đầu của tôi.
stackoverflowuser2010

Mối quan hệ giữa geohash hơi phức tạp - en.wikipedia.org/wiki/Geohash#Design
Brian Spiering

1
Có nhiều cách của kỹ thuật tính năng ngoài mã hóa tuyến tính và một nóng. Ví dụ, thủ thuật kernel hoặc chuyển đổi Helmert.
Brian Spiering
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.