Dưới đây là một chút câu hỏi chi tiết liên quan đến phân tích địa chỉ / mã hóa địa lý mà tôi cảm thấy nên thú vị với nhiều người dùng.
Vì vậy, về cơ bản, tôi tò mò muốn biết liệu có ai có kinh nghiệm cài đặt, xây dựng hoặc mở rộng một công cụ mã hóa địa lý mã nguồn mở và / hoặc chỉnh sửa địa chỉ không.
Tôi biết về trình mã hóa địa lý: Các sáng kiến 2.0 của Hoa Kỳ mà tôi nghĩ được duy trì bởi các geocommons nhưng tôi không chắc chắn nếu có các lựa chọn thay thế tốt hơn, các công cụ mã nguồn mở khác, nếu hệ thống của chúng có thể được mở rộng một cách hiệu quả hoặc nếu có bất kỳ sự phát triển nào tôi có thể không biết.
Mục tiêu của tôi như sau:
- Tôi cần một công cụ có độ chính xác cao, có khả năng tự động phân tích cú pháp và / hoặc chuẩn hóa dữ liệu vị trí được người dùng nhập từ một trường đầu vào duy nhất trong thời gian thực và với âm lượng cao nhất có thể.
- Dữ liệu đầu vào sẽ là một hoặc nhiều thành phần địa chỉ sau: mã zip, quận, thành phố, đường phố, địa chỉ, tiểu bang.
- Dữ liệu đầu vào cũng cần để có thể tra cứu từ cơ sở dữ liệu tên địa lý tùy chỉnh của chúng tôi. Ví dụ: anh ta có thể nhập tên của một vùng lân cận hoặc tên vị trí không USPS mà tự nhiên không phải là biến địa chỉ tiêu chuẩn.
Đưa ra các mục tiêu này, tôi nhận thức rõ rằng thực tế là khi đưa ra một trường mẫu đơn để thực hiện tra cứu như vậy, mỗi người dùng sẽ nhập dữ liệu của mình theo các định dạng khác nhau trong khi các yếu tố khác thường rơi vào lỗi chính tả.
Bên cạnh việc sử dụng cơ sở dữ liệu điều tra dân số làm cốt lõi cho các địa chỉ / phạm vi hợp lệ (tất cả những gì tôi tin là Geocoder: US, tôi tin rằng một số khả năng xác định "bí danh" đã biết là lý tưởng cho việc viết sai chính tả tên đường phố. những thứ như người dùng vào Ave so với Ave. so với Avenue. Đừng nghĩ khả năng bí danh như vậy là hoàn toàn có thể với công cụ Geocoder: US.
Mặc dù các yếu tố trên có thể thực sự giải quyết được phần lớn các vấn đề, tôi nghĩ rằng một số loại kết hợp mờ hiệu quả cần tồn tại khi đầu vào không thể khớp với đủ% tuổi.
Nếu dữ liệu đầu vào có thể được phân tích thành các phần tử riêng lẻ dựa trên một số quy tắc giả định và sau đó sử dụng một loại thành phần "điểm số phù hợp" để phù hợp với bất kỳ yếu tố nào chưa từng có sẽ phải dựa trên các yếu tố đã được "khớp" với mức cao trình độ.
Ví dụ: Tôi sẽ giả định rằng mã hóa địa lý có hiệu quả nhất có thể, chúng ta cần trích xuất các yếu tố dữ liệu riêng lẻ từ trường đầu vào trong nỗ lực thu hẹp "khu vực" mà người dùng đang cố gắng tìm kết quả. Theo quan điểm của tôi, điều này có nghĩa là số 5 chữ số có thể được coi là mã zip, nếu có một yếu tố khác như tên thành phố khớp với mã zip, giả định rằng chúng tôi có "khu vực" chính xác ... Tiếp theo chúng tôi sử dụng phần còn lại dữ liệu để cố gắng tìm một kết quả đầy đủ, một phần hoặc mờ, điểm số và liệt kê các kết quả có thể.
Trong mọi trường hợp - tôi sẽ đánh giá rất cao nếu có ai có thể cung cấp một số lời khuyên ở đây cùng với bất kỳ lời khuyên nào, chỉ số hiệu suất hoặc sự phát triển sắp tới mà họ biết có thể điều chỉnh hướng của tôi (chẳng hạn như sử dụng postgis 2.0 như một phương tiện để tăng cường khả năng kết hợp)