Mã hóa và xử lý địa lý quy mô lớn trong ESRI

Ok, vì vậy tôi đoán loại truy vấn / khảo sát không chính thức này về mức độ lớn của một bộ dữ liệu bạn đang sử dụng trong thế giới ESRI của bạn ...

Tôi đang xây dựng và duy trì một bộ dữ liệu toàn tiểu bang, nơi tôi phải xử lý xuống cấp nhà riêng lẻ, không phải cấp bưu kiện nhưng nhiều địa chỉ gửi thư trên mỗi bưu kiện cho hệ thống của chúng tôi. Ở nhiều nơi tôi đang sử dụng các địa chỉ lý thuyết được tính toán từ mạng đường phố hoặc dữ liệu USPS AMS / AIS. Vì vậy, Danh sách Địa chỉ của tôi là khoảng 13,5 triệu địa chỉ và tăng lên hàng tháng hoặc hàng quý.

Hiện tại có ai đang duy trì một hệ thống trực tiếp về thông tin địa chỉ / tra cứu chính xác đến mức này trong một bộ dữ liệu liên tục không?

Tôi rất thích hợp tác hoặc nói thêm về cách người khác xử lý một tập dữ liệu lớn như vậy. Tôi đang thấy các vấn đề trong đó phần mềm ESRI dường như bị nổ tung khi tôi cố gắng thực hiện các tác vụ như giao nhau hoặc tham gia không gian. ESRI nói rằng họ không thấy các loại vấn đề này nhưng tôi đã gặp phải những vấn đề này kể từ ngày 9.3.1 vì vậy tôi không thể là người đầu tiên / duy nhất làm việc này vì tôi có thể tạo lại nó trên nhiều máy.

Nền tảng của tôi ngay bây giờ là ESRI ArcGIS 10 trên Máy tính để bàn, nói chuyện với ArcSDE 9.3.1-sp1 trên phụ trợ SQL2008 bằng cách sử dụng đối tượng không gian GEOMETRY. Vì vậy, tôi không làm bất cứ điều gì thực sự kỳ lạ; nhưng dường như vẫn còn trong một số lĩnh vực tôi có thể đang đẩy phong bì.

[Thêm nữa]

Điều tôi quan tâm là những người khác đang làm gì để tối ưu hóa các quy trình xử lý các bộ dữ liệu này. Tôi sẽ thêm từ khóa của một triệu bản ghi mỗi tháng trong tương lai và trong khi Mã hóa địa lý, v.v. không phải là vấn đề khi bạn bắt đầu chạy các quy trình khác và liên kết dữ liệu để phân tích thêm, bạn bắt đầu xử lý các phép nối phức tạp. Chà, bạn xuất dữ liệu từ Giao lộ / Lớp phủ / Danh tính bằng Only_FID và bạn cũng có một bảng giữa mỏng để tham gia; nhưng khi bạn bắt đầu cố gắng phân chia và chinh phục việc tạo bảng đó, bạn bắt đầu gặp phải các vấn đề khi bạn cần chia dữ liệu nguồn của mình thành các khu vực làm việc nhưng sau đó bạn đã lặp lại IDS mà bạn không thể hợp nhất lại; do đó, bạn còn lại các khối dữ liệu nhỏ hơn mà bạn không thể dễ dàng tạo lại toàn bộ.

Suy nghĩ về các tùy chọn chia dữ liệu theo tỷ lệ theo từng quận, sau đó sử dụng các chế độ xem không gian để nối lại với nhau, v.v ... Chỉ tò mò nếu những người dùng khác đang xem xét các loại vấn đề tương tự ở quy mô lớn như vậy nhưng ở quy mô nhỏ dấu chân.

arcgis-10.0 enterprise-geodatabase arcgis-9.3

— D.E.Wright
nguồn

60 triệu địa chỉ được mã hóa địa lý trong Oracle Spatial (11g) ArcSDE và được trực quan hóa trong ArcGIS và Ứng dụng web (Nội bộ). Đây không phải là về địa chỉ được mã hóa địa lý mà là mờ (địa chỉ khớp sai) đây là một hướng dẫn tốt scdhec.gov/gis/presentations/ESRI_Conference_08/tws/workairs/ trộm

— Mapperz

Tôi đồng ý, mã hóa địa lý chưa bao giờ là vấn đề. Vấn đề của tôi là khi bạn có một bộ dữ liệu lớn đến mức bạn cần phải có một quy trình liên tục mà các quy trình khác trở nên rất khó khăn. Các chức năng / Nhiệm vụ như Intersects, Spatial-Joins, v.v., sau đó bạn phải tham gia vào các dữ liệu khác trong một môi trường được chuẩn hóa cao để lập mô hình.

— DEWright

Là dữ liệu không gian của bạn được lập chỉ mục? Theo các tài liệu, SQL Server sử dụng các chỉ mục B-Tree. Hãy thử tải dữ liệu vào cơ sở dữ liệu PostGIS với các chỉ mục GIST và so sánh hiệu suất. Điều này sẽ cho bạn biết nếu đó là sự cố SQL Server.

— Sean

Không có vấn đề với loại điều đó, nhưng những gì tôi thấy tổng thể là khi bạn đang xử lý rất nhiều điểm và thực hiện các chức năng sâu chạy rất lâu, bạn nhìn vào các cách để tối ưu hóa chúng. Và tôi tò mò về những gì người dùng quy mô lớn khác đang làm.

— DEWright

Nếu câu hỏi là kết thúc mở thì nên đăng lại và tạo một wiki cộng đồng.

— Sean

Vì đây là một câu hỏi kết thúc mở (cũ) tôi sẽ cung cấp cho bạn một câu trả lời mở: Sử dụng cơ sở dữ liệu đúng cách có thể tiết kiệm lượng lớn thời gian. Cách rõ ràng để làm một cái gì đó không nhất thiết phải là nhanh nhất, ví dụ như khi gần đây tôi muốn xóa rất nhiều hàng khỏi Oracle, hóa ra là chỉ gửi: delete from TABLE1 where ID = 123cho mỗi tính năng rất chậm và có một số công cụ ưa thích của Oracle tôi có thể làm để làm cho nó đơn đặt hàng của cường độ nhanh hơn.

Vì vậy, về cơ bản nếu bạn tìm thấy một vấn đề cụ thể đó là nút cổ chai, hãy hỏi một câu hỏi cụ thể liên quan đến nút cổ chai đó với các chuyên gia. Vì vậy, đối với phía ArcGIS có thể sẽ ở đây (hoặc các diễn đàn ESRI hoặc hỗ trợ ESRI của bạn), nhưng đối với vấn đề về phía cơ sở dữ liệu (và mọi thứ thường sẽ nhanh hơn nếu bạn thực hiện chúng ở đó) bạn muốn hỏi tại http : //www.stackoverflow.com

— GIS-Jonathan
nguồn

Không có quá nhiều kết thúc mở; nhưng tìm kiếm nhiều hơn cho các cách lý thuyết tốt hơn để xử lý chủ đề này. Con đường gần đây nhất của tôi đã cho tôi xây dựng logic tìm kiếm mờ của riêng mình để nói chuyện với SQL2008 DB của riêng tôi. Loại bỏ sự phụ thuộc vào công cụ ESRI để dựa vào chỉ số được điều chỉnh tốt để thử và làm cho điều này nhanh hơn. Vì chúng tôi không thể biết đủ về các phần bên trong của các công cụ của BING hoặc của Google, chúng tôi chỉ có thể giả sử rằng họ sẽ sử dụng logic riêng.

— DEWright

Bạn có thể tìm ra khá nhiều sự đằng sau hậu trường của Google từ công trình nghiên cứu của họ - research.google.com/pubs/papers.html

— GIS-Jonathan