Ok, vì vậy tôi đoán loại truy vấn / khảo sát không chính thức này về mức độ lớn của một bộ dữ liệu bạn đang sử dụng trong thế giới ESRI của bạn ...
Tôi đang xây dựng và duy trì một bộ dữ liệu toàn tiểu bang, nơi tôi phải xử lý xuống cấp nhà riêng lẻ, không phải cấp bưu kiện nhưng nhiều địa chỉ gửi thư trên mỗi bưu kiện cho hệ thống của chúng tôi. Ở nhiều nơi tôi đang sử dụng các địa chỉ lý thuyết được tính toán từ mạng đường phố hoặc dữ liệu USPS AMS / AIS. Vì vậy, Danh sách Địa chỉ của tôi là khoảng 13,5 triệu địa chỉ và tăng lên hàng tháng hoặc hàng quý.
Hiện tại có ai đang duy trì một hệ thống trực tiếp về thông tin địa chỉ / tra cứu chính xác đến mức này trong một bộ dữ liệu liên tục không?
Tôi rất thích hợp tác hoặc nói thêm về cách người khác xử lý một tập dữ liệu lớn như vậy. Tôi đang thấy các vấn đề trong đó phần mềm ESRI dường như bị nổ tung khi tôi cố gắng thực hiện các tác vụ như giao nhau hoặc tham gia không gian. ESRI nói rằng họ không thấy các loại vấn đề này nhưng tôi đã gặp phải những vấn đề này kể từ ngày 9.3.1 vì vậy tôi không thể là người đầu tiên / duy nhất làm việc này vì tôi có thể tạo lại nó trên nhiều máy.
Nền tảng của tôi ngay bây giờ là ESRI ArcGIS 10 trên Máy tính để bàn, nói chuyện với ArcSDE 9.3.1-sp1 trên phụ trợ SQL2008 bằng cách sử dụng đối tượng không gian GEOMETRY. Vì vậy, tôi không làm bất cứ điều gì thực sự kỳ lạ; nhưng dường như vẫn còn trong một số lĩnh vực tôi có thể đang đẩy phong bì.
[Thêm nữa]
Điều tôi quan tâm là những người khác đang làm gì để tối ưu hóa các quy trình xử lý các bộ dữ liệu này. Tôi sẽ thêm từ khóa của một triệu bản ghi mỗi tháng trong tương lai và trong khi Mã hóa địa lý, v.v. không phải là vấn đề khi bạn bắt đầu chạy các quy trình khác và liên kết dữ liệu để phân tích thêm, bạn bắt đầu xử lý các phép nối phức tạp. Chà, bạn xuất dữ liệu từ Giao lộ / Lớp phủ / Danh tính bằng Only_FID và bạn cũng có một bảng giữa mỏng để tham gia; nhưng khi bạn bắt đầu cố gắng phân chia và chinh phục việc tạo bảng đó, bạn bắt đầu gặp phải các vấn đề khi bạn cần chia dữ liệu nguồn của mình thành các khu vực làm việc nhưng sau đó bạn đã lặp lại IDS mà bạn không thể hợp nhất lại; do đó, bạn còn lại các khối dữ liệu nhỏ hơn mà bạn không thể dễ dàng tạo lại toàn bộ.
Suy nghĩ về các tùy chọn chia dữ liệu theo tỷ lệ theo từng quận, sau đó sử dụng các chế độ xem không gian để nối lại với nhau, v.v ... Chỉ tò mò nếu những người dùng khác đang xem xét các loại vấn đề tương tự ở quy mô lớn như vậy nhưng ở quy mô nhỏ dấu chân.