Tìm kiếm các tùy chọn cho ETL không gian (Trích xuất, chuyển đổi, tải)?


33

Tôi quan tâm đến những ưu và nhược điểm của các công cụ ETL (trích xuất, chuyển đổi, tải) không gian khác nhau. Nếu bạn đã sử dụng các mục được liệt kê ở đây (hoặc thêm của riêng bạn), tôi tìm kiếm ý kiến ​​và kinh nghiệm của bạn. Cụ thể, tôi muốn xem các so sánh khả năng sử dụng của:

Không cần đưa ra đánh giá về TẤT CẢ phần mềm được đề cập. Nếu bạn có kinh nghiệm với thậm chí một thì điều đó sẽ rất có lợi trong việc đưa ra quyết định về hướng đi nào.

Ví dụ: Tôi đang tìm cách tạo một hàm chuyển đổi lược đồ cho phép tôi chọn lớp đầu vào, tạo bản dịch và xuất ra một lược đồ mới, được xác định trước. Tối ưu, sau khi tạo tập lệnh dịch, tôi muốn có một hình thức tương tác nơi tôi có thể "ánh xạ" các trường trong lớp đầu vào của mình sang lớp đầu ra (tức là - Lớp đầu ra sẽ có một trường gọi là "Địa chỉ", nó được gọi là gì trong lớp đầu vào?)

Một số đã được đề cập trong Hỏi & Đáp tại Công cụ nào có sẵn để tải dữ liệu gis lên cơ sở dữ liệu?

Và đây là một vài bài viết liên quan mà tôi tìm thấy.

Câu trả lời:


17

Câu hỏi này đã được chuyển đổi sang Community Wiki và wiki bị khóa vì đây là một ví dụ về câu hỏi tìm kiếm danh sách các câu trả lời và dường như đủ phổ biến để bảo vệ nó khỏi bị đóng cửa. Nó nên được coi là một trường hợp đặc biệt và không nên được xem là loại câu hỏi được khuyến khích trên trang này hoặc bất kỳ trang web Stack Exchange nào, nhưng nếu bạn muốn đóng góp thêm nội dung cho nó thì hãy thoải mái làm điều đó bằng cách chỉnh sửa câu trả lời này .


Tôi sẽ chỉ nói về những gì tôi đã thấy trong một bối cảnh chuyên nghiệp. Một sinh viên của tôi đã làm việc với một doanh nghiệp được giao nhiệm vụ nhận, xác nhận và tích hợp một lượng lớn dữ liệu không gian, từ một nguồn nổi tiếng (TeleAtlas) vào hệ thống GIS của họ. Cô đã sử dụng một số quy trình công việc bằng FME, thực hiện các xác minh và định dạng rất phức tạp khi đang di chuyển, từ định dạng này sang định dạng khác, như lựa chọn tính năng, xác minh cấu trúc liên kết, loại bỏ trùng lặp, v.v. Sau đó, quy trình làm việc có thể tự động xử lý các bộ dữ liệu đến.

Tôi đã tham gia ban giám khảo về một báo cáo quản chế viva (xin lỗi, google truyền thống về "soutenance de rapport de giai đoạn"), trong đó sinh viên đã mô tả một quy trình FME khác như thế này, nhưng lần này để xác thực các bộ dữ liệu khu vực được gửi đến cấp quốc gia để tích hợp đến cơ sở dữ liệu rủi ro quốc gia. Sự khác biệt chính là trong ví dụ cuối cùng này, bộ dữ liệu có các định dạng tệp rất đa dạng, raster và vector, tỷ lệ và kiểu.

Cuối cùng, tôi đã thử nghiệm Trình tích hợp dữ liệu không gian, ETL nguồn mở dựa trên Talend Open Studio. Các tính năng có rất nhiều, tuy nhiên ít hơn FME, nhưng tôi nghĩ rằng sự khác biệt chính là về tài liệu và sự thân thiện với người dùng của việc tạo quy trình công việc. Tôi thường bị buộc phải sửa đổi nguồn mã java của các thành phần dòng công việc. Nhưng đó là phiên bản trước của SDI và những thiếu sót tôi mô tả ở đây có phần bình thường với các dự án nguồn mở ngay từ đầu và chúng tôi không thể so sánh trên phần mềm được mài giũa độc quyền cùng cấp và các ứng cử viên trẻ nguồn mở miễn phí.


24

Đối với một dự án gần đây làm việc với một vài GB dữ liệu không gian, tôi đã bắt đầu tải / phản hồi dữ liệu với FME. Nó hoạt động tốt, nhưng có một đường cong học tập.

Đến cuối dự án tôi đã sử dụng các tập lệnh Python để tự động hóa các quy trình xử lý. FME có thể được viết kịch bản, nhưng nếu bạn có kiến ​​thức cơ bản về Python tại sao lại làm phức tạp mọi thứ hơn nữa? Python cung cấp cho bạn sự linh hoạt hoàn toàn và với mỗi tập lệnh nhập được viết, các kỹ năng Python của bạn đang được cải thiện.

Tôi thấy các gói Python sau là vô giá khi làm việc với các phép biến đổi dữ liệu:

  • PyProj
  • GeoPy
  • Tạo dáng
  • xlrd để nhập dữ liệu từ bảng tính Excel
  • pyobdc để kết nối với cơ sở dữ liệu
  • SQLAlchemy để chạy các câu lệnh SQL và làm việc với cơ sở dữ liệu

Nếu bạn có nền tảng phát triển / lập trình, tôi khuyên bạn nên sử dụng Python, nếu bạn thích làm việc với GUI (cũng có thể tạo ra hình ảnh đẹp cho tài liệu) Tôi khuyên dùng FME.


11

Tôi yêu mã nguồn mở nhưng FME dễ dàng giành chiến thắng trước ETL mã nguồn mở như tôi có thể nói. Nó thực sự khá rẻ để bảo trì và hỗ trợ (ít nhất là so với hầu hết các giải pháp công ty khác mà chúng tôi có cho mọi thứ).

Nếu bạn đang tìm bản dịch giữa các định dạng thì OGR có thể thực hiện (với một số đường ống vào GDAL để chuyển đổi). Tất nhiên, đó là dòng lệnh .

Để mô hình hóa trực quan vượt ra ngoài những gì được liệt kê trong nhận xét "có thể trùng lặp", họ đang làm việc trên trình tạo mô hình QGIS / SEXTANTE; bằng chứng về video khái niệm: https://www.youtube.com/watch?v=LTUu-I2ouqU

(Không, tôi không làm việc cho Safe, tôi chỉ là một khách hàng tương đối hạnh phúc).


liên kết video bị hỏng. Bạn có thể sửa nó không?
GeoStoneMarten

6

Hầu hết các hoạt động đơn giản có thể được thực hiện bởi các tiện ích nguồn mở này

  • ogr2ogr cho vector
  • gdal_translate và gdalwarp cho raster

Nhận FWtools http://fwtools.maptools.org/ và dùng thử.


6

Tôi đã làm một so sánh các công cụ khác nhau khoảng một năm trước đó cũng chứa hầu hết các tùy chọn được đề cập trong chủ đề này.

Là một câu trả lời trực tiếp hơn, tôi sử dụng FME rất nhiều do tính linh hoạt của nó. Tuy nhiên, khi tôi làm việc với các cấu trúc dữ liệu phức tạp như trong CityGML, INSPIRE GML hoặc các mô hình cơ sở dữ liệu lớn hơn, tôi sử dụng HALE , một ứng dụng nguồn mở được phát triển cho ETL và đặc biệt là hài hòa hóa.

nhập mô tả hình ảnh ở đây

Hiện tại (kể từ phiên bản 2.9.0), nó so sánh với FME (2014 SP1) như sau:

  • HALE có số lượng định dạng thấp hơn (HALE: 20, FME 200) và máy biến áp (HALE: 30+, FME: hơn 400), nhưng hỗ trợ rất tốt cho tất cả các phương ngữ XML / GML
  • HALE xem trước kết quả chuyển đổi tương tác trong bản đồ và trong chế độ xem bảng và xác thực trực tiếp đầu ra
  • HALE nói chung nhanh hơn nhiều, vì bối cảnh cục bộ cho từng thuộc tính được duy trì, giúp bạn tiết kiệm rất nhiều FeatureMergers, ví dụ
  • HALE là mã nguồn mở và được sử dụng sản xuất từ ​​năm 2010
  • HALE sử dụng UI ánh xạ khai báo, dẫn đến số lượng đầu vào người dùng yêu cầu thấp hơn so với các phương pháp tiếp cận thủ tục

Lưu ý rằng tôi đã ở trong nhóm HALE trong một vài năm.


Làm thế nào để bạn nghĩ rằng nó xếp chồng ngày hôm nay so với FME? Đặc biệt là cho các nguồn cấp dữ liệu web và GeoRSS?
Dr.YSG

@ Dr.YSG việc duy trì hale đã được wetransform GmbH tiếp quản vào năm 2015, vì vậy giờ đây đã có một đội ngũ chuyên trách đằng sau sự phát triển của nó. Đã có sự phát triển đáng kể trong bốn năm qua. Những thay đổi được ghi lại trong ghi chú phát hành GitHub. Nó hỗ trợ xử lý dữ liệu JSON / GeoJSON. GeoRSS là một định dạng XML đơn giản sử dụng lại một số phần của GML, do đó nó cũng được hỗ trợ đầy đủ. Để tự động xử lý nguồn cấp dữ liệu GeoRSS, bạn sẽ muốn xem xét hale-cli (giao diện dòng lệnh và các API khác).
tr_xsdi

5

Nếu bạn nhìn vào liên kết trùng lặp của blah238, bạn sẽ tìm thấy thêm thông tin. Tôi muốn nói rằng Talend Open Studio và Pentaho GeoKantara là giải pháp nguồn mở nổi bật nhất mà người ta có thể chọn. Trong số hai mục tiêu Talend này, không chỉ là ETL và GeoK Ấm dễ sử dụng hơn một chút mà tôi đã đọc.

Thành phố của tôi chuẩn bị cho GeoK Ấm đi viết một phương ngữ GML do hiệp hội chính quyền và khu vực Thụy Điển (SALAR) kết hợp và chúng tôi cần định dạng này để đưa geodata đến các mục đích thương mại khác nhau.

Tôi tin rằng GeoK Ấm có hỗ trợ OGR / GDAL từ phiên bản 2.0.


5

FME có lẽ là sản phẩm tốt nhất để sử dụng trong không gian này. Sau đó là GDAL / OGR. Một sản phẩm nguồn mở khác trong không gian này là geokasin - http://www.spatialytics.org/projects/geokantara / mặc dù tôi chưa bao giờ sử dụng nó trong sự tức giận (đủ may mắn để có cả hai sản phẩm khác được đề cập).

Nếu không có tùy chọn chung nào hoạt động, có lẽ bạn muốn sử dụng một công cụ chuyển đổi cụ thể.


3

Được sử dụng Geokasin một cách tôn giáo cho một đường cong học tập cao của dự án nhỏ trừ khi bạn đã sử dụng UI UI ... Thực sự mạnh mẽ vì nó được biên soạn dựa trên GDAL1.10 hỗ trợ tất cả các loại địa lý ... Điều tôi thích là hỗ trợ cho cả dữ liệu được lưu trữ và dữ liệu qua các dịch vụ ... Tôi đã sử dụng nó để tạo lại và đồng bộ các bộ dữ liệu máy chủ ArcGIS trên một cá thể postgis cục bộ thông qua ESRI json sang GeoJSON ... Dòng công việc có thể xây dựng trong các điều kiện và xác thực thiết lập nó để truy vấn # của objectid và dựa trên đó biên dịch một csv được xác định trước để lặp lại một yêu cầu bài đăng cho 500 tính năng cùng một lúc tùy thuộc vào truy vấn đầu tiên có thể hợp nhất tất cả các yêu cầu vào một tệp Geojson, chạy ogr2ogr để tải lên postgis thậm chí đã viết kịch bản để chạy chân không và lập chỉ mục với nó ... Không liên kết một cái quạt

Bạn có thể chạy nó và ánh xạ một quy trình công việc trên gui máy tính để bàn và sử dụng các công cụ máy chủ pentahos để thiết lập nó trên Hadoop và để nó chạy như một công việc script hoặc cron.


3

QGIS (ít nhất là từ phiên bản 2.6 hiện tại) hiện cũng có trình xây dựng mô hình tích hợp. Thông qua hộp công cụ này, bạn có thể truy cập vào các đại số của đại số (GDAL, GRASS, SAGA, vectortools, v.v.). Bạn cũng có thể thêm tập lệnh của riêng bạn.

Tôi phải thừa nhận rằng tôi đã không sử dụng nó một cách rộng rãi, nhưng nếu tôi đang tìm kiếm một người xây dựng mô hình, tôi sẽ coi đó là điều đáng để điều tra.


0

[CẢNH BÁO: Quảng cáo miễn phí một sản phẩm tôi tham gia]

Chúng tôi đã làm việc trên một công cụ để làm ETL. Nó có hương vị tương tự FME nhưng được thiết kế cho các nhiệm vụ đơn giản hơn và đòi hỏi ít chuyên môn hơn để sử dụng. Một số chi tiết có thể được tìm thấy tại https://www.geoactive.it chỉ cần tìm thông tin trên Data Dragon. Ứng dụng này sử dụng GDAL / OGR ở phía sau và chúng tôi đang đẩy bất kỳ bổ sung nào chúng tôi thực hiện trở lại GDAL / OGR.

Sử dụng thương mại đòi hỏi phải mua nhưng chúng tôi có sẵn giấy phép học tập miễn phí, vì vậy nếu bạn muốn sử dụng nó để nghiên cứu, hãy nhắn tin cho tôi và tôi sẽ cung cấp cho bạn thêm một số chi tiết.

Đây là trong giai đoạn phát hành sớm vì vậy vẫn còn một số lỗi nhỏ, vì vậy hãy nhẹ nhàng với chúng tôi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.