Mục tiêu của tôi là tạo ra một phương pháp nhanh, đáng tin cậy và tự động để truy cập dữ liệu chỉ đọc có trong một số nguồn dữ liệu tệp phẳng rất lớn (tài liệu CSV , Độ rộng cố định và tài liệu XML) bằng cách sử dụng Drupal 7 có thể được truy vấn bằng cách sử dụng Chế độ xem 3 mô-đun. Tôi muốn sử dụng các mô-đun đã có sẵn, nhưng xây dựng một mô-đun tùy chỉnh cũng là một tùy chọn.
Để giúp loại trừ các mô-đun và phương thức không phù hợp với tác vụ, đây là số liệu thống kê về các tệp tôi đang làm việc với:
- Nhập hàng năm: 8.500.000 tệp CSV dòng . (Được thanh lọc và tải lại hàng năm. Có khóa chính.)
- Nhập hàng tuần: 350.000 dòng tệp cố định chiều rộng. (Được thanh lọc và tải lại hàng tuần. Không có khóa chính .)
- Nhập hàng giờ: tệp CSV 3.400 . (Muốn cập nhật và đồng bộ hóa thường xuyên nhất có thể, nhưng không quá 20 phút một lần. Có khóa chính)
- Nhập hàng ngày: 200 tệp XML. (Được thanh lọc và tải lại hàng ngày. Có khóa chính)
Chuyển đổi giữa ba định dạng không phải là một vấn đề và có thể được thực hiện nếu nó sẽ cải thiện hiệu suất nhập hoặc cho phép các công cụ tốt hơn được cung cấp. ( AWK cho Chiều rộng cố định đến CSV , v.v.) Tự động truy xuất và chuyển đổi dễ dàng thông qua các tập lệnh cron và sh , nhưng vẫn cần tự động hóa tích hợp Drupal 7. Việc sử dụng các bảng tùy chỉnh cũng có thể miễn là người vews có thể tham chiếu dữ liệu bằng các mối quan hệ.
Điều gì sẽ là cách thực hành tốt nhất để thực hiện loại tích hợp dữ liệu này với Drupal 7? Ngoài ra, tôi có để lại bất kỳ chi tiết quan trọng nào liên quan đến dữ liệu hay những gì tôi đang cố gắng thực hiện không?
Dưới đây là một vài dự án tôi hiện đang tìm kiếm để tìm giải pháp. Tôi muốn mở rộng về điều này để giúp những người khác quyết định tuyến đường nào sẽ thực hiện khi làm việc với nhập dữ liệu lớn hơn.
Nhập dữ liệu vào các nút:
- Nguồn cấp dữ liệu (Hiện tại Alpha cho D7)
Nguồn cấp dữ liệu sẽ nhập dữ liệu đáng tin cậy. Tốc độ là hợp lý cho các nguồn dữ liệu nhỏ hơn nhưng quá chậm đối với các bảng 300k +.
Tự động hóa có sẵn bằng cron và Bộ lập lịch công việc (Hiện tại Alpha cho D7).
Không có chỉ mục hoặc khóa duy nhất có sẵn trong dữ liệu nguồn sẽ khiến việc này trở nên khó sử dụng. Nó nhanh hơn nguồn cấp dữ liệu, nhưng vẫn chậm để nhập các bảng rất lớn.
Tự động hóa có sẵn thông qua drush và cron.
Bảng tùy chỉnh thay vì nút
- Mô-đun dữ liệu (Hiện tại Alpha cho D7)
Các mô-đun liệu trông rất hứa hẹn, nhưng là rất buggy cho D7 vào lúc này. Các yêu cầu tự động hóa và tốc độ nhập sẽ dễ dàng được đáp ứng bằng cách sử dụng dữ liệu, nhưng độ tin cậy còn thiếu. Việc tích hợp lượt xem (liên kết dành cho D6) có vẻ rất hứa hẹn.
- Trình hướng dẫn bảng (Không khả dụng cho D7)
Đã thêm cái này để tham khảo. Không có ứng cử viên D7 tại thời điểm này, nhưng có thể đóng vai trò là điểm khởi đầu cho một mô-đun tùy chỉnh.
- Lược đồ lượt xem (Bị bỏ rơi, chỉ D6)
Đã thêm cái này để tham khảo. Điều này dường như đã được Table Wizard hấp thụ trong Drupal 6. Một lần nữa, chỉ được thêm vào để tham khảo.
- Trình nhập (RC2 cho D7)
Có vẻ như yêu cầu Trình hướng dẫn bảng (chỉ D6) để tích hợp Lượt xem . Đã thêm để tham khảo, nhưng không đáp ứng yêu cầu Lượt xem.
@MPD - Đã thêm "Bảng tùy chỉnh" dưới dạng giải pháp có thể và các mô-đun mở rộng. Cảm ơn bạn đã bổ sung.