Dữ liệu lớn thực sự không phải là về "nó lớn như thế nào".
Đầu tiên, vài gigabyte không lớn chút nào, nó gần như không có gì. Vì vậy, đừng tự làm phiền mình, hệ thống của bạn sẽ tiếp tục hoạt động hiệu quả trong một thời gian tôi nghĩ.
Sau đó, bạn phải nghĩ về cách bạn sử dụng dữ liệu của bạn.
- Cách tiếp cận SQL: Mọi dữ liệu đều quý giá, được thu thập và lựa chọn tốt, và trọng tâm là lưu trữ dữ liệu có giá trị cao và có cấu trúc tốt. Điều này có thể tốn kém, mọi thứ đều liên kết với nhau và tốt cho dữ liệu chức năng và hệ thống được đặt ra.
- Phương pháp tiếp cận dữ liệu lớn: Trong dữ liệu lớn, về cơ bản, bạn lưu trữ hầu hết mọi thứ, bất kể giá trị của nó là bao nhiêu và sau đó thực hiện quy trình phân tích hoạt động. Những thứ không được liên kết, chúng được sao chép. Ví dụ: giả sử tôi có một mục blog. Trong Dữ liệu lớn sẽ không có liên kết đến tác giả của nó, nhưng tác giả sẽ được nhúng vào mục blog. Cách mở rộng hơn, nhưng đòi hỏi một cách tiếp cận khác và phức tạp hơn.
Nếu ứng dụng của bạn lưu trữ dữ liệu "chức năng", tôi sẽ đề nghị bạn tiếp tục sử dụng SQL. Nếu bạn lưu trữ dữ liệu để tìm kiếm chúng sau này hoặc thực hiện báo cáo và nếu lượng dữ liệu này có thể tăng nhanh, tôi sẽ đề xuất dữ liệu lớn. Theo tôi, dữ liệu lớn rất hữu ích khi bạn đang xử lý dữ liệu thực phải được thu thập và phân tích liên tục.