Như bạn lưu ý một cách đúng đắn, ngày nay "dữ liệu lớn" là điều mà mọi người muốn nói rằng họ đã có, điều này đòi hỏi một sự lỏng lẻo nhất định trong cách mọi người định nghĩa thuật ngữ này. Tuy nhiên, nói chung, tôi nói rằng bạn chắc chắn xử lý dữ liệu lớn nếu quy mô không còn khả thi để quản lý với các công nghệ truyền thống hơn như RDBMS, ít nhất là không bổ sung cho chúng bằng các công nghệ dữ liệu lớn như Hadoop.
Làm thế nào lớn dữ liệu của bạn phải thực sự là trường hợp gây tranh cãi. Đây là một bài đăng trên blog (hơi khiêu khích) tuyên bố rằng đó không thực sự là trường hợp dưới 5 TB dữ liệu. (Để rõ ràng, nó không yêu cầu "Dưới 5 TB không phải là dữ liệu lớn", nhưng chỉ "Dưới 5 TB không đủ lớn để bạn cần Hadoop".)
Nhưng ngay cả trên các bộ dữ liệu nhỏ hơn, các công nghệ dữ liệu lớn như Hadoop có thể có các lợi thế khác, bao gồm rất phù hợp với các hoạt động hàng loạt, chơi tốt với dữ liệu phi cấu trúc (cũng như dữ liệu có cấu trúc không biết trước hoặc có thể thay đổi), khả năng mở rộng theo chiều ngang ( nhân rộng bằng cách thêm nhiều nút thay vì tăng cường các máy chủ hiện tại của bạn) và (như một trong những người bình luận về các ghi chú bài đăng được liên kết ở trên) khả năng tích hợp xử lý dữ liệu của bạn với các bộ dữ liệu bên ngoài (nghĩ về việc giảm bản đồ trong đó trình ánh xạ thực hiện cuộc gọi đến máy chủ khác). Các công nghệ khác liên quan đến dữ liệu lớn, như cơ sở dữ liệu NoSql, nhấn mạnh hiệu năng nhanh và tính sẵn sàng nhất quán trong khi xử lý các bộ dữ liệu lớn, cũng có thể xử lý dữ liệu bán cấu trúc và mở rộng theo chiều ngang.
Tất nhiên, RDBMS truyền thống có những ưu điểm riêng bao gồm các đảm bảo ACID (Nguyên tử, Tính nhất quán, Cách ly, Độ bền) và hiệu suất tốt hơn cho các hoạt động nhất định, cũng như được chuẩn hóa hơn, trưởng thành hơn và (đối với nhiều người dùng) quen thuộc hơn. Vì vậy, ngay cả đối với dữ liệu "lớn" không thể chối cãi, việc tải ít nhất một phần dữ liệu của bạn vào cơ sở dữ liệu SQL truyền thống và sử dụng kết hợp với các công nghệ dữ liệu lớn là điều hợp lý.
Vì vậy, một định nghĩa hào phóng hơn sẽ là bạn có dữ liệu lớn miễn là nó đủ lớn để các công nghệ dữ liệu lớn cung cấp một số giá trị gia tăng cho bạn. Nhưng như bạn có thể thấy, điều đó có thể không chỉ phụ thuộc vào kích thước dữ liệu của bạn mà còn phụ thuộc vào cách bạn muốn làm việc với dữ liệu đó và loại yêu cầu nào bạn có về tính linh hoạt, tính nhất quán và hiệu suất. Cách bạn sử dụng dữ liệu của mình có liên quan đến câu hỏi hơn là bạn đang sử dụng dữ liệu đó để làm gì (ví dụ: khai thác dữ liệu). Điều đó nói rằng, sử dụng như khai thác dữ liệu và học máy có nhiều khả năng mang lại kết quả hữu ích nếu bạn có một bộ dữ liệu đủ lớn để làm việc.