MS vừa có một cuộc nói chuyện về công nghệ ở Hà Lan, nơi họ đã thảo luận về một số thứ này. Nó bắt đầu chậm chạp, nhưng đi vào thịt của Hadoop trong khoảng 20 phút.
Ý chính của nó là "nó phụ thuộc". Nếu bạn có một bộ dữ liệu được sắp xếp hợp lý, (ít nhất là phần nào) dễ dàng phân vùng bộ dữ liệu mà (ít nhất là phần nào) là đồng nhất, thì khá dễ dàng để chia tỷ lệ cho các khối dữ liệu cao đó bằng RDBMS, tùy thuộc vào những gì bạn đang làm .
Hadoop và MR dường như hướng đến các tình huống mà bạn buộc phải quét dữ liệu phân tán lớn, đặc biệt là khi những dữ liệu đó không nhất thiết phải đồng nhất hoặc có cấu trúc như những gì chúng ta tìm thấy trong thế giới RDBMS.
Những hạn chế nào là giải pháp Dữ liệu lớn không bị ràng buộc? Đối với tôi, hạn chế lớn nhất mà họ không bị ràng buộc là phải tạo ra một lược đồ cứng nhắc trước thời hạn. Với các giải pháp Dữ liệu lớn, bạn sẽ chuyển một lượng lớn dữ liệu vào "hộp" ngay bây giờ và thêm logic vào các truy vấn của mình sau đó để xử lý sự thiếu đồng nhất của dữ liệu. Từ quan điểm của một nhà phát triển, sự đánh đổi là dễ thực hiện và linh hoạt ở mặt trước của dự án, so với sự phức tạp trong truy vấn và tính nhất quán dữ liệu ngay lập tức.