Tôi nghĩ định nghĩa hữu ích duy nhất của dữ liệu lớn là dữ liệu liệt kê tất cả thông tin về một hiện tượng cụ thể. Điều tôi muốn nói là, thay vì lấy mẫu từ một số người quan tâm và thu thập một số phép đo trên các đơn vị đó, dữ liệu lớn thu thập các phép đo trên toàn bộ dân số quan tâm. Giả sử bạn quan tâm đến khách hàng của Amazon.com. Amazon.com hoàn toàn khả thi khi thu thập thông tin về tất cả các giao dịch mua của khách hàng của họ, thay vì chỉ theo dõi một số người dùng hoặc chỉ theo dõi một số giao dịch.
Theo tôi, các định nghĩa xoay quanh kích thước bộ nhớ của chính dữ liệu sẽ có phần hạn chế. Theo số liệu đó, với một máy tính đủ lớn, không có dữ liệu nào thực sự là dữ liệu lớn. Ở cực kỳ của một máy tính lớn vô hạn, lập luận này có thể có vẻ rút gọn, nhưng hãy xem xét trường hợp so sánh máy tính xách tay cấp tiêu dùng của tôi với các máy chủ của Google. Rõ ràng tôi sẽ gặp vấn đề hậu cần to lớn khi cố gắng lọc qua một terabyte dữ liệu, nhưng Google có các nguồn lực để thực hiện nhiệm vụ đó một cách khá thủ công. Quan trọng hơn, kích thước của máy tính của bạn không phải là một thuộc tính nội tại của dữ liệu , do đó, việc xác định dữ liệu hoàn toàn liên quan đến bất kỳ công nghệ nào bạn có trong tay giống như đo khoảng cách theo chiều dài của cánh tay bạn.
Lập luận này không chỉ là một chủ nghĩa hình thức. Nhu cầu về các sơ đồ song song phức tạp và các nền tảng điện toán phân tán sẽ biến mất một khi bạn có đủ sức mạnh tính toán. Vì vậy, nếu chúng tôi chấp nhận định nghĩa rằng Dữ liệu lớn quá lớn để phù hợp với RAM (hoặc gặp sự cố với Excel hoặc bất cứ điều gì), thì sau khi chúng tôi nâng cấp máy, Dữ liệu lớn sẽ không còn tồn tại. Điều này có vẻ ngớ ngẩn.
Nhưng hãy xem một số dữ liệu về dữ liệu lớn và tôi sẽ gọi đây là "Siêu dữ liệu lớn". Bài đăng trên blog này quan sát một xu hướng quan trọng: RAM có sẵn đang tăng nhanh hơn kích thước dữ liệu và tuyên bố một cách khiêu khích rằng "RAM lớn đang ăn dữ liệu lớn" - nghĩa là, với cơ sở hạ tầng đầy đủ, bạn không còn gặp vấn đề về dữ liệu lớn nữa, bạn chỉ cần có dữ liệu và bạn quay trở lại miền của các phương pháp phân tích thông thường.
Hơn nữa, các phương thức biểu diễn khác nhau sẽ có kích thước khác nhau, do đó, không rõ ràng chính xác ý nghĩa của "dữ liệu lớn" được định nghĩa trong tham chiếu đến kích thước trong bộ nhớ của nó. Nếu dữ liệu của bạn được xây dựng theo cách lưu trữ nhiều thông tin dư thừa (nghĩa là bạn chọn mã hóa không hiệu quả), bạn có thể dễ dàng vượt qua ngưỡng của những gì máy tính của bạn có thể dễ dàng xử lý. Nhưng tại sao bạn muốn có một định nghĩa để có tài sản này? Theo suy nghĩ của tôi, liệu tập dữ liệu có phải là "dữ liệu lớn" hay không không nên quyết định xem bạn có lựa chọn hiệu quả trong thiết kế nghiên cứu hay không.
Từ quan điểm của một học viên, dữ liệu lớn như tôi định nghĩa nó cũng mang theo các yêu cầu tính toán, nhưng các yêu cầu này là dành riêng cho ứng dụng. Suy nghĩ thông qua thiết kế cơ sở dữ liệu (phần mềm, phần cứng, tổ chức) cho các quan sát rất khác so với10 7104107quan sát, và điều đó hoàn toàn tốt. Điều này cũng ngụ ý rằng dữ liệu lớn, như tôi xác định, có thể không cần công nghệ chuyên biệt ngoài những gì chúng tôi đã phát triển trong thống kê cổ điển: các mẫu và khoảng tin cậy vẫn hoàn toàn hữu ích và là công cụ suy luận hợp lệ khi bạn cần ngoại suy. Mô hình tuyến tính có thể cung cấp câu trả lời hoàn toàn chấp nhận được cho một số câu hỏi. Nhưng dữ liệu lớn như tôi định nghĩa nó có thể đòi hỏi công nghệ mới. Có lẽ bạn cần phân loại dữ liệu mới trong tình huống bạn có nhiều người dự đoán hơn dữ liệu huấn luyện hoặc nơi dự đoán của bạn phát triển cùng với kích thước dữ liệu của bạn. Những vấn đề này sẽ đòi hỏi công nghệ mới hơn.
Bên cạnh đó, tôi nghĩ rằng câu hỏi này rất quan trọng vì nó hoàn toàn chạm vào lý do tại sao các định nghĩa lại quan trọng - đó là, bạn đang xác định chủ đề cho ai. Một cuộc thảo luận về bổ sung cho học sinh lớp một không bắt đầu với lý thuyết tập hợp, nó bắt đầu bằng việc tham khảo để đếm các đối tượng vật lý. Theo kinh nghiệm của tôi, hầu hết việc sử dụng thuật ngữ "dữ liệu lớn" xảy ra trên báo chí phổ biến hoặc trong giao tiếp giữa những người không phải là chuyên gia về thống kê hoặc học máy (ví dụ như tài liệu tiếp thị phân tích chuyên nghiệp), và nó được sử dụng để bày tỏ ý tưởng rằng các thực hành điện toán hiện đại có nghĩa là mũ có rất nhiều thông tin có sẵn có thể được khai thác. Điều này hầu như luôn luôn trong bối cảnh dữ liệu tiết lộ thông tin về người tiêu dùng, có lẽ nếu không riêng tư, không rõ ràng ngay lập tức.
Vì vậy, ý nghĩa và phân tích xung quanh việc sử dụng phổ biến "dữ liệu lớn" cũng mang theo ý tưởng rằng dữ liệu có thể tiết lộ các chi tiết tối nghĩa, ẩn hoặc thậm chí riêng tư của cuộc sống của một người, cung cấp cho ứng dụng một phương pháp suy luận đầy đủ. Khi báo chí đưa tin về dữ liệu lớn, sự xấu đi của sự ẩn danh này thường là những gì họ đang lái xe - xác định "dữ liệu lớn" có vẻ hơi sai lầm trong ánh sáng này, bởi vì báo chí và những người không chuyên ngành phổ biến không quan tâm đến giá trị ngẫu nhiên rừng và máy vectơ hỗ trợ, v.v., họ cũng không có ý thức về những thách thức của phân tích dữ liệu ở các quy mô khác nhau. Và điều này là tốt.Mối quan tâm từ quan điểm của họ tập trung vào các hậu quả xã hội, chính trị và pháp lý của thời đại thông tin. Một định nghĩa chính xác cho các phương tiện truyền thông hoặc những người không chuyên môn không thực sự hữu ích vì sự hiểu biết của họ cũng không chính xác. (Đừng nghĩ tôi tự mãn - Tôi chỉ đơn giản là quan sát rằng không phải ai cũng có thể là một chuyên gia về mọi thứ.)