Định nghĩa của dữ liệu lớn Big ăn gì?


23

Có một cái không?

Tất cả các định nghĩa tôi có thể tìm thấy mô tả kích thước, độ phức tạp / sự đa dạng hoặc vận tốc của dữ liệu.

Định nghĩa của Wikipedia là người duy nhất tôi tìm thấy với một con số thực tế

Kích thước dữ liệu lớn là mục tiêu di chuyển liên tục, tính đến năm 2012, từ vài chục terabyte đến nhiều petabyte dữ liệu trong một tập dữ liệu.

Tuy nhiên, điều này dường như mâu thuẫn với định nghĩa MIKE2.0 , được tham chiếu trong đoạn tiếp theo, chỉ ra rằng dữ liệu "lớn" có thể nhỏ và 100.000 cảm biến trên máy bay chỉ tạo ra 3 GB dữ liệu có thể được coi là lớn.

IBM mặc dù nói rằng:

Dữ liệu lớn đơn giản hơn là vấn đề kích thước.

đã nhấn mạnh kích thước trong định nghĩa của họ .

O'Reilly cũng đã nhấn mạnh "volume, velocity and variety" . Mặc dù được giải thích tốt và sâu hơn, định nghĩa dường như là một sự băm lại của những người khác - hoặc ngược lại tất nhiên.

Tôi nghĩ rằng một tiêu đề bài viết trên Tuần báo Máy tính tổng hợp một số bài viết khá tốt "Dữ liệu lớn là gì và làm thế nào để sử dụng nó để đạt được lợi thế cạnh tranh" .

Nhưng ZDNet chiến thắng với những điều sau từ năm 2012 :

Dữ liệu lớn Dữ liệu là một cụm từ dễ hiểu đang nổi lên từ thị trường điện toán hiệu năng cao của thị trường CNTT ... Nếu một người đọc qua các bài thuyết trình từ mười nhà cung cấp công nghệ, mười lăm định nghĩa khác nhau có thể sẽ được đưa ra. Mỗi định nghĩa, tất nhiên, có xu hướng hỗ trợ nhu cầu về các sản phẩm và dịch vụ của nhà cung cấp đó. Tưởng tượng rằng.

Về cơ bản "dữ liệu lớn" là "lớn" theo một cách nào đó hình dạng hoặc hình thức.

"Lớn" là gì? Có thể định lượng tại thời điểm hiện tại?

Nếu "lớn" là không thể chấp nhận được thì có một định nghĩa không chỉ dựa vào tính tổng quát?


7
"" Lớn "là gì? Nó có thể định lượng được tại thời điểm hiện tại không?". Chắc chắn rồi. Lớn là nhiều hơn bạn có thể xử lý tại thời điểm hiện tại;)
Oded

1
@Oded, bạn cần xác định "xử lý" sau đó :-).
Ben

14
Nếu bạn phải hỏi, bạn không đủ lớn để đếm. ;)
Thất vọngWithFormsDesigner

@Ben - Điều đó được định nghĩa khác nhau cho từng cá nhân và hệ thống ...
Oded

4
"Lớn" rất có thể là "khó xử lý". Đủ để không vừa trong bộ nhớ, lấp đầy đĩa, dành thời gian để chuyển qua mạng, v.v.

Câu trả lời:


42

Không có ai cả; đó là một từ thông dụng.

Tuy nhiên, phân định là dữ liệu của bạn vượt quá khả năng của các hệ thống truyền thống. Dữ liệu quá lớn để lưu trữ trên đĩa lớn nhất, các truy vấn mất quá nhiều thời gian mà không được tối ưu hóa đặc biệt, mạng hoặc đĩa không thể hỗ trợ luồng lưu lượng đến, một cơ sở dữ liệu cũ đơn giản sẽ không xử lý trực quan hóa hình dạng / kích thước / chiều rộng của dữ liệu ...

Về cơ bản, dữ liệu của bạn nằm ngoài một số điểm bùng phát không xác định trong đó "chỉ cần thêm phần cứng" sẽ không cắt giảm.


+1 và hơn nữa, những gì được coi là "lớn" luôn thay đổi khi phần cứng tốt hơn bắt kịp và các công cụ tùy chỉnh trước đây trở nên hoàn thiện, được tiêu chuẩn hóa và được bán thương mại để giải quyết các vấn đề như vậy.
Thất vọngWithFormsDesigner

Nói cách khác: không, không có ý tưởng, không, không :-).
Ben

Ngoài ra, trước khi dữ liệu lớn trở thành một điều lớn, nhiều công ty và viện nghiên cứu đã làm những việc dữ liệu lớn. Chỉ bây giờ với tất cả các thách thức dữ liệu lớn trên mạng xã hội / trực tuyến, nó đã trở thành luồng chính.
Paul Hiemstra

2

Vì nó được chỉ ra trong liên kết của Oracle (bình luận của Immad Careem) oracle.com/us/technology/big-data/index.html. Dữ liệu lớn là mọi thứ không phải là dữ liệu quan hệ được lưu trữ trong RDBMS. Vài năm trước khi cường điệu nó chỉ là "rất nhiều dữ liệu". Bây giờ nó đã phát triển và được các nhà tiếp thị quảng bá là một loại dữ liệu đặc biệt.

Có một số lý do thứ yếu (ngoài tiếp thị) để coi Dữ liệu lớn là một điều có thật.

  1. Phát minh ra bản đồ
  2. Các công nghệ NOSQL như Hadoop
  3. Một số tiến hóa trong RDBMS truyền thống bị ảnh hưởng bởi nhu cầu của các loại dữ liệu phi cấu trúc
  4. Có thể một số công nghệ phần cứng được cung cấp bởi tập đoàn EMC2

2
"Phát minh ra bản đồ"? Bạn phải đùa.
Telastyn

1
"Mọi thứ không phải là dữ liệu quan hệ" là một định nghĩa chỉ có thể đến từ một người tập trung vào RDB như Oracle (và nó sai). Theo định nghĩa đó, mọi chỉ số SolR, mọi cơ sở dữ liệu MongoDB và mọi Berkley DB đều là "dữ liệu lớn". Và đó chỉ là ngu ngốc.
Joachim Sauer

0

Sử dụng câu trả lời của Doug Laney làm điểm khởi đầu, chúng tôi đã thiết kế ngược một danh sách các định nghĩa Dữ liệu lớn, hiện đã hơn 30 và đang phát triển mạnh mẽ. Danh sách các định nghĩa của chúng tôi cho "Dữ liệu lớn" được đặt ở đây .

Chúng tôi hoan nghênh chỉnh sửa, mục, đồ họa, vv


-1

Thật tuyệt khi thấy O'Reilly và những người khác cuối cùng đã nắm được 3V dữ liệu lớn của Gartner mà chúng tôi giới thiệu lần đầu tiên cách đây hơn 11 năm. Để tham khảo, đây là tác phẩm gốc tôi đã viết vào năm 2001: http://bloss.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

Định nghĩa được cập nhật gần đây của Gartner cũng nhận ra khía cạnh giá trị: "Dữ liệu lớn là tài sản thông tin với khối lượng, vận tốc và / hoặc sự đa dạng đòi hỏi các hình thức xử lý thông tin sáng tạo để phát hiện cái nhìn sâu sắc, ra quyết định và tự động hóa quá trình."

Chúng tôi cũng đã phát triển một phương pháp để định lượng cường độ dữ liệu dọc theo ba vectơ được quy định về mặt áp dụng công nghệ. Tuy nhiên tôi không thể chia sẻ công khai.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.