Chính xác thì Big Data là gì?


44

Tôi đã được hỏi nhiều lần câu hỏi:

Dữ liệu lớn là gì?

Cả bởi các sinh viên và người thân của tôi đang thu hút sự chú ý xung quanh số liệu thống kê và ML.

Tôi tìm thấy bài CV này . Và tôi cảm thấy rằng tôi đồng ý với câu trả lời duy nhất ở đó.

Các trang Wikipedia cũng có một số ý kiến về nó, nhưng tôi không chắc chắn nếu tôi thực sự đồng ý với tất cả mọi thứ ở đó.

EDIT: (Tôi cảm thấy rằng trang Wikipedia thiếu giải thích các phương pháp để giải quyết vấn đề này và mô hình tôi đề cập dưới đây) .

Gần đây tôi đã tham dự một bài giảng của Emmanuel Candès , nơi ông đã giới thiệu mô hình Big-Data như

Thu thập dữ liệu trước Đặt câu hỏi sau

Đây là sự khác biệt chính từ nghiên cứu dựa trên giả thuyết, nơi đầu tiên bạn hình thành một giả thuyết và sau đó thu thập dữ liệu để nói điều gì đó về nó.

Ông đã đi sâu vào các vấn đề định lượng độ tin cậy của các giả thuyết được tạo ra bởi việc rình mò dữ liệu. Điều quan trọng tôi đã ra khỏi bài giảng của mình là chúng tôi thực sự cần phải bắt đầu để kiểm soát FDR và ông trình bày nhái phương pháp để làm như vậy.

Tôi nghĩ rằng CV nên có một câu hỏi về Big-Data là gì và định nghĩa của bạn về nó là gì. Tôi cảm thấy rằng có rất nhiều "định nghĩa" khác nhau , thật khó để thực sự nắm bắt nó là gì, hoặc giải thích nó cho người khác, nếu không có sự đồng thuận chung về những gì nó bao gồm.

Tôi cảm thấy rằng "định nghĩa / mô hình / mô tả" do Candès cung cấp là điều gần gũi nhất mà tôi đồng ý, suy nghĩ của bạn là gì?

EDIT2: Tôi cảm thấy rằng câu trả lời sẽ cung cấp một cái gì đó nhiều hơn là một lời giải thích về chính dữ liệu. Nó nên là sự kết hợp của dữ liệu / phương pháp / mô hình.

EDIT3: Tôi cảm thấy rằng cuộc phỏng vấn này với Michael Jordan cũng có thể thêm một cái gì đó vào bàn.

EDIT4: Tôi quyết định chọn câu trả lời được bình chọn cao nhất là câu trả lời đúng. Mặc dù tôi nghĩ rằng tất cả các câu trả lời thêm một cái gì đó vào cuộc thảo luận và cá nhân tôi cảm thấy rằng đây là một câu hỏi về một mô hình về cách chúng ta tạo ra các giả thuyết và làm việc với dữ liệu. Tôi hy vọng câu hỏi này sẽ phục vụ như một nhóm tài liệu tham khảo cho những người tìm kiếm Big-Data là gì. Tôi hy vọng rằng trang Wikipedia sẽ được thay đổi để nhấn mạnh hơn nữa vấn đề so sánh và kiểm soát của FDR.


55
"Dữ liệu lớn giống như tình dục tuổi teen: mọi người đều nói về nó, không ai thực sự biết làm thế nào. Mọi người đều nghĩ mọi người khác đang làm điều đó, vì vậy mọi người đều tuyên bố họ đang làm điều đó." Simon Matthews
Alexander Lutsenko

4
trích dẫn này không còn giá trị nữa. Mọi người đang làm nhiều tác phẩm phi thường gần đây. Nếu bạn nhìn vào các cuộc thi trên Kaggle, các công ty đang cải thiện công việc kinh doanh của họ và kiếm được rất nhiều tiền bằng cách chi tiêu không nhiều tiền. Những ví dụ khác cho các ứng dụng của Big Dữ liệu có thể được tìm thấy ở đây: linkedin.com/pulse/...
Metariat

5
@XuanQuangDO, tôi đồng ý. Đừng coi trọng trích dẫn này.
Alexander Lutsenko

6
@XuanQuangDO: tốt, tôi chắc chắn rằng một số thanh thiếu niên đang có quan hệ tình dục bất thường, nhưng nó không làm thay đổi thực tế có rất nhiều không đủ năng lực hoặc nhầm lẫn dò dẫm xung quanh là tốt, mà mọi người sẽ tàn nhẫn giả ;-)
Steve Jessop

Câu trả lời:


54

Tôi rất vinh dự được tham dự một bài giảng được đưa ra bởi Tiến sĩ Hadley Wickham, của RStudio danh tiếng. Ông định nghĩa nó như vậy

  • Dữ liệu lớn: Không thể vừa trong bộ nhớ trên một máy tính:> 1 TB
  • Dữ liệu trung bình: Phù hợp với bộ nhớ trên máy chủ: 10 GB - 1 TB
  • Dữ liệu nhỏ: Phù hợp với bộ nhớ trên máy tính xách tay: <10 GB

Hadley cũng tin rằng hầu hết dữ liệu ít nhất có thể được giảm xuống thành các vấn đề có thể quản lý được và một lượng rất nhỏ thực sự là dữ liệu lớn. Ông biểu thị điều này là "Mirage dữ liệu lớn".

  • 90% có thể được giảm xuống thành một vấn đề dữ liệu nhỏ / vừa với việc đặt lại / lấy mẫu / tóm tắt
  • 9% Có thể giảm xuống rất nhiều vấn đề dữ liệu nhỏ
  • 1% là lớn không thể tin được

Các slide có thể được tìm thấy ở đây .


2
@ GuðmundurEinarsson, tôi vừa chỉnh sửa nó, cảm ơn vì lời đề nghị.
Chris C

5
Trong khi tôi không nghĩ rằng giới hạn cắt rõ ràng tồn tại, tôi nghĩ rằng bài viết này là rất sâu sắc. Khi tôi làm việc trong một công ty SW, tôi đã tương tác với khá nhiều khách hàng đang tìm kiếm " giải pháp dữ liệu lớn "; trong thực tế, họ đã bỏ lỡ một SODIMM 16 GB.
usεr11852 nói Phục hồi Monic

2
Với SSD 1TB hiện nay, việc lưu trữ không biến đổi không quá xa so với lưu trữ không ổn định về tốc độ. Tôi cảm thấy như tôi mong đợi dữ liệu lớn sẽ lớn hơn 1TB, có thể ít nhất là 50 TB hoặc thứ gì đó.
Mehrdad

3
Đối với bạn và Hadley, dữ liệu giá thầu không chỉ là về khối lượng. Thông thường dữ liệu giá thầu được xác định thông qua 3V và gần đây hơn là mô hình 4V (được đề xuất bởi Gartner) - xem câu trả lời của Dawny33 bên dưới. Tuy nhiên, một số chuyên gia (bao gồm từ Gartner) xem xét một vấn đề khác và họ cho rằng chiều V quan trọng nhất, trong đó V là giá trị kinh doanh . Ví dụ, tham khảo bài viết nàybài đăng này .
Alexanderr Blekh

2
@AleksandrBlekh Nhận xét của bạn chứa cả một cuộc thảo luận sắc thái về tranh cãi xung quanh tiêu chí "Dữ liệu lớn" giữa các chuyên gia và một số tài liệu tham khảo để hỗ trợ cho tuyên bố của bạn về nó. Tôi nghĩ rằng bạn nên xem xét chuyển đổi nó thành một câu trả lời.
Cá bạc

19

Tập hợp / luồng dữ liệu được gọi là Dữ liệu lớn, nếu nó thỏa mãn cả bốn chữ V

  • Âm lượng
  • Vận tốc
  • Độ chính xác
  • Đa dạng

Trừ khi và cho đến khi không hài lòng, tập dữ liệu không thể được gọi là Dữ liệu lớn.

Một câu trả lời tương tự của tôi, để tham khảo.


Đã nói rằng, như một nhà khoa học dữ liệu; Tôi thấy khung Map-Giảm thực sự tốt. Chia dữ liệu của bạn, ánh xạ dữ liệu và sau đó kết quả của bước ánh xạ được giảm thành một kết quả duy nhất. Tôi thấy khung này thực sự hấp dẫn và nó đã mang lại lợi ích như thế nào cho thế giới dữ liệu.

Và đây là một số cách tôi xử lý vấn đề dữ liệu trong công việc hàng ngày:

  1. Cơ sở dữ liệu cột: Đây là một lợi ích cho các nhà khoa học dữ liệu. Tôi sử dụng Aws Red Shift làm kho lưu trữ dữ liệu cột của mình. Nó giúp thực hiện các truy vấn SQL phức tạp và tham gia ít đau đớn hơn. Tôi thấy nó thực sự tốt, đặc biệt là khi nhóm phát triển của tôi hỏi một số câu hỏi thực sự phức tạp và tôi không cần phải nói "Vâng, đã chạy một truy vấn; chúng tôi sẽ nhận được nó trong một ngày!"
  2. Spark và khung giảm bản đồ: Lý do đã được giải thích ở trên.

Và đây là cách một thí nghiệm dữ liệu được thực hiện:

  • Vấn đề cần trả lời được xác định
  • Các nguồn dữ liệu có thể được liệt kê ra.
  • Đường ống được thiết kế để nhận dữ liệu vào Redshift từ cơ sở dữ liệu địa phương. Vâng, Spark đến đây. Nó thực sự có ích trong quá trình di chuyển dữ liệu của DB -> S3 -> Redshift.
  • Sau đó, các truy vấn và phân tích SQL được thực hiện trên dữ liệu trong Redshift.

Vâng, có các thuật toán Big Data như siêu loglog, v.v; nhưng tôi không tìm thấy nhu cầu sử dụng chúng.

Vì vậy, vâng. Dữ liệu được thu thập đầu tiên trước khi tạo ra giả thuyết.


5
Tôi đồng ý với những điều này, nhưng tôi nghĩ thuật ngữ Big Data bao gồm một cái gì đó nhiều hơn chính dữ liệu. Nó cũng là phương pháp được áp dụng cho nó và mô hình thu thập dữ liệu đầu tiên trước khi đưa ra các giả thuyết về nó.
Gumeo

1
@ GuðmundurEinarsson Tôi đã vội vàng, vì vậy muốn cho bạn câu trả lời tốt nhất trong một thời gian ngắn. Vì vậy, bây giờ tôi đã chỉnh sửa và mở rộng nó với quy trình làm việc và hiểu từ kinh nghiệm hàng ngày của tôi với dữ liệu lớn trong ngành.
Dawny33

1
Bốn Vs đang được đảo ngược ở đây là xác định dữ liệu lớn thay vì là thuộc tính đáng chú ý của dữ liệu lớn. Rất nhiều ví dụ có thể được tạo từ dữ liệu lớn mà không có một vài trong số 4 và một số thậm chí được liệt kê trong infographic của IBM.
John

@ John Có, V thực sự đang thay đổi rất nhiều. Ngoài ra còn có một đối số cho một V ( Giá trị ) mới
Dawny33

1
Tôi không nói họ đang thay đổi, tôi đang nói bạn đảo ngược mô tả một số thuộc tính thành một định nghĩa không chính xác. Nó giống như ai đó mô tả những điều quan trọng với họ về một con chó như sự trung thành, tiếng cười và liếm và một người khác đi cùng và nói rằng đó là định nghĩa của một con chó. Điều đó nói rằng, tôi nghĩ rằng bạn đã đi đúng hướng hơn khi xem xét đảo ngược hướng phân tích nhưng nó chỉ cần được gắn vào kích thước của dữ liệu theo một cách. Tôi nghĩ rằng có rất nhiều cách tốt để làm điều đó và sẽ thật tuyệt nếu bạn phát triển nó.
Giăng

14

Tôi nghĩ định nghĩa hữu ích duy nhất của dữ liệu lớn là dữ liệu liệt kê tất cả thông tin về một hiện tượng cụ thể. Điều tôi muốn nói là, thay vì lấy mẫu từ một số người quan tâm và thu thập một số phép đo trên các đơn vị đó, dữ liệu lớn thu thập các phép đo trên toàn bộ dân số quan tâm. Giả sử bạn quan tâm đến khách hàng của Amazon.com. Amazon.com hoàn toàn khả thi khi thu thập thông tin về tất cả các giao dịch mua của khách hàng của họ, thay vì chỉ theo dõi một số người dùng hoặc chỉ theo dõi một số giao dịch.

Theo tôi, các định nghĩa xoay quanh kích thước bộ nhớ của chính dữ liệu sẽ có phần hạn chế. Theo số liệu đó, với một máy tính đủ lớn, không có dữ liệu nào thực sự là dữ liệu lớn. Ở cực kỳ của một máy tính lớn vô hạn, lập luận này có thể có vẻ rút gọn, nhưng hãy xem xét trường hợp so sánh máy tính xách tay cấp tiêu dùng của tôi với các máy chủ của Google. Rõ ràng tôi sẽ gặp vấn đề hậu cần to lớn khi cố gắng lọc qua một terabyte dữ liệu, nhưng Google có các nguồn lực để thực hiện nhiệm vụ đó một cách khá thủ công. Quan trọng hơn, kích thước của máy tính của bạn không phải là một thuộc tính nội tại của dữ liệu , do đó, việc xác định dữ liệu hoàn toàn liên quan đến bất kỳ công nghệ nào bạn có trong tay giống như đo khoảng cách theo chiều dài của cánh tay bạn.

Lập luận này không chỉ là một chủ nghĩa hình thức. Nhu cầu về các sơ đồ song song phức tạp và các nền tảng điện toán phân tán sẽ biến mất một khi bạn có đủ sức mạnh tính toán. Vì vậy, nếu chúng tôi chấp nhận định nghĩa rằng Dữ liệu lớn quá lớn để phù hợp với RAM (hoặc gặp sự cố với Excel hoặc bất cứ điều gì), thì sau khi chúng tôi nâng cấp máy, Dữ liệu lớn sẽ không còn tồn tại. Điều này có vẻ ngớ ngẩn.

Nhưng hãy xem một số dữ liệu về dữ liệu lớn và tôi sẽ gọi đây là "Siêu dữ liệu lớn". Bài đăng trên blog này quan sát một xu hướng quan trọng: RAM có sẵn đang tăng nhanh hơn kích thước dữ liệu và tuyên bố một cách khiêu khích rằng "RAM lớn đang ăn dữ liệu lớn" - nghĩa là, với cơ sở hạ tầng đầy đủ, bạn không còn gặp vấn đề về dữ liệu lớn nữa, bạn chỉ cần có dữ liệu và bạn quay trở lại miền của các phương pháp phân tích thông thường.

Hơn nữa, các phương thức biểu diễn khác nhau sẽ có kích thước khác nhau, do đó, không rõ ràng chính xác ý nghĩa của "dữ liệu lớn" được định nghĩa trong tham chiếu đến kích thước trong bộ nhớ của nó. Nếu dữ liệu của bạn được xây dựng theo cách lưu trữ nhiều thông tin dư thừa (nghĩa là bạn chọn mã hóa không hiệu quả), bạn có thể dễ dàng vượt qua ngưỡng của những gì máy tính của bạn có thể dễ dàng xử lý. Nhưng tại sao bạn muốn có một định nghĩa để có tài sản này? Theo suy nghĩ của tôi, liệu tập dữ liệu có phải là "dữ liệu lớn" hay không không nên quyết định xem bạn có lựa chọn hiệu quả trong thiết kế nghiên cứu hay không.

Từ quan điểm của một học viên, dữ liệu lớn như tôi định nghĩa nó cũng mang theo các yêu cầu tính toán, nhưng các yêu cầu này là dành riêng cho ứng dụng. Suy nghĩ thông qua thiết kế cơ sở dữ liệu (phần mềm, phần cứng, tổ chức) cho các quan sát rất khác so với10 7104107quan sát, và điều đó hoàn toàn tốt. Điều này cũng ngụ ý rằng dữ liệu lớn, như tôi xác định, có thể không cần công nghệ chuyên biệt ngoài những gì chúng tôi đã phát triển trong thống kê cổ điển: các mẫu và khoảng tin cậy vẫn hoàn toàn hữu ích và là công cụ suy luận hợp lệ khi bạn cần ngoại suy. Mô hình tuyến tính có thể cung cấp câu trả lời hoàn toàn chấp nhận được cho một số câu hỏi. Nhưng dữ liệu lớn như tôi định nghĩa nó có thể đòi hỏi công nghệ mới. Có lẽ bạn cần phân loại dữ liệu mới trong tình huống bạn có nhiều người dự đoán hơn dữ liệu huấn luyện hoặc nơi dự đoán của bạn phát triển cùng với kích thước dữ liệu của bạn. Những vấn đề này sẽ đòi hỏi công nghệ mới hơn.


Bên cạnh đó, tôi nghĩ rằng câu hỏi này rất quan trọng vì nó hoàn toàn chạm vào lý do tại sao các định nghĩa lại quan trọng - đó là, bạn đang xác định chủ đề cho ai. Một cuộc thảo luận về bổ sung cho học sinh lớp một không bắt đầu với lý thuyết tập hợp, nó bắt đầu bằng việc tham khảo để đếm các đối tượng vật lý. Theo kinh nghiệm của tôi, hầu hết việc sử dụng thuật ngữ "dữ liệu lớn" xảy ra trên báo chí phổ biến hoặc trong giao tiếp giữa những người không phải là chuyên gia về thống kê hoặc học máy (ví dụ như tài liệu tiếp thị phân tích chuyên nghiệp), và nó được sử dụng để bày tỏ ý tưởng rằng các thực hành điện toán hiện đại có nghĩa là mũ có rất nhiều thông tin có sẵn có thể được khai thác. Điều này hầu như luôn luôn trong bối cảnh dữ liệu tiết lộ thông tin về người tiêu dùng, có lẽ nếu không riêng tư, không rõ ràng ngay lập tức.

Vì vậy, ý nghĩa và phân tích xung quanh việc sử dụng phổ biến "dữ liệu lớn" cũng mang theo ý tưởng rằng dữ liệu có thể tiết lộ các chi tiết tối nghĩa, ẩn hoặc thậm chí riêng tư của cuộc sống của một người, cung cấp cho ứng dụng một phương pháp suy luận đầy đủ. Khi báo chí đưa tin về dữ liệu lớn, sự xấu đi của sự ẩn danh này thường là những gì họ đang lái xe - xác định "dữ liệu lớn" có vẻ hơi sai lầm trong ánh sáng này, bởi vì báo chí và những người không chuyên ngành phổ biến không quan tâm đến giá trị ngẫu nhiên rừng và máy vectơ hỗ trợ, v.v., họ cũng không có ý thức về những thách thức của phân tích dữ liệu ở các quy mô khác nhau. Và điều này là tốt.Mối quan tâm từ quan điểm của họ tập trung vào các hậu quả xã hội, chính trị và pháp lý của thời đại thông tin. Một định nghĩa chính xác cho các phương tiện truyền thông hoặc những người không chuyên môn không thực sự hữu ích vì sự hiểu biết của họ cũng không chính xác. (Đừng nghĩ tôi tự mãn - Tôi chỉ đơn giản là quan sát rằng không phải ai cũng có thể là một chuyên gia về mọi thứ.)


7
Điều này. "Đó là kinh nghiệm của tôi khi hầu hết việc sử dụng thuật ngữ 'dữ liệu lớn' xảy ra trên báo chí phổ biến hoặc trong giao tiếp giữa những người không phải là chuyên gia về thống kê hoặc học máy (ví dụ như tài liệu tiếp thị phân tích chuyên nghiệp)"
Momo

2
Tôi nghĩ rằng bạn nhấn móng tay vào đầu với đoạn cuối cùng của bạn. Tôi nghĩ rằng có một khoảng cách rất rõ ràng giữa sự hiểu biết báo chí phổ biến và những gì mọi người trong ngành thống kê / ML / Dữ liệu khoa học nghĩ về thuật ngữ dữ liệu lớn. Tôi chỉ cảm thấy rằng cần phải có sự đồng thuận rõ ràng hơn về những gì nó thực sự là. Một lý do cho điều đó là để có một tài liệu tham khảo sao cho mọi người không thể thao túng thuật ngữ hoặc sử dụng sai khi nó rõ ràng không được áp dụng.
Gumeo

1
Tôi nghĩ rằng tôi đang bắt đầu đồng ý với bạn ngày càng nhiều. Tôi vẫn cảm thấy rằng CV cần một câu hỏi tham khảo, nơi những người quan tâm và vào chủ đề đưa vào hai xu của họ về vấn đề này. Tôi đã tìm kiếm câu hỏi ở đây và tôi cảm thấy rằng cuộc thảo luận này còn thiếu.
Gumeo

1
Tôi nghĩ rằng đây là một cuộc trò chuyện có giá trị và tôi rất vui vì bạn đã đặt câu hỏi! Và tôi rất vui vì bạn đã tìm thấy ý kiến ​​của tôi hữu ích.
Phục hồi Monica

1
Tôi thích câu trả lời này vì nhiều lý do. Đầu tiên, tôi nghĩ điều thực sự quan trọng là phải nhấn mạnh rằng "dữ liệu lớn" ít liên quan đến các thuật toán được sử dụng để phân tích nó. Hầu hết trong số họ là 20-30 tuổi (rừng ngẫu nhiên, hồi quy tuyến tính, vv) và họ làm việc tốt. Một số người trong ngành tin rằng "dữ liệu lớn" đi kèm với các thuật toán mới lạ mắt, bởi vì họ có thể thậm chí không biết rằng học máy đã tồn tại trong nhiều năm. Thứ hai, "dữ liệu lớn" không phải là về kích thước. Nếu bạn có sẵn một máy chủ với RAM 128 Gb và có thể phù hợp với mọi thứ vào bộ nhớ thì thật tuyệt vời. (tt)
skd

7

nhập mô tả hình ảnh ở đây

Kiểm tra chéo các tài liệu khổng lồ về Dữ liệu lớn, tôi đã thu thập tới 14 thuật ngữ "V", 13 trong số đó cùng với khoảng 11 chiều:

  • Hiệu lực,
  • Giá trị,
  • Biến đổi / Phương sai,
  • Đa dạng,
  • Vận tốc,
  • Độ bền / Độ bền,
  • Khả thi,
  • Ảo
  • Hình dung,
  • Biến động,
  • Âm lượng.

Nhiệm kỳ thứ 14 là Sự trống rỗng. Theo một bài viết khiêu khích gần đây, Dữ liệu lớn không tồn tại . Điểm chính của nó là:

  • Dữ liệu lớn của Việt Nam không phải là lớn
  • Hầu hết các dữ liệu lớn của Viking không thực sự hữu ích
  • [Chúng ta nên] Tận dụng tối đa dữ liệu nhỏ

Một định nghĩa đúng về Dữ liệu lớn sẽ phát triển với phần cứng, phần mềm, nhu cầu và kiến ​​thức và có lẽ không nên phụ thuộc vào kích thước cố định. Do đó, định nghĩa có thể thu được trong Dữ liệu lớn: Biên giới tiếp theo cho đổi mới, cạnh tranh và năng suất , tháng 6 năm 2011:

"Dữ liệu lớn" dùng để chỉ các bộ dữ liệu có kích thước vượt quá khả năng của các công cụ phần mềm cơ sở dữ liệu thông thường để nắm bắt, lưu trữ, quản lý và phân tích.


1
Bài viết tham khảo "không gian" có vẻ rất yếu. Có một hàm ý rằng 30 GB dữ liệu / ngày không lớn (và kích thước đó là thành phần duy nhất của định nghĩa). Hơn nữa, nó lập luận rằng bởi vì các công ty nói rằng dữ liệu của họ lớn hơn nhiều so với thực tế có nghĩa là nó không lớn. Không có định nghĩa về lớn được đưa ra bất cứ nơi nào. Và tất cả các ví dụ được sử dụng để đề xuất "không lớn" có nhiều chữ V được liệt kê ở đây.
Giăng

"Không gian" không chỉ áp dụng cho kích thước. Thật vậy, trong phần cuối cùng, định nghĩa lớn có nghĩa là phát triển với tình trạng thực hành hiện nay. Những gì đã lớn trong quá khứ có thể được coi là nhỏ một vài năm sau đó. Ở đây, tôi đã sử dụng thuật ngữ cho trường hợp "dữ liệu lớn" được sử dụng như một câu thần chú ma thuật với rất ít chất, như được minh họa trong phim hoạt hình trên.
Laurent Duval

1
Làm thế nào có khả năng 14 tiêu chí sẽ bắt đầu bằng một chữ V? Chúng tôi là tất cả những người có đầu óc thống kê ở đây, xin chào!
Aksakal

Về cơ bản, tôi đồng ý, điều này chỉ để chỉ ra rằng một thuật ngữ như Dữ liệu lớn có nhiều khả năng thuộc về lĩnh vực tiếp thị hơn là thống kê. Tuy nhiên, tôi muốn chia sẻ "bộ sưu tập" của mình về các điều khoản tôi đã đọc. Nó đã bắt đầu với 3V, sau đó là 5V và đôi khi là 7, v.v ... Những thuật ngữ đó có thể giúp mơ hồ phát hiện ra những đặc điểm trên dữ liệu mà người ta có
Laurent Duval

4

Mọi người dường như cố định vào một vòng loại lớn trong Dữ liệu lớn. Tuy nhiên, kích thước chỉ là một trong những thành phần của thuật ngữ này (tên miền). Không đủ để tập dữ liệu của bạn lớn để gọi vấn đề của bạn (miền) là dữ liệu lớn, bạn cũng cần phải hiểu và phân tích và thậm chí xử lý. Một số người gọi tính năng này không có cấu trúc , nhưng nó không chỉ là cấu trúc mà nó còn không rõ ràng về mối quan hệ giữa các phần và yếu tố dữ liệu khác nhau.

Hãy xem xét các bộ dữ liệu mà các nhà vật lý năng lượng cao đang làm việc ở những nơi như CERN . Họ đã làm việc với dữ liệu kích thước petabyte trong nhiều năm trước khi thuật ngữ Dữ liệu lớn được đặt ra. Tuy nhiên, ngay cả bây giờ họ không gọi dữ liệu lớn này theo như tôi biết. Tại sao? Bởi vì dữ liệu khá thường xuyên, họ biết phải làm gì với nó. Họ có thể chưa thể giải thích mọi quan sát, vì vậy họ làm việc trên các mô hình mới, v.v.

Bây giờ chúng tôi gọi Big Data là các vấn đề liên quan đến các tập dữ liệu có kích thước có thể được tạo trong vài giây từ LHC trong CERN. Lý do là các bộ dữ liệu này thường là các yếu tố dữ liệu đến từ vô số nguồn với các định dạng khác nhau, mối quan hệ không rõ ràng giữa dữ liệu và giá trị không chắc chắn cho doanh nghiệp. Nó có thể chỉ là 1TB nhưng rất khó để xử lý tất cả âm thanh, vidio, văn bản, lời nói, v.v. Vì vậy, về độ phức tạp và tài nguyên cần có, điều này làm mất đi hàng petabyte dữ liệu của CERN. Chúng tôi thậm chí không biết nếu có thông tin hữu ích rõ ràng trong bộ dữ liệu của chúng tôi.

Do đó, giải quyết vấn đề Dữ liệu lớn bao gồm phân tích cú pháp, trích xuất các yếu tố dữ liệu có giá trị không xác định, sau đó liên kết chúng với nhau. "Phân tích cú pháp" một hình ảnh có thể là một vấn đề lớn của chính nó. Giả sử, bạn đang tìm kiếm cảnh quay camera quan sát từ các đường phố trong thành phố đang cố gắng xem liệu mọi người có đang tức giận hay không và liệu nó có ảnh hưởng đến các vụ tai nạn đường bộ liên quan đến người đi bộ hay không. Có rất nhiều video, bạn tìm thấy khuôn mặt, cố gắng đánh giá tâm trạng của họ bằng biểu cảm, sau đó liên kết nó với số lượng tập hợp dữ liệu tai nạn, báo cáo của cảnh sát, v.v., tất cả trong khi kiểm soát thời tiết (dự phòng, nhiệt độ) và tắc nghẽn giao thông .. . Bạn cần các công cụ lưu trữ và phân tích hỗ trợ các bộ dữ liệu lớn này thuộc các loại khác nhau và có thể liên kết dữ liệu với nhau một cách hiệu quả.

Dữ liệu lớn là một vấn đề phân tích phức tạp trong đó độ phức tạp bắt nguồn từ cả kích thước tuyệt đối và độ phức tạp của cấu trúc và mã hóa thông tin trong đó.


Đầu vào tốt. Sự tương phản mà bạn đưa ra giữa LHC và vấn đề dữ liệu camera quan sát là điều mà mọi người thường bỏ lỡ.
Gumeo

3

Tôi nghĩ lý do tại sao mọi người nhầm lẫn về Big Data là gì vì họ không thấy lợi ích của nó. Giá trị của Dữ liệu lớn (kỹ thuật) không chỉ dựa trên lượng dữ liệu mà bạn có thể thu thập, mà còn trên Mô hình dự đoán, điều cuối cùng quan trọng hơn:

  1. Mô hình dự đoán đã thay đổi hoàn toàn cách chúng ta thống kê và dự đoán, nó giúp chúng ta hiểu rõ hơn về dữ liệu của mình, bởi vì các mô hình mới, kỹ thuật mới có thể phát hiện tốt hơn các xu hướng, tiếng ồn của dữ liệu, có thể thu thập cơ sở dữ liệu đa chiều. Chúng ta càng có nhiều dimentions trong cơ sở dữ liệu của mình, chúng ta càng có nhiều cơ hội để tạo ra mô hình tốt. Mô hình dự đoán là trái tim của giá trị của Big Data.
  2. Dữ liệu lớn (về mặt kích thước dữ liệu) là bước sơ bộ và có để phục vụ Mô hình dự đoán bằng cách: làm phong phú cơ sở dữ liệu liên quan đến: 1. số lượng người dự đoán (nhiều biến số hơn), 2. số lượng quan sát.

Nhiều dự đoán hơn bởi vì hiện tại chúng tôi có thể thu thập dữ liệu không thể thu thập được trước đây (vì sức mạnh phần cứng hạn chế, khả năng hạn chế để làm việc trên dữ liệu phi cấu trúc). Nhiều dự đoán hơn có nghĩa là nhiều cơ hội hơn để có các dự đoán quan trọng, nghĩa là mô hình tốt hơn, dự đoán tốt hơn, quyết định tốt hơn có thể được đưa ra cho doanh nghiệp.

Nhiều quan sát hơn không chỉ làm cho mô hình mạnh mẽ hơn theo thời gian, mà còn giúp mô hình học / phát hiện mọi mô hình có thể có thể được trình bày / tạo ra trong thực tế.


3

Điều khó khăn về Dữ liệu lớn so với từ trái nghĩa của nó (có lẽ là Dữ liệu nhỏ?) Là nó là một sự liên tục. Những người dữ liệu lớn đã đi đến một phía của quang phổ, những người dữ liệu nhỏ đã đi sang phía khác, nhưng không có dòng nào rõ ràng trên cát mà mọi người có thể đồng ý.

Tôi sẽ xem xét sự khác biệt về hành vi giữa hai người. Trong các tình huống dữ liệu nhỏ, bạn có một bộ dữ liệu "nhỏ" và bạn tìm kiếm cho mình nhiều thông tin nhất có thể trong mọi điểm dữ liệu bạn có thể. Nhận được nhiều dữ liệu hơn, bạn có thể nhận được nhiều kết quả hơn. Tuy nhiên, nhận được nhiều dữ liệu hơn có thể tốn kém. Dữ liệu mà người ta thu thập thường bị hạn chế để phù hợp với các mô hình toán học, chẳng hạn như thực hiện một phần của các bài kiểm tra để sàng lọc các hành vi thú vị.

Trong các tình huống dữ liệu lớn, bạn có bộ dữ liệu "lớn", nhưng bộ dữ liệu của bạn có xu hướng không bị hạn chế. Bạn thường không thuyết phục được khách hàng của mình mua một đồ nội thất vuông Latin, chỉ để làm cho việc phân tích dễ dàng hơn. Thay vào đó, bạn có xu hướng có những con cá bống và cá bống dữ liệu có cấu trúc kém. Để giải quyết những vấn đề này, mục tiêu có xu hướng không phải là "chọn dữ liệu tốt nhất và vắt kiệt mọi thứ bạn có thể ra khỏi nó", giống như người ta có thể cố gắng ngây thơ nếu sử dụng dữ liệu nhỏ. Mục tiêu có xu hướng nhiều hơn theo dòng "nếu bạn có thể lấy một smidgen nhỏ bé ra khỏi mỗi datapoint, thì tổng sẽ rất lớn và sâu sắc."

Giữa chúng là các tập dữ liệu cỡ trung bình, với cấu trúc ổn. Đây là những "vấn đề thực sự khó khăn", vì vậy hiện tại chúng tôi có xu hướng tổ chức thành hai phe: một trại có dữ liệu nhỏ vắt từng bit cuối cùng và bên kia có dữ liệu lớn cố gắng để mỗi điểm dữ liệu tỏa sáng đúng. Khi chúng ta tiến lên phía trước, tôi hy vọng sẽ thấy nhiều quy trình dữ liệu nhỏ hơn cố gắng thích ứng với các tập dữ liệu lớn hơn và các quy trình dữ liệu lớn hơn đang cố gắng thích ứng để tận dụng dữ liệu có cấu trúc nhiều hơn.


Việc mô tả dữ liệu nhỏ của bạn nghe có vẻ giống như cuốn sách về phân tích của Bem. Vui lòng tìm kiếm các phê bình về điều đó bởi vì đó là một cách không phù hợp để xử lý các bộ dữ liệu nhỏ ngoài việc thăm dò riêng tư để dựa trên cơ sở thu thập dữ liệu trong tương lai.
Giăng

@ John Tôi có thể phải xem xét những người. Các phê bình có đủ để tôi thậm chí không thể sử dụng đặc tính như một điểm để mô tả tính liên tục không?
Cort Ammon

Sẽ rất lâu để đi vào đây nhưng thông điệp quan trọng là bạn không vắt kiệt mọi thứ bạn có thể ra khỏi mỗi bảng dữ liệu với dữ liệu nhỏ. Có lẽ google Gelman và Forking Paths; hoặc, mức độ tự do thí nghiệm. Bạn phải suy nghĩ về phân tích dữ liệu nhỏ và lớn khác nhau, không chỉ là các điểm trên tính liên tục.
John

3

Tôi muốn nói có ba thành phần rất cần thiết trong việc xác định dữ liệu lớn: hướng phân tích, kích thước của dữ liệu liên quan đến dân số và kích thước của dữ liệu liên quan đến các vấn đề tính toán.

Câu hỏi đặt ra rằng các giả thuyết được phát triển sau khi dữ liệu tồn tại. Tôi không sử dụng "thu thập" vì nghĩ rằng từ "được thu thập" ngụ ý cho một mục đích và dữ liệu thường tồn tại không có mục đích được biết đến vào thời điểm đó. Việc thu thập thường xảy ra trong dữ liệu lớn bằng cách mang dữ liệu hiện có lại với nhau để phục vụ câu hỏi.

Phần quan trọng thứ hai là nó không chỉ là bất kỳ dữ liệu nào phân tích bài hoc, cái mà người ta gọi là phân tích khám phá với các bộ dữ liệu nhỏ hơn, là phù hợp. Nó cần phải có kích thước đủ để người ta tin rằng các ước tính được thu thập từ nó đủ gần với ước tính dân số rằng nhiều vấn đề mẫu nhỏ hơn có thể bị bỏ qua. Bởi vì điều này tôi hơi lo ngại rằng có một sự thúc đẩy ngay bây giờ trong lĩnh vực hướng tới nhiều sửa chữa so sánh. Nếu bạn có toàn bộ dân số, hoặc một xấp xỉ mà bạn có lý do chính đáng để tin là hợp lệ, thì những sửa đổi đó sẽ được đưa ra. Mặc dù tôi nhận ra rằng đôi khi có vấn đề được đặt ra thực sự biến "dữ liệu lớn" thành một mẫu nhỏ (ví dụ như hồi quy logistic lớn), điều đó dẫn đến việc hiểu một mẫu lớn là gì cho một câu hỏi cụ thể. Thay vào đó, nhiều câu hỏi so sánh nên được chuyển thành câu hỏi kích thước hiệu ứng. Và, tất nhiên, toàn bộ ý tưởng bạn sử dụng các thử nghiệm với alpha = 0,05, như nhiều người vẫn làm với dữ liệu lớn, là vô lý.

Và cuối cùng, dân số nhỏ không đủ điều kiện. Trong một số trường hợp có một dân số nhỏ và người ta có thể thu thập tất cả các dữ liệu cần thiết để kiểm tra nó rất dễ dàng và cho phép hai tiêu chí đầu tiên được đáp ứng. Dữ liệu cần phải đủ lớn để nó trở thành một vấn đề tính toán. Như vậy, trong một số cách, chúng ta phải thừa nhận rằng "dữ liệu lớn" có thể là một từ buzz thoáng qua và có lẽ là một hiện tượng vĩnh viễn trong việc tìm kiếm định nghĩa nghiêm ngặt. Một số điều làm cho "dữ liệu lớn" trở nên lớn sẽ biến mất trong một vài năm ngắn ngủi và các định nghĩa như Hadley, dựa trên năng lực máy tính, sẽ có vẻ mờ nhạt. Nhưng ở một cấp độ khác, các vấn đề tính toán là những câu hỏi không liên quan đến năng lực máy tính hoặc có lẽ về năng lực máy tính không bao giờ có thể giải quyết được. Tôi nghĩ rằng theo nghĩa đó, các vấn đề của việc xác định "

Mọi người có thể lưu ý rằng tôi chưa cung cấp các ví dụ hoặc định nghĩa chắc chắn về vấn đề tính toán cứng đối với miền này (có rất nhiều ví dụ nói chung trong comp sci và một số áp dụng mà tôi sẽ không giải quyết). Tôi không muốn thực hiện bất kỳ điều gì vì tôi nghĩ rằng điều đó sẽ phải vẫn còn mở. Theo thời gian, các tác phẩm được thu thập của nhiều người kết hợp lại để làm cho những việc đó trở nên dễ dàng, thường xuyên hơn thông qua phát triển phần mềm hơn là phần cứng vào thời điểm này. Có lẽ lĩnh vực này sẽ phải trưởng thành đầy đủ hơn để làm cho yêu cầu cuối cùng này bị ràng buộc chặt chẽ hơn nhưng các cạnh sẽ luôn mờ.


Cảm ơn vì đầu vào của bạn! Tôi nghĩ rằng bạn cung cấp những hiểu biết có giá trị cho chủ đề này. Tôi nghĩ rằng kích thước của dữ liệu mà dân số đã bị bỏ qua ở đây.
Gumeo

1

Wikipedia cung cấp định nghĩa khá rõ ràng

Dữ liệu lớn là một thuật ngữ rộng cho các tập dữ liệu lớn hoặc phức tạp đến mức các ứng dụng xử lý dữ liệu truyền thống không đầy đủ. (nguồn https://en.wikipedia.org/wiki/Big_data )

định nghĩa đơn giản khác tôi biết là

Dữ liệu không phù hợp với bộ nhớ máy tính.

Thật không may, tôi không nhớ tài liệu tham khảo cho nó. Mọi thứ khác xuất hiện từ định nghĩa này - bạn phải xử lý bằng cách nào đó với lượng lớn dữ liệu.


0

Tôi sẽ thêm rằng Dữ liệu lớn là một tham chiếu để làm việc trên tập dữ liệu lớn (hàng triệu và / hoặc hàng tỷ hàng) hoặc cố gắng tìm thông tin / mẫu trên các tài nguyên dữ liệu rộng lớn mà bạn có thể thu thập ở mọi nơi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.