Chính xác thì một bộ dữ liệu có nghĩa là gì?


10

Có phải nó chỉ là sự tổng hợp của các điểm dữ liệu? Hay đó là sự thể hiện các điểm dữ liệu cho các yếu tố khác nhau trong một định dạng bảng được sắp xếp với các giá trị của các biến khác nhau? Nó khác với dữ liệu thô như thế nào?


Bạn có ý nghĩa gì bởi "điểm dữ liệu", bạn có mong đợi nó ít nhất là 2D không? Chuỗi thời gian hoặc tập hợp điểm thi có thể là tập dữ liệu; tối thiểu chúng chỉ có thể là chuỗi trong một biến, có thể không có nhãn hàng. Theo câu trả lời của @FranckDernoncourt
smci 6/11/2016

1
Tôi thực sự chỉ nghĩ rằng đó là một bộ sưu tập dữ liệu. Đó chắc chắn là cách tôi sử dụng thuật ngữ này. Tôi không nghĩ có quá nhiều thứ này. Cho dù dữ liệu là "thô" hoặc được xử lý trước hoặc được làm sạch, v.v., là trực giao.
gung - Phục hồi Monica

Câu trả lời:


9

Theo kinh nghiệm của tôi, "tập dữ liệu" (hoặc "tập dữ liệu") là một thuật ngữ không chính thức đề cập đến một bộ sưu tập dữ liệu. Nói chung, một tập dữ liệu chứa nhiều hơn một biến và liên quan đến một chủ đề; nó có thể liên quan đến một mẫu duy nhất.

Một lỗi tôi thường thấy người viết các câu hỏi Xác thực chéo là sử dụng "tập dữ liệu" làm từ đồng nghĩa với "biến" hoặc "vectơ".


3
Đồng ý về dữ liệu so với biến hoặc vector. Đừng để tôi bắt đầu với "dữ liệu", như trong "Tôi có dữ liệu". Ngược lại, "Tôi có một tập dữ liệu" là một cách tuyệt vời để không gây khó chịu, hoặc gây khó chịu cho những người khăng khăng rằng dữ liệu là số nhiều hoặc gây khó chịu cho những người coi sự khăng khăng đó là tầm thường, nếu họ nghĩ về nó.
Nick Cox

3
@NickCox Trong các cuộc chiến ngữ pháp về "dữ liệu", tôi thuộc phe ít phổ biến nhất, tuyên bố rằng "dữ liệu" là một danh từ chung.
Kodiologist

3
Tôi nghi ngờ đó là đa số bây giờ và mạnh mẽ hơn nghĩ rằng nó đang trở nên phổ biến.
Nick Cox

8

Tôi nghĩ rằng Wikipedia thực hiện công việc tốt khi xác định nó:

Thông thường nhất là một tập dữ liệu tương ứng với nội dung của một bảng cơ sở dữ liệu hoặc một ma trận dữ liệu thống kê duy nhất, trong đó mỗi cột của bảng biểu thị một biến cụ thể và mỗi hàng tương ứng với một thành viên nhất định của tập dữ liệu được đề cập. Tập dữ liệu liệt kê các giá trị cho từng biến, chẳng hạn như chiều cao và trọng lượng của một đối tượng, cho từng thành viên của tập dữ liệu. Mỗi giá trị được gọi là mốc. Tập dữ liệu có thể chứa dữ liệu cho một hoặc nhiều thành viên, tương ứng với số lượng hàng.

Tập dữ liệu thuật ngữ cũng có thể được sử dụng một cách lỏng lẻo hơn, để chỉ dữ liệu trong một tập hợp các bảng có liên quan chặt chẽ, tương ứng với một thử nghiệm hoặc sự kiện cụ thể. Một ví dụ về loại này là các bộ dữ liệu được thu thập bởi các cơ quan không gian thực hiện các thí nghiệm với các thiết bị thăm dò không gian trên tàu.

Trong kỷ luật dữ liệu mở, bộ dữ liệu là đơn vị đo lường thông tin được phát hành trong kho lưu trữ dữ liệu mở công khai. Cổng thông tin dữ liệu mở châu Âu tổng hợp hơn nửa triệu bộ dữ liệu. Trong lĩnh vực này, các định nghĩa khác đã được đề xuất nhưng hiện tại vẫn chưa có định nghĩa chính thức. Một số vấn đề khác (nguồn dữ liệu thời gian thực, bộ dữ liệu không liên quan, v.v.) làm tăng khó khăn để đạt được sự đồng thuận về nó.

Như bạn có thể thấy, thuật ngữ này có phần mơ hồ.


Và trong cài đặt thị giác máy tính, một bộ dữ liệu có thể chỉ là một tập hợp các hình ảnh tự nhiên và nhãn hoặc chú thích của chúng.
Sycorax nói Phục hồi lại

"Cơ sở dữ liệu * có nghĩa là gì?
ankit

@ankit CS truyền thống có nghĩa là en.wikipedia.org/wiki/Database
Franck Dernoncourt 6/11/2016

@Sycorax Vâng, tôi đoán chúng ta có thể coi một hình ảnh (hoặc một số tín hiệu khác) là một mốc dữ liệu blob trong cơ sở dữ liệu.
Franck Dernoncourt

7

Tôi nghĩ rằng bạn có thể cần xác định điểm dữ liệu trước khi bạn có thể xác định tập dữ liệu : tại sao một định nghĩa nguyên thủy và không cần định nghĩa, nhưng không phải ngược lại?

Ít nhất hai định nghĩa có ý nghĩa với tôi:

  1. Một hoặc nhiều quan sát (trường hợp, bản ghi, hàng) cho một hoặc nhiều biến (trường. Cột).

  2. Bất cứ điều gì được lưu trữ dưới dạng dữ liệu trong một tệp có thể đọc được bởi một chương trình lựa chọn.

Bố cục dạng bảng là phổ biến nhưng tôi không nghĩ đó là một phần của bất kỳ định nghĩa nào; Làm thế nào dữ liệu được lưu trữ có thể thực tế quan trọng, tự nhiên.

PS Từ "định dạng" quá tải đến nỗi với tôi, tốt nhất nên tránh trừ khi được chỉ định rõ ràng. Tôi đã thấy nó được sử dụng cho

  1. Định dạng tệp văn bản chung hoặc cụ thể hoặc tệp nhị phân

  2. Cấu trúc dữ liệu, ví dụ như bảng hoặc khác

  3. Lưu trữ dữ liệu hoặc các loại biến, ví dụ bit, số nguyên, thực, ký tự

  4. Hiển thị định dạng kiểm soát trình bày, ví dụ chi tiết về số vị trí thập phân; hiển thị thập phân, thập lục phân hoặc nhị phân.


6

Đã có một số câu trả lời hay ở đây và tôi không nghĩ rằng tôi có thể thâm nhập sâu hơn Nick Cox hay Franck Dernoncourt về vấn đề liệu "tập dữ liệu" có liên quan đến việc thu thập khái niệm dữ liệu liên quan hay sắp xếp cụ thể các dữ liệu đó hay không một bảng / ma trận hoặc một tệp có thể đọc được trên máy tính. Trích xuất của Franck đề cập đến các trường hợp cạnh như dữ liệu được thu thập liên tục hoặc dữ liệu trải rộng trên một số bảng, đáng để lưu ý nếu bạn cho rằng sẽ có một định nghĩa đơn giản. (Không phải tất cả các phần mềm thống kê đều có thể xử lý nó, nhưng rất dễ hình dung trường hợp dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ với nhiều bảng. Toàn bộ cơ sở dữ liệu có phải là một "tập dữ liệu" không?)

Một điều tôi sẽ thêm vào là các bộ dữ liệu thường không được thiết lập, theo nghĩa toán học! Sensuricto một tập hợp có chứa một đối tượng hoặc không, nhưng không thể chứa nhiều hơn một bản sao của đối tượng đó. Nếu tôi lăn một cái chết tám lần và điểm 1, 4, 3, 5, 5, 4, 6, 4 thì tập hợp điểm số chỉ là {1, 3, 4, 5, 6}. Lưu ý rằng các phần tử có thể theo bất kỳ thứ tự nào, tôi vừa mới viết chúng tăng dần về giá trị, chẳng hạn, tập {5, 4, 1, 6, 3} về mặt toán học tương đương với nó. Đây không phải là những gì chúng ta thường có nghĩa là một bộ dữ liệu mặc dù!

Một multiset (hoặc túi ) cho phép các mục được lặp lại, ví dụ {1, 4, 3, 5, 5, 4, 6, 4} mặc dù lưu ý rằng điều này vẫn không bao gồm ý nghĩa về thứ tự, do đó bằng với {1, 3, 4, 4, 4, 5, 5, 6}. Có lẽ "tập hợp" trong "tập dữ liệu" tốt nhất có thể được đọc là "nhiều tập". Hơn nữa, nếu bạn muốn bảo toàn trật tự, thay vào đó bạn có thể sử dụng một vectơ: (1, 4, 3, 5, 5, 4, 6, 4) không giống như (1, 3, 4, 4, 4, 5, 5, 6). Thứ tự cung cấp cho chúng ta một chỉ mục có thể đóng vai trò là một loại định danh - ví dụ, nó cho chúng ta biết "cái nào là cái nào?" - và thường phục vụ mục đích ghi lại các quan sát theo thứ tự thời gian hoặc địa lý tự nhiên của chúng. Khi một người nhìn thấy các công thức nhưx1x2x¯=1ni=1nxiloại sơ đồ chỉ mục này được giả định. Trong ngữ cảnh của một tập hợp hoặc nhiều trang, hoặc có nghĩa là gì, với điều kiện là chúng ta không thể phân biệt được phần tử "thứ nhất" hoặc "thứ hai" do thiếu thứ tự?x1x2

Nhưng các vectơ chỉ để ghi một biến - đối với một số, có thể thuận tiện hơn khi sử dụng ma trận để lập bảng với thứ tự được bảo toàn. Đối với các tình huống phức tạp hơn như đo một thuộc tính của lưới voxels ba chiều theo thời gian, bạn thậm chí có thể chuyển lên để sắp xếp dữ liệu trong một tenxơ (xem ví dụ câu hỏi này ).

Nhưng lưu ý rằng về mặt khái niệm, một multiset có thể đủ trong hầu hết các tình huống đơn giản, ngay cả khi nó bất tiện cho các mục đích thực tế. Nếu tôi ném đồng xu cùng lúc với súc sắc và muốn ghi lại hai kết quả cùng nhau, thì tôi có thể sử dụng nhiều loại như {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} thay vì ma trận. Một tập hợp thông thường sẽ không đủ, vì nó sẽ không tính bội số của (4, H).


1
Tôi có thể mua ý tưởng rằng một tập dữ liệu là một tập hợp các quan sát chỉ với nếp nhăn mà nó có thể cần các định danh của chúng để làm cho chúng khác biệt. Nhưng bạn nói đúng rằng ý nghĩa ở đây là một khoảng cách so với lý thuyết tập hợp. Gạch chân, như bạn gợi ý ở đây, thứ tự quan sát thường rất quan trọng và sẽ thường xuyên, nhưng không phải lúc nào cũng được đưa ra bởi một thời gian hoặc (các) biến thứ tự khác.
Nick Cox

@NickCox (+1) Thật vậy, điều mà tôi chưa tìm thấy thời gian, hay hơn nữa, để thể hiện là các quan sát thường đi kèm với một định danh - đôi khi là tạm thời, đôi khi dựa trên vị trí, đôi khi cả hai. Khi chúng ta mã hóa dữ liệu thành một vectơ, ma trận hoặc tenxơ, thường trực tiếp cung cấp cấu trúc mà chúng ta muốn và một định danh rõ ràng (như chỉ mục được mã hóa cứng) có thể không cần thiết, đặc biệt nếu đó chỉ là thứ tự hoặc vị trí tương đối quan trọng. Không có nghi ngờ gì có một thuật ngữ chính xác cho tất cả điều này.
Cá bạc

Tôi không có vấn đề gì khi nói rằng đơn hàng không thành vấn đề. Nó không có một biến duy nhất. Thứ tự quan trọng khi bạn có các giá trị X được ghép nối với thời gian đo. Nhưng sau đó, chúng ta thực sự có thể nghĩ về các điểm là đa chiều, và thứ tự của một tập hợp dữ liệu đa chiều không còn quan trọng nữa. Tôi cũng không có vấn đề gì với suy nghĩ rằng trong thực tế, hoặc một định danh ngụ ý, làm cho hai số 5 trở nên độc đáo.
gung - Phục hồi Monica

@gung Tôi đã nghĩ đến các bộ dữ liệu trong đó thời gian hoặc thứ tự nối tiếp là ẩn. Tôi muốn nói rằng đó là thực tiễn kém, và bây giờ không cần thiết, không có biến thứ tự rõ ràng, nhưng thiếu biến thứ tự như vậy không đủ điều kiện để trở thành một bộ dữ liệu. Trong thực tế vào những năm 1970, tôi sẽ thường xuyên xử lý các chuỗi không gian với định danh ngầm bởi vì các chương trình Fortran của riêng tôi đã khiến lao động (không tầm thường) phải nhập một thứ không cần thiết.
Nick Cox

Điều đó có vẻ tốt với tôi, @NickCox. Tôi muốn nói biến thứ tự là ẩn, trong trường hợp đó nhưng trong một ý nghĩa vẫn còn đó.
gung - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.