Sự khác biệt giữa dữ liệu rời rạc và dữ liệu liên tục là gì?


62

Sự khác biệt giữa dữ liệu rời rạc và dữ liệu liên tục là gì?


2
Bạn đã thử Google trước chưa? Đối với tôi, nó mang lại điều này .
cướp girard

Đây là một video tốt đẹp mà trả lời câu hỏi của bạn. youtube.com/watch?v=MIX3ZpzEOdM

2
Chỉ cần nghĩ kỹ thuật số so với tương tự. Điều tương tự - tên khác nhau.
Pithikos

Tôi thực sự không biết sự khác biệt giữa dữ liệu "rời rạc" và "liên tục". Vì một số lý do, các lớp chỉ số giới thiệu dường như thực sự thích làm cho học sinh ghi nhớ các quy tắc để phân biệt hai điều này. Theo như tôi có thể hiểu, sự khác biệt không nằm ở dữ liệu - mà là cách chúng ta chọn mô hình hóa dữ liệu.
user795305

1
Đây là kết quả hàng đầu trong Google, @robingirard.
denson

Câu trả lời:


58

Dữ liệu rời rạc chỉ có thể có giá trị cụ thể. Có thể có một số lượng vô hạn các giá trị đó, nhưng mỗi giá trị là khác biệt và không có vùng màu xám ở giữa. Dữ liệu rời rạc có thể là số - giống như số táo - nhưng cũng có thể được phân loại - như màu đỏ hoặc màu xanh, hoặc nam hoặc nữ, hoặc tốt hoặc xấu.

Dữ liệu liên tục không bị giới hạn ở các giá trị riêng biệt được xác định, nhưng có thể chiếm bất kỳ giá trị nào trong một phạm vi liên tục. Giữa hai giá trị dữ liệu liên tục có thể có vô số giá trị khác. Dữ liệu liên tục về cơ bản luôn là số.

Đôi khi nó có ý nghĩa để coi dữ liệu số là đúng loại này là loại khác. Ví dụ, một cái gì đó như chiều cao là liên tục, nhưng thường thì chúng ta không thực sự quan tâm quá nhiều đến những khác biệt nhỏ và thay vào đó, chiều cao của nhóm thành một số thùng rời rạc . Ngược lại, nếu chúng ta đếm số lượng lớn của một số thực thể riêng biệt - hạt gạo, hoặc mối, hoặc đồng xu trong nền kinh tế - chúng ta có thể chọn không nghĩ 2.000.006 và 2.000.008 là giá trị khác nhau mà thay vào đó là các điểm gần đó trên một liên tục gần đúng.

Đôi khi cũng có thể hữu ích khi coi dữ liệu số là phân loại, ví dụ: thiếu cân, bình thường, béo phì. Đây thường chỉ là một loại binning.

Nó hiếm khi có ý nghĩa để coi dữ liệu phân loại là liên tục.


@walktalky như @jeromy ám chỉ, trong tâm lý học, ít nhất, các biến thể loại như câu trả lời cho câu hỏi thường được coi là đại diện cho một đặc điểm cơ bản, do đó, theo nghĩa đó, dữ liệu phân loại đôi khi được coi là liên tục.
richiemorrisroe

@richiemorrisroe Người ta có thể hiểu về sự khác biệt giữa dữ liệu và đặc điểm giả định, nhưng tất nhiên bạn đã đúng. Một số điểm rất thú vị đã được thực hiện để trả lời câu hỏi tiếp theo này .
walkytalky

cảm ơn vì liên kết, những câu trả lời thực sự rất thú vị
richiemorrisroe

> " Có thể có một số lượng vô hạn các giá trị đó, nhưng mỗi giá trị là khác biệt và không có vùng màu xám ở giữa " - thực sự hoàn toàn có thể có phân phối riêng biệt với các giá trị riêng biệt, đồng thời , cho bất kỳ hai giá trị nào các giá trị riêng biệt bạn chọn, luôn có nhiều giá trị hơn giữa chúng ('vùng xám' theo nghĩa). Họ không đưa ra tất cả những gì thường xuyên trong thực tế, nhưng điều đó hoàn toàn có thể xảy ra với họ; thực sự tôi có thể nghĩ về hai ví dụ riêng biệt (nếu có liên quan) có thể dễ dàng phát sinh.
Glen_b

Vì vậy, để làm rõ, ngay cả khi bạn có 10 tỷ hàng dữ liệu ohlc cho một tài sản chứng khoán, nó vẫn sẽ được coi là rời rạc? Nhưng sau đó không thể giá của một tài sản là bất cứ thứ gì từ 1 đến vô cùng, làm thế nào để suy nghĩ trong loại tình huống này?
PirateApp

19

Dữ liệu luôn luôn rời rạc. Cho một mẫu các ngiá trị trên một biến, số lượng giá trị riêng biệt tối đa mà biến có thể lấy bằng n. Xem báo giá này

Tất cả các không gian mẫu thực tế là riêng biệt và tất cả các biến ngẫu nhiên có thể quan sát được có các phân phối rời rạc. Phân phối liên tục là một cấu trúc toán học, phù hợp cho xử lý toán học, nhưng thực tế không thể quan sát được. EJG Pitman (1979, trang 1).

Dữ liệu trên một biến thường được giả định là được rút ra từ một biến ngẫu nhiên. Biến ngẫu nhiên là liên tục trong một phạm vi nếu có vô số giá trị có thể có mà biến có thể mất giữa hai điểm khác nhau trong phạm vi. Ví dụ, chiều cao, cân nặng và thời gian thường được coi là liên tục. Tất nhiên, bất kỳ phép đo nào của các biến này sẽ chính xác và trong một số trường hợp rời rạc.

Rất hữu ích để phân biệt giữa các thứ tự (nghĩa là thứ tự), không có thứ tự (nghĩa là danh nghĩa)
và các biến rời rạc nhị phân.

Một số sách giáo khoa giới thiệu nhầm lẫn một biến liên tục với một biến số. Ví dụ: điểm trên trò chơi trên máy tính là rời rạc mặc dù là số.

Một số sách giáo khoa giới thiệu nhầm lẫn một biến tỷ lệ với các biến liên tục. Một biến đếm là một biến tỷ lệ, nhưng nó không liên tục.

Trong thực tế, một biến thường được coi là liên tục khi nó có thể nhận đủ số lượng lớn các giá trị khác nhau.

Người giới thiệu

  • Pitman, EJG 1979. Một số lý thuyết cơ bản cho suy luận thống kê. Luân Đôn: Chapman và Hội trường. Lưu ý: Tôi đã tìm thấy trích dẫn trong phần giới thiệu Chương 2 của cuốn sách Suy luận thống kê của Murray Aitkin : Cách tiếp cận tích hợp Bayesian / Likabilities

12
Một xác suất cũng vậy, là một "cấu trúc toán học" và không "có thể quan sát trực tiếp". Điều này có nghĩa là xác suất không tồn tại? Nhìn chung, trả lời thú vị này dường như dựa trên một tiền đề không đứng vững mà dữ liệu cần được đặc trưng bởi giá trị mà họ làm có chứ không phải bởi các giá trị một mô hình toán học cho phép họ có. Cái sau là đặc tính quan trọng, không phải cái trước. Tất cả điều này cho thấy rằng điều quan trọng trong sự phân biệt liên tục / rời rạc là cách chúng ta nghĩ về dữ liệu (nghĩa là cách chúng ta mô hình hóa chúng).
whuber

3
Có một câu chuyện ngụ ngôn nhỏ thông minh minh họa quan điểm của @ whuber: Lord (1953), "Về việc xử lý thống kê số bóng đá", Nhà tâm lý học Mỹ , 8 , tr750-51.
Scortchi - Phục hồi Monica

Cảm ơn bạn, @ Scortchi. Phiên bản web có sẵn thông qua một tìm kiếm học giả Google . Lord đang giải quyết một quan niệm sai lầm, được tranh luận sôi nổi cách đây 60 năm, về mức độ mà "lý thuyết đo lường" sẽ ảnh hưởng (hoặc thậm chí giới hạn phạm vi) phân tích thống kê. Quan điểm của tôi là một điểm khác biệt về sự khác biệt giữa các cấu trúc mô hình và các quan sát.
whuber

12

Nhiệt độ là liên tục. Nó có thể là 23 độ, 23,1 độ, 23.100004 độ.

Tình dục là rời rạc. Bạn chỉ có thể là nam hoặc nữ (theo cách nghĩ cổ điển). Một cái gì đó bạn có thể đại diện với toàn bộ số như 1, 2, v.v.

Sự khác biệt rất quan trọng vì nhiều thuật toán khai thác dữ liệu và thống kê có thể xử lý một loại nhưng không phải loại khác. Ví dụ trong hồi quy thường xuyên, Y phải liên tục. Trong hồi quy logistic, Y là rời rạc.


5
Y

8

Dữ liệu rời rạc chỉ có thể có giá trị nhất định.

Ví dụ: số lượng sinh viên trong một lớp (bạn không thể có một nửa sinh viên).

Dữ liệu liên tục là dữ liệu có thể nhận bất kỳ giá trị nào (trong phạm vi)

Ví dụ:

  • Chiều cao của một người: có thể là bất kỳ giá trị nào (trong phạm vi chiều cao của con người), không chỉ là độ cao cố định nhất định,
  • Thời gian trong một cuộc đua: bạn thậm chí có thể đo nó thành phân số của một giây,
  • Cân nặng của một con chó,
  • Chiều dài của một chiếc lá,
  • Cân nặng của một người,

2
Bạn cũng có thể cho chúng tôi biết nơi bạn sao chép đã dán câu trả lời từ: mathsisfun.com/data/data-discittle-continupt.html
philmcole

Mô tả độc đáo.
Arsman Ahmad

0

Trong trường hợp cơ sở dữ liệu, chúng tôi sẽ luôn lưu trữ dữ liệu rời rạc ngay cả bản chất của dữ liệu là liên tục. Tại sao tôi nên nhấn mạnh bản chất của dữ liệu? Chúng ta nên phân phối dữ liệu có thể giúp chúng ta phân tích dữ liệu. NẾU bản chất của dữ liệu là liên tục, tôi khuyên bạn nên sử dụng chúng bằng cách phân tích liên tục.

Lấy một ví dụ về liên tục và rời rạc: MP3. Ngay cả loại "âm thanh" là tương tự, nếu được lưu trữ ở định dạng kỹ thuật số. Chúng ta nên phân tích nó luôn theo một cách tương tự.


0

Một mặt, từ quan điểm thực tế, tôi đồng ý với câu trả lời của Jeromy Anglim. Cuối cùng, chúng ta hầu hết thời gian xử lý các biến rời rạc - mặc dù theo quan điểm lý thuyết, chúng là liên tục - và điều đó có tác động thực sự đối với việc phân loại. Nhớ lại bài viết của Strobl chỉ ra rằng Rừng ngẫu nhiên thiên về các biến có nhiều điểm cắt (độ chính xác cao hơn nhưng có tính chất tương tự). Từ kinh nghiệm cá nhân của tôi, mạng nơ ron xác suất cũng có thể xuất hiện sai lệch khi các biến thể hiện độ chính xác khác nhau trừ khi chúng cùng loại (nghĩa là liên tục). Mặt khác, từ quan điểm lý thuyết, phân loại cổ điển (ví dụ, liên tục, rời rạc, danh nghĩa, v.v.) là, IMHO, phải. Theo tôi nghĩ rằng tên nguồn của bài báo của Quinlan mô tả thuật toán M5, đó là một 'hồi quy', là một lựa chọn tuyệt vời. Vì vậy, định nghĩa và ý nghĩa của liên tục so với rời rạc có liên quan tùy thuộc vào "môi trường".

Tham chiếu:

Quinlan JR (1992). Học với các lớp liên tục. Trong: Hội nghị chung Úc lần thứ 5 về AI. Sydney (Úc), 343 Từ348.

Đột quỵ C., Boulesteix A.-L., Zeileis A., & Hothorn T. (2007). Xu hướng trong các biện pháp quan trọng của biến rừng ngẫu nhiên: minh họa, nguồn và giải pháp. BMC Tin sinh học, 8, 25. doi: 10.1186 / 1471-2105-8-25


-1

Dữ liệu rời rạc lấy các giá trị cụ thể, trong khi dữ liệu liên tục không bị giới hạn ở các giá trị riêng biệt.

Dữ liệu rời rạc là khác biệt và không có vùng màu xám ở giữa, trong khi dữ liệu liên tục chiếm bất kỳ giá trị nào trên một giá trị dữ liệu liên tục.


-2

Dữ liệu rời rạc Họ có thể lấy các giá trị cụ thể. Chúng là số.


Chào mừng đến với CV! Cảm ơn bạn đã trả lời, nhưng vui lòng dành thời gian để xem các câu trả lời trước đó và xem xét nếu bạn thêm bất cứ điều gì hữu ích.
Scortchi - Phục hồi Monica

-3

Dữ liệu rời rạc có thể chỉ nhận các giá trị nguyên trong khi dữ liệu liên tục có thể nhận bất kỳ giá trị nào. Ví dụ, số bệnh nhân ung thư được điều trị bởi bệnh viện mỗi năm là riêng biệt nhưng cân nặng của bạn là liên tục. Một số dữ liệu liên tục nhưng được đo theo cách riêng biệt, ví dụ như tuổi của bạn. Thông thường báo cáo tuổi của bạn như nói, 31.


11
Dữ liệu có thể rời rạc mà không bị giới hạn ở số nguyên. Hoặc số, cho vấn đề đó. Luôn có thể biểu diễn dữ liệu rời rạc bằng số nguyên, nhưng điều đó không có nghĩa là dữ liệu chỉ có thể lấy các giá trị đó.
walkytalky

-4

Dữ liệu rời rạc vuông góc nói về các giá trị hữu hạn và dữ liệu liên tục nói về các giá trị ifinite .....


2
Quan tâm đến công phu?
chl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.