Sự khác biệt giữa dữ liệu rời rạc và dữ liệu liên tục là gì?
Sự khác biệt giữa dữ liệu rời rạc và dữ liệu liên tục là gì?
Câu trả lời:
Dữ liệu rời rạc chỉ có thể có giá trị cụ thể. Có thể có một số lượng vô hạn các giá trị đó, nhưng mỗi giá trị là khác biệt và không có vùng màu xám ở giữa. Dữ liệu rời rạc có thể là số - giống như số táo - nhưng cũng có thể được phân loại - như màu đỏ hoặc màu xanh, hoặc nam hoặc nữ, hoặc tốt hoặc xấu.
Dữ liệu liên tục không bị giới hạn ở các giá trị riêng biệt được xác định, nhưng có thể chiếm bất kỳ giá trị nào trong một phạm vi liên tục. Giữa hai giá trị dữ liệu liên tục có thể có vô số giá trị khác. Dữ liệu liên tục về cơ bản luôn là số.
Đôi khi nó có ý nghĩa để coi dữ liệu số là đúng loại này là loại khác. Ví dụ, một cái gì đó như chiều cao là liên tục, nhưng thường thì chúng ta không thực sự quan tâm quá nhiều đến những khác biệt nhỏ và thay vào đó, chiều cao của nhóm thành một số thùng rời rạc . Ngược lại, nếu chúng ta đếm số lượng lớn của một số thực thể riêng biệt - hạt gạo, hoặc mối, hoặc đồng xu trong nền kinh tế - chúng ta có thể chọn không nghĩ 2.000.006 và 2.000.008 là giá trị khác nhau mà thay vào đó là các điểm gần đó trên một liên tục gần đúng.
Đôi khi cũng có thể hữu ích khi coi dữ liệu số là phân loại, ví dụ: thiếu cân, bình thường, béo phì. Đây thường chỉ là một loại binning.
Nó hiếm khi có ý nghĩa để coi dữ liệu phân loại là liên tục.
Dữ liệu luôn luôn rời rạc. Cho một mẫu các n
giá trị trên một biến, số lượng giá trị riêng biệt tối đa mà biến có thể lấy bằng n
. Xem báo giá này
Tất cả các không gian mẫu thực tế là riêng biệt và tất cả các biến ngẫu nhiên có thể quan sát được có các phân phối rời rạc. Phân phối liên tục là một cấu trúc toán học, phù hợp cho xử lý toán học, nhưng thực tế không thể quan sát được. EJG Pitman (1979, trang 1).
Dữ liệu trên một biến thường được giả định là được rút ra từ một biến ngẫu nhiên. Biến ngẫu nhiên là liên tục trong một phạm vi nếu có vô số giá trị có thể có mà biến có thể mất giữa hai điểm khác nhau trong phạm vi. Ví dụ, chiều cao, cân nặng và thời gian thường được coi là liên tục. Tất nhiên, bất kỳ phép đo nào của các biến này sẽ chính xác và trong một số trường hợp rời rạc.
Rất hữu ích để phân biệt giữa các thứ tự (nghĩa là thứ tự), không có thứ tự (nghĩa là danh nghĩa)
và các biến rời rạc nhị phân.
Một số sách giáo khoa giới thiệu nhầm lẫn một biến liên tục với một biến số. Ví dụ: điểm trên trò chơi trên máy tính là rời rạc mặc dù là số.
Một số sách giáo khoa giới thiệu nhầm lẫn một biến tỷ lệ với các biến liên tục. Một biến đếm là một biến tỷ lệ, nhưng nó không liên tục.
Trong thực tế, một biến thường được coi là liên tục khi nó có thể nhận đủ số lượng lớn các giá trị khác nhau.
Nhiệt độ là liên tục. Nó có thể là 23 độ, 23,1 độ, 23.100004 độ.
Tình dục là rời rạc. Bạn chỉ có thể là nam hoặc nữ (theo cách nghĩ cổ điển). Một cái gì đó bạn có thể đại diện với toàn bộ số như 1, 2, v.v.
Sự khác biệt rất quan trọng vì nhiều thuật toán khai thác dữ liệu và thống kê có thể xử lý một loại nhưng không phải loại khác. Ví dụ trong hồi quy thường xuyên, Y phải liên tục. Trong hồi quy logistic, Y là rời rạc.
Dữ liệu rời rạc chỉ có thể có giá trị nhất định.
Ví dụ: số lượng sinh viên trong một lớp (bạn không thể có một nửa sinh viên).
Dữ liệu liên tục là dữ liệu có thể nhận bất kỳ giá trị nào (trong phạm vi)
Ví dụ:
Trong trường hợp cơ sở dữ liệu, chúng tôi sẽ luôn lưu trữ dữ liệu rời rạc ngay cả bản chất của dữ liệu là liên tục. Tại sao tôi nên nhấn mạnh bản chất của dữ liệu? Chúng ta nên phân phối dữ liệu có thể giúp chúng ta phân tích dữ liệu. NẾU bản chất của dữ liệu là liên tục, tôi khuyên bạn nên sử dụng chúng bằng cách phân tích liên tục.
Lấy một ví dụ về liên tục và rời rạc: MP3. Ngay cả loại "âm thanh" là tương tự, nếu được lưu trữ ở định dạng kỹ thuật số. Chúng ta nên phân tích nó luôn theo một cách tương tự.
Một mặt, từ quan điểm thực tế, tôi đồng ý với câu trả lời của Jeromy Anglim. Cuối cùng, chúng ta hầu hết thời gian xử lý các biến rời rạc - mặc dù theo quan điểm lý thuyết, chúng là liên tục - và điều đó có tác động thực sự đối với việc phân loại. Nhớ lại bài viết của Strobl chỉ ra rằng Rừng ngẫu nhiên thiên về các biến có nhiều điểm cắt (độ chính xác cao hơn nhưng có tính chất tương tự). Từ kinh nghiệm cá nhân của tôi, mạng nơ ron xác suất cũng có thể xuất hiện sai lệch khi các biến thể hiện độ chính xác khác nhau trừ khi chúng cùng loại (nghĩa là liên tục). Mặt khác, từ quan điểm lý thuyết, phân loại cổ điển (ví dụ, liên tục, rời rạc, danh nghĩa, v.v.) là, IMHO, phải. Theo tôi nghĩ rằng tên nguồn của bài báo của Quinlan mô tả thuật toán M5, đó là một 'hồi quy', là một lựa chọn tuyệt vời. Vì vậy, định nghĩa và ý nghĩa của liên tục so với rời rạc có liên quan tùy thuộc vào "môi trường".
Tham chiếu:
Quinlan JR (1992). Học với các lớp liên tục. Trong: Hội nghị chung Úc lần thứ 5 về AI. Sydney (Úc), 343 Từ348.
Đột quỵ C., Boulesteix A.-L., Zeileis A., & Hothorn T. (2007). Xu hướng trong các biện pháp quan trọng của biến rừng ngẫu nhiên: minh họa, nguồn và giải pháp. BMC Tin sinh học, 8, 25. doi: 10.1186 / 1471-2105-8-25
Dữ liệu rời rạc lấy các giá trị cụ thể, trong khi dữ liệu liên tục không bị giới hạn ở các giá trị riêng biệt.
Dữ liệu rời rạc là khác biệt và không có vùng màu xám ở giữa, trong khi dữ liệu liên tục chiếm bất kỳ giá trị nào trên một giá trị dữ liệu liên tục.
Dữ liệu rời rạc Họ có thể lấy các giá trị cụ thể. Chúng là số.
Dữ liệu rời rạc có thể chỉ nhận các giá trị nguyên trong khi dữ liệu liên tục có thể nhận bất kỳ giá trị nào. Ví dụ, số bệnh nhân ung thư được điều trị bởi bệnh viện mỗi năm là riêng biệt nhưng cân nặng của bạn là liên tục. Một số dữ liệu liên tục nhưng được đo theo cách riêng biệt, ví dụ như tuổi của bạn. Thông thường báo cáo tuổi của bạn như nói, 31.