Làm thế nào để kiểm tra nếu dữ liệu của tôi là rời rạc hoặc liên tục?


11

Dường như với tôi rằng để chọn đúng công cụ thống kê, trước tiên tôi phải xác định xem dữ liệu của tôi là rời rạc hay liên tục.

Bạn có thể dạy tôi làm thế nào tôi có thể kiểm tra xem dữ liệu là rời rạc hoặc liên tục với R không?


Bạn có nghĩa là liệu các biến nhất định cần phải được thêm dưới dạng dự đoán liên tục hoặc phân loại (rời rạc) trong mô hình kiểu hồi quy?
Nick Sabbe

Làm thế nào dữ liệu được thu thập và cách các biến được ghi lại có thể sẽ cung cấp cho bạn một số manh mối về điều đó; Ngoài ra, nó có thể phụ thuộc vào việc bạn muốn mô hình hóa dữ liệu của mình dưới dạng liên tục hay rời rạc (xem ví dụ: câu hỏi liên quan đến các mục Likert và phân tích tỷ lệ rời rạc). Điểm không liên quan: Sẽ tốt hơn nếu bạn có thể đăng ký tài khoản của mình một lần cho tất cả, và có thể xem xét chấp nhận câu trả lời hoặc sửa đổi các câu hỏi trước đó của bạn.
chl

thực hiện một qqnorm và nếu các điểm nằm dọc theo đường chéo thì dữ liệu sẽ liên tục (nếu nó nằm trong các đường tử vi thì nó rời rạc)
user 222362

Câu trả lời:


14

Lý do duy nhất tôi có thể nghĩ ngay đến việc yêu cầu quyết định này, là quyết định đưa vào một biến là liên tục hoặc phân loại trong hồi quy.

Trước hết, đôi khi bạn không có lựa chọn nào: các biến ký tự hoặc các yếu tố (nơi ai đó cung cấp data.frame đã đưa ra quyết định cho bạn) rõ ràng là phân loại.

Điều đó để lại cho chúng tôi các biến số. Bạn có thể chỉ cần kiểm tra xem các biến có phải là số nguyên hay không, nhưng đây không phải là một tiêu chí tốt: nhìn vào dòng mã đầu tiên bên dưới ( x1): đây là 1000 quan sát chỉ có hai giá trị và : mặc dù đây là các giá trị không phải là số nguyên, đây có vẻ là một biến phân loại rõ ràng. Những gì bạn có thể làm cho một số người là kiểm tra xem có bao nhiêu giá trị khác nhau trong dữ liệu của bạn, mặc dù mọi ngưỡng bạn có thể sử dụng cho điều này sẽ mang tính chủ quan, tôi đoán:2,51.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Tôi có xu hướng nói rằng một biến chỉ có 5% giá trị duy nhất có thể được gọi một cách an toàn rời rạc (nhưng, như đã đề cập: đây là chủ quan). Tuy nhiên: điều này không làm cho nó trở thành một ứng cử viên tốt để đưa nó làm biến phân loại trong mô hình của bạn: Nếu bạn có 1000000 quan sát và 5% giá trị duy nhất, vẫn để lại 50000 'danh mục': nếu bạn bao gồm điều này là phân loại, bạn ' sẽ dành một địa ngục của rất nhiều mức độ tự do.

Tôi đoán cuộc gọi này thậm chí còn chủ quan hơn, và phụ thuộc rất lớn vào kích thước mẫu và phương pháp lựa chọn. Không có nhiều ngữ cảnh, thật khó để đưa ra hướng dẫn ở đây.

Vì vậy, bây giờ bạn có thể có một số biến mà bạn có thể thêm dưới dạng phân loại trong mô hình của mình. Nhưng bạn có nên ? Câu hỏi này có thể được trả lời (mặc dù nó thực sự phụ thuộc vào mục tiêu của bạn) với một bài kiểm tra tỷ lệ khả năng: Mô hình trong đó biến là phân loại là siêu mẫu của mô hình với biến là biến số liên tục. Để thấy điều này, hãy tưởng tượng một hồi quy tuyến tính trên một biến xmà giữ ba giá trị 0, 12. Lắp mô hình: trong đó là chỉ báo biến giả (nó bằng 1 nếu ) chỉ linh hoạt hơn cách lắp mô hình x i x = = i E [ y ] = β 0 + β 1 x E [ y ] = β 0 + β 1 x 1 + 2 β 1 x 2

E[y]=β0+β11x1+β12x2
xix==i
E[y]=β0+β1x
bởi vì cái cuối cùng tương đương với
E[y]=β0+β1x1+2β1x2

Với cấu trúc siêu / mô hình con, bạn có thể tìm hiểu xem có bằng chứng nào trong dữ liệu rằng cấu trúc phức tạp hơn là cần thiết hay không, bằng cách thực hiện kiểm tra tỷ lệ khả năng : -2 lần chênh lệch về khả năng tối đa của nhật ký (thường được biểu thị là sai lệch trong R) theo phân phối với df = sự khác biệt về số lượng tham số (trong ví dụ trên: 4 tham số - 3 tham số).χ2


3
+1 Ví dụ hay về cách cải thiện câu hỏi kỳ lạ với câu trả lời tuyệt vời.

1
Trong thực tế, bất kỳ liên tục có thể được rời rạc, làm cho biểu đồ chỉ cho thấy cách nó được thực hiện trong thực tế. Có lẽ tôi đã trộn lẫn dữ liệu đếm (dữ liệu giá trị nguyên) với phân loại ... mặc dù suy đoán đầu tiên của tôi là về phân phối rời rạc và liên tục, không chỉ các điểm dữ liệu (và các nhà nghiên cứu điên rồ gán giá trị thực cho các danh mục), vì vậy ... dù sao tôi cũng đã xóa , vì đừng nghĩ rằng nó giải quyết được vấn đề (+1)
Dmitrij Celov

1
có vẻ như @Dmitrij đã xóa câu trả lời của anh ấy, bạn có thể vui lòng xem lại câu trả lời của mình để phản ánh điều đó không? Đó là một câu trả lời tuyệt vời (+1), do đó, tham chiếu đến nội dung không tồn tại sẽ xuất hiện một chút.
mpiktas
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.