Dường như với tôi rằng để chọn đúng công cụ thống kê, trước tiên tôi phải xác định xem dữ liệu của tôi là rời rạc hay liên tục.
Bạn có thể dạy tôi làm thế nào tôi có thể kiểm tra xem dữ liệu là rời rạc hoặc liên tục với R không?
Dường như với tôi rằng để chọn đúng công cụ thống kê, trước tiên tôi phải xác định xem dữ liệu của tôi là rời rạc hay liên tục.
Bạn có thể dạy tôi làm thế nào tôi có thể kiểm tra xem dữ liệu là rời rạc hoặc liên tục với R không?
Câu trả lời:
Lý do duy nhất tôi có thể nghĩ ngay đến việc yêu cầu quyết định này, là quyết định đưa vào một biến là liên tục hoặc phân loại trong hồi quy.
Trước hết, đôi khi bạn không có lựa chọn nào: các biến ký tự hoặc các yếu tố (nơi ai đó cung cấp data.frame đã đưa ra quyết định cho bạn) rõ ràng là phân loại.
Điều đó để lại cho chúng tôi các biến số. Bạn có thể chỉ cần kiểm tra xem các biến có phải là số nguyên hay không, nhưng đây không phải là một tiêu chí tốt: nhìn vào dòng mã đầu tiên bên dưới ( x1
): đây là 1000 quan sát chỉ có hai giá trị và : mặc dù đây là các giá trị không phải là số nguyên, đây có vẻ là một biến phân loại rõ ràng. Những gì bạn có thể làm cho một số người là kiểm tra xem có bao nhiêu giá trị khác nhau trong dữ liệu của bạn, mặc dù mọi ngưỡng bạn có thể sử dụng cho điều này sẽ mang tính chủ quan, tôi đoán:2,5x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Tôi có xu hướng nói rằng một biến chỉ có 5% giá trị duy nhất có thể được gọi một cách an toàn rời rạc (nhưng, như đã đề cập: đây là chủ quan). Tuy nhiên: điều này không làm cho nó trở thành một ứng cử viên tốt để đưa nó làm biến phân loại trong mô hình của bạn: Nếu bạn có 1000000 quan sát và 5% giá trị duy nhất, vẫn để lại 50000 'danh mục': nếu bạn bao gồm điều này là phân loại, bạn ' sẽ dành một địa ngục của rất nhiều mức độ tự do.
Tôi đoán cuộc gọi này thậm chí còn chủ quan hơn, và phụ thuộc rất lớn vào kích thước mẫu và phương pháp lựa chọn. Không có nhiều ngữ cảnh, thật khó để đưa ra hướng dẫn ở đây.
Vì vậy, bây giờ bạn có thể có một số biến mà bạn có thể thêm dưới dạng phân loại trong mô hình của mình. Nhưng bạn có nên ? Câu hỏi này có thể được trả lời (mặc dù nó thực sự phụ thuộc vào mục tiêu của bạn) với một bài kiểm tra tỷ lệ khả năng: Mô hình trong đó biến là phân loại là siêu mẫu của mô hình với biến là biến số liên tục. Để thấy điều này, hãy tưởng tượng một hồi quy tuyến tính trên một biến x
mà giữ ba giá trị 0
, 1
và 2
. Lắp mô hình:
trong đó là chỉ báo biến giả (nó bằng 1 nếu ) chỉ linh hoạt hơn cách lắp mô hình
x i x = = i E [ y ] = β 0 + β 1 x E [ y ] = β 0 + β 1 x 1 + 2 β 1 x 2
Với cấu trúc siêu / mô hình con, bạn có thể tìm hiểu xem có bằng chứng nào trong dữ liệu rằng cấu trúc phức tạp hơn là cần thiết hay không, bằng cách thực hiện kiểm tra tỷ lệ khả năng : -2 lần chênh lệch về khả năng tối đa của nhật ký (thường được biểu thị là sai lệch trong R) theo phân phối với df = sự khác biệt về số lượng tham số (trong ví dụ trên: 4 tham số - 3 tham số).