Tôi bắt đầu say mê với việc sử dụng glmnet
với LASSO Regression trong đó kết quả quan tâm của tôi là phân đôi. Tôi đã tạo một khung dữ liệu giả nhỏ bên dưới:
age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7)
gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0)
bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88)
m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1)
p_edu <- c(0, 2, 2, 2, 2, 3, 2, 0, 0)
f_color <- c("blue", "blue", "yellow", "red", "red", "yellow", "yellow",
"red", "yellow")
asthma <- c(1, 1, 0, 1, 0, 0, 0, 1, 1)
# df is a data frame for further use!
df <- data.frame(age, gender, bmi_p, m_edu, p_edu, f_color, asthma)
Các cột (biến) trong bộ dữ liệu trên như sau:
age
(tuổi của trẻ trong năm) - liên tụcgender
- nhị phân (1 = nam; 0 = nữ)bmi_p
(Phân vị BMI) - liên tụcm_edu
(trình độ học vấn cao nhất của mẹ) - thứ tự (0 = ít hơn trường trung học; 1 = bằng tốt nghiệp trung học; 2 = bằng cử nhân; 3 = bằng sau tú tài)p_edu
(trình độ học vấn cao nhất của cha) - thứ tự (giống như m_edu)f_color
(màu chính yêu thích) - danh nghĩa ("xanh", "đỏ" hoặc "vàng")asthma
(tình trạng hen suyễn ở trẻ em) - nhị phân (1 = hen; 0 = không hen)
Mục đích của ví dụ này là tận dụng Lasso để tạo ra một mô hình dự đoán tình trạng hen suyễn trẻ từ danh sách 6 biến dự báo tiềm năng ( age
, gender
, bmi_p
, m_edu
, p_edu
, và f_color
). Rõ ràng kích thước mẫu là một vấn đề ở đây, nhưng tôi hy vọng sẽ hiểu rõ hơn về cách xử lý các loại biến khác nhau (nghĩa là liên tục, thứ tự, danh nghĩa và nhị phân) trong glmnet
khung khi kết quả là nhị phân (1 = hen ; 0 = không hen suyễn).
Như vậy, liệu có ai sẵn sàng cung cấp một R
tập lệnh mẫu cùng với các giải thích cho ví dụ giả này bằng cách sử dụng LASSO với dữ liệu trên để dự đoán tình trạng hen suyễn không? Mặc dù rất cơ bản, tôi biết tôi, và có thể nhiều người khác trong CV, sẽ đánh giá rất cao điều này!
glmnet
hành động với kết quả nhị phân.
dput
của một thực tế đối tượng R; đừng bắt độc giả phủ sương lên trên cũng như nướng bánh cho bạn!. Nếu bạn tạo khung dữ liệu phù hợp trong R, giả sửfoo
, sau đó chỉnh sửa thành câu hỏi đầu ra củadput(foo)
.