Giới thiệu:
Tôi có một bộ dữ liệu với một "vấn đề p lớn, nhỏ n" cổ điển. Số lượng mẫu có sẵn n = 150 trong khi số lượng dự đoán có thể p = 400. Kết quả là một biến liên tục.
Tôi muốn tìm những mô tả "quan trọng" nhất, tức là những mô tả tốt nhất để giải thích kết quả và giúp xây dựng một lý thuyết.
Sau khi nghiên cứu về chủ đề này, tôi thấy LASSO và Elastic Net thường được sử dụng cho trường hợp p lớn, n nhỏ. Một số dự đoán của tôi có mối tương quan cao và tôi muốn duy trì các nhóm của chúng trong đánh giá tầm quan trọng, do đó, tôi đã chọn cho Mạng đàn hồi . Tôi cho rằng tôi có thể sử dụng các giá trị tuyệt đối của các hệ số hồi quy làm thước đo tầm quan trọng (vui lòng sửa lại cho tôi nếu tôi sai; tập dữ liệu của tôi được chuẩn hóa).
Vấn đề:
Vì số lượng mẫu của tôi ít, làm thế nào tôi có thể đạt được một mô hình ổn định?
Cách tiếp cận hiện tại của tôi là tìm các tham số điều chỉnh tốt nhất (lambda và alpha) trong tìm kiếm dạng lưới trên 90% bộ dữ liệu với điểm xác nhận chéo trung bình 10 lần, điểm trung bình của MSE. Sau đó, tôi đào tạo mô hình với các tham số điều chỉnh tốt nhất trên toàn bộ 90% dữ liệu. Tôi có thể đánh giá mô hình của mình bằng R bình phương trên 10% của tập dữ liệu (chỉ chiếm 15 mẫu).
Chạy lặp lại quy trình này, tôi thấy một phương sai lớn trong các đánh giá bình phương R. Đồng thời, số lượng các yếu tố dự đoán khác không cũng như hệ số của chúng.
Làm cách nào tôi có thể có được đánh giá ổn định hơn về tầm quan trọng của người dự đoán và đánh giá ổn định hơn về hiệu suất mô hình cuối cùng?
Tôi có thể liên tục chạy quy trình của mình để tạo một số mô hình và sau đó hệ số hồi quy trung bình không? Hoặc tôi nên sử dụng số lần xuất hiện của một yếu tố dự đoán trong các mô hình làm điểm quan trọng của nó?
Hiện tại, tôi nhận được khoảng 40-50 người dự đoán khác không. Tôi có nên xử phạt số lượng người dự đoán khó hơn để ổn định hơn không?