Bạn nghĩ gì về việc áp dụng các kỹ thuật học máy, như Rừng ngẫu nhiên hoặc hồi quy bị phạt (với hình phạt L1 hoặc L2, hoặc kết hợp chúng) trong các nghiên cứu lâm sàng mẫu nhỏ khi mục tiêu là cô lập các dự đoán thú vị trong bối cảnh phân loại? Đây không phải là một câu hỏi về lựa chọn mô hình, tôi cũng không hỏi về cách tìm các ước tính tối ưu về hiệu ứng / tầm quan trọng của biến. Tôi không có kế hoạch thực hiện suy luận mạnh mẽ mà chỉ sử dụng mô hình đa biến, do đó tránh kiểm tra từng yếu tố dự đoán trước kết quả của mối quan tâm và xem xét mối quan hệ của chúng.
Tôi chỉ tự hỏi liệu một cách tiếp cận như vậy đã được áp dụng trong trường hợp cực đoan đặc biệt này, giả sử 20-30 đối tượng có dữ liệu trên 10-15 biến phân loại hoặc liên tục. Nó không phải là chính xác trường hợp và tôi nghĩ rằng vấn đề ở đây có liên quan đến số lượng các lớp học, chúng tôi cố gắng giải thích (mà thường không được cân), và (rất) nhỏ n. Tôi biết về tài liệu khổng lồ về chủ đề này trong bối cảnh tin sinh học, nhưng tôi không tìm thấy bất kỳ tài liệu tham khảo nào liên quan đến nghiên cứu y sinh với các kiểu hình đo tâm lý (ví dụ như trong các câu hỏi về tâm thần kinh).
Bất kỳ gợi ý hoặc con trỏ đến các giấy tờ có liên quan?
Cập nhật
Tôi sẵn sàng cho bất kỳ giải pháp nào khác để phân tích loại dữ liệu này, ví dụ thuật toán C4.5 hoặc các dẫn xuất của nó, phương pháp quy tắc kết hợp và bất kỳ kỹ thuật khai thác dữ liệu nào để phân loại được giám sát hoặc bán giám sát.