Tôi đã đọc qua các bài viết sau đây đã trả lời câu hỏi tôi sẽ hỏi:
Sử dụng mô hình Rừng ngẫu nhiên để đưa ra dự đoán từ dữ liệu cảm biến
Đây là những gì tôi đã làm cho đến nay: Tôi đã so sánh Hồi quy logistic với Rừng ngẫu nhiên và RF vượt trội hơn Logistic. Bây giờ các nhà nghiên cứu y tế mà tôi làm việc muốn biến kết quả RF của tôi thành một công cụ chẩn đoán y tế. Ví dụ:
Nếu bạn là một người đàn ông châu Á từ 25 đến 35 tuổi, có Vitamin D dưới xx và Huyết áp trên xx, bạn có 76% khả năng mắc bệnh xxx.
Tuy nhiên, RF không cho vay các phương trình toán học đơn giản (xem các liên kết ở trên). Vì vậy, đây là câu hỏi của tôi: tất cả các bạn có ý tưởng gì khi sử dụng RF để phát triển một công cụ chẩn đoán (mà không phải xuất hàng trăm cây).
Đây là một vài ý tưởng của tôi:
- Sử dụng RF để chọn biến, sau đó sử dụng Logistic (sử dụng tất cả các tương tác có thể) để tạo phương trình chẩn đoán.
- Bằng cách nào đó tổng hợp rừng RF thành một "cây khổng lồ", bằng cách nào đó trung bình nút chia tách giữa các cây.
- Tương tự như # 2 và # 1, sử dụng RF để chọn các biến (nói tổng m biến), sau đó xây dựng hàng trăm cây phân loại, tất cả đều sử dụng mọi biến m, sau đó chọn cây đơn tốt nhất.
Còn ý tưởng nào khác không? Ngoài ra, làm # 1 thì dễ, nhưng có ý tưởng nào về cách thực hiện # 2 và # 3 không?