Làm thế nào để kết hợp kết quả hồi quy logistic và rừng ngẫu nhiên?


12

Tôi mới học máy. Tôi đã áp dụng hồi quy logistic và rừng ngẫu nhiên trên cùng một tập dữ liệu. Vì vậy, tôi nhận được tầm quan trọng khác nhau (hệ số tuyệt đối cho hồi quy logistic và tầm quan trọng của biến đối với rừng ngẫu nhiên). Tôi đang suy nghĩ để kết hợp cả hai để có được tầm quan trọng cuối cùng. Bất cứ ai có thể chia sẻ kinh nghiệm của mình? Tôi đã kiểm tra đóng bao, tăng cường, tạo mẫu đồng bộ, nhưng chúng không phải là thứ tôi cần. Chúng là nhiều hơn trong việc kết hợp thông tin cho cùng một mô hình trên các bản sao. Những gì tôi đang tìm kiếm là kết hợp kết quả của nhiều mô hình.


5
Mô hình tập hợp cũng có thể kết hợp các mô hình. Nhìn vào đa số bỏ phiếu chẳng hạn. Xem thêm, xếp chồng.
vỗ

4
Trên thực tế, sử dụng kích thước của các hệ số không phải là một cách tốt để xác định "tầm quan trọng thay đổi" trong hồi quy logistic. Ngay cả khi bạn nhìn vào các hệ số được tiêu chuẩn hóa, đó không phải là một phương pháp tốt. Tại sao? Hãy nhớ rằng các hệ số chỉ là ước tính và có lỗi liên quan đến chúng. Chọn các hệ số theo kích thước có nghĩa là bạn chọn các hệ số mà bạn ước tính quá mức kích thước hệ số và thả các hệ số mà bạn ước tính dưới kích thước hệ số.
dùng765195

Câu trả lời:


12

Nó có thể phụ thuộc vào những gì bạn muốn sử dụng biến quan trọng cho. Có phải nó được sử dụng làm tiêu chí lựa chọn tính năng cho mô hình phân loại thứ ba không? Trong trường hợp đó, bạn có thể cố gắng tính trung bình trọng số của các mức nhập biến (có thể sau khi bình thường hóa từng vectơ quan trọng của từng biến thành độ dài đơn vị) cho các giá trị khác nhau và trọng số trung bình và sau đó chọn giá trị mang lại điểm xác thực chéo tốt nhất cho trận chung kết mô hình.

Đối với việc kết hợp kết quả của mô hình hồi quy logistic và mô hình rừng ngẫu nhiên (không xem xét mức độ quan trọng của biến), bài đăng trên blog sau đây rất nhiều thông tin và chứng minh rằng một trung bình đầu ra duy nhất là một phương pháp tập hợp đơn giản nhưng rất hiệu quả cho mô hình hồi quy.


1
Cảm ơn bạn đã trả lời của bạn. Blog bạn đề cập là nghiên cứu thực sự thú vị. Tôi nghĩ rằng tôi đã có ý tưởng. Chỉ quan tâm là công thức entropy chéo của mình. Nó có vẻ khác với cái tôi tìm thấy trên mạng. Việc sử dụng của anh ấy: cross.entropy <- function (đích, dự đoán) {dự đoán = pmax (1e-10, pmin (1-1e-10, dự đoán)) - sum (mục tiêu * log (dự đoán) + (1 - mục tiêu) * log (1 - dự đoán))}
user1946504

2
và khi tôi áp dụng cùng một ý tưởng cho tập dữ liệu của riêng mình, tôi đã sử dụng lỗi phân loại sai làm tiêu chí, cốt truyện không có gì tương tự. Rừng ngẫu nhiên hóa ra tốt hơn nhiều so với hồi quy logistic. lỗi phân loại sai của RF là 0,2, đối với LR là 0,4. Đồng thời, AUC cho RF là 0,8, cho LR là 0,73.
dùng1946504

5

(Nhận xét về phản hồi và phản hồi ở trên)

Cảm ơn vì đã đọc blog này!

Hàm lỗi entropy chéo có một chút gian lận, cắt ngắn các giá trị dự đoán thành [1e-10, 1-1e-10] như một cách rẻ tiền và dễ dàng để ngăn lỗi trong các hàm nhật ký. Nếu không, đây là công thức tiêu chuẩn.

Đối với tập dữ liệu, rất có thể có các bộ dữ liệu trong đó một khu rừng ngẫu nhiên vượt trội hơn nhiều so với nhật ký. reg. và nhật ký. reg. không thêm gì vào đoàn. Tất nhiên, đảm bảo rằng bạn đang sử dụng dữ liệu giữ - một khu rừng ngẫu nhiên hầu như sẽ luôn có kết quả vượt trội trên dữ liệu đào tạo do có các tham số hiệu quả hơn nhiều.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.