Tất cả các tài liệu Mô hình hóa phân bố loài cho thấy rằng khi dự đoán sự hiện diện / vắng mặt của một loài bằng cách sử dụng một mô hình đưa ra xác suất (ví dụ RandomForests), việc lựa chọn ngưỡng xác định theo đó thực sự phân loại một loài là sự hiện diện hay vắng mặt là quan trọng và người ta nên quan trọng không phải lúc nào cũng dựa vào mặc định là 0,5. Tôi cần giúp đỡ với điều này! Đây là mã của tôi:
library(randomForest)
library(PresenceAbsence)
#build model
RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500)
#eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted
RFpred <- predict(RFfit, mydata, type = "prob")
#put the observed vs. predicted in the same dataframe
ObsPred <- data.frame(cbind(mydata), Predicted=RFpred)
#create auc.roc plot
auc.roc.plot(ObsPred, threshold = 10, xlab="1-Specificity (false positives)",
ylab="Sensitivity (true positives)", main="ROC plot", color=TRUE,
find.auc=TRUE, opt.thresholds=TRUE, opt.methods=9)
Từ đó, tôi xác định rằng ngưỡng tôi muốn sử dụng để phân loại sự hiện diện từ các xác suất dự đoán là 0,7, không phải mặc định là 0,5. Tôi hoàn toàn không hiểu phải làm gì với thông tin này. Tôi có chỉ đơn giản sử dụng ngưỡng này khi tạo bản đồ đầu ra của mình không? Tôi có thể dễ dàng tạo ra một đầu ra được ánh xạ với xác suất liên tục sau đó chỉ cần phân loại lại những đầu ra có giá trị lớn hơn 0,7 như hiện tại và những đầu ra <0,7 không có.
Hoặc, tôi có muốn lấy thông tin này và chạy lại mô hình RandomForests của mình bằng cách sử dụng tham số giới hạn không? Chính xác thì tham số cut-off đang làm gì? Nó có thay đổi kết quả bỏ phiếu không? (hiện tại nói nó là "đa số"). Làm cách nào để sử dụng tham số giới hạn này? Tôi không hiểu tài liệu! Cảm ơn!