Tôi có một bộ dữ liệu x, y tôi đang sử dụng để xây dựng một khu rừng ngẫu nhiên. Dữ liệu x là một vectơ của các giá trị bao gồm một số NA. Vì vậy, tôi sử dụng rfImpute
để xử lý dữ liệu còn thiếu và tạo một khu rừng ngẫu nhiên. Bây giờ tôi có một quan sát vô hình mới x (với NA) và tôi muốn dự đoán y. Làm cách nào để xác định giá trị còn thiếu để tôi có thể sử dụng rừng ngẫu nhiên mà tôi đã trồng? Các rfImpute
chức năng dường như đòi hỏi x và y. Tôi chỉ có x cho mục đích dự đoán.
Câu hỏi của tôi tương tự (nhưng khác nhau) với câu hỏi này . Và ví dụ, tôi có thể sử dụng cùng một bộ dữ liệu iris. Nếu tôi đã giải thích chính xác mã trong câu trả lời cho câu hỏi tôi tham chiếu, mã iris.na[148, , drop=FALSE]
trong câu lệnh iris.na2 = rbind(iris.imputed, iris.na[148, , drop=FALSE])
biểu thị dữ liệu mới bao gồm Species
(giá trị Y). Trong vấn đề của tôi, tôi sẽ không biết rằng Species
tôi muốn sử dụng rừng ngẫu nhiên để dự đoán điều đó. Tôi sẽ có 4 biến độc lập, nhưng một số có thể NA
dành cho một hàng nhất định. Để tiếp tục tương tự, hãy tưởng tượng tôi có 3 trong số 4 biến (một biến bị thiếu). Tôi muốn áp đặt giá trị đó. Sau đó, tôi muốn dự đoán các loài mà tôi không biết.
Để đáp lại bình luận của gung rằng tôi nên thêm một minh họa, hãy để tôi đặt nó dưới dạng tập dữ liệu mống mắt. Hãy tưởng tượng tôi có dữ liệu sau đây về một bông hoa. Tôi biết đó là Sepal.Length
, Sepal.Width
, Petal.Length
, nhưng không phải Petal.Width
. Tôi muốn áp đặt Petal.Width
và sau đó sử dụng 4 giá trị đó trong mô hình RF để dự đoán Species
.