Đây có thể là một câu hỏi ngớ ngẩn, nhưng khi tạo một mô hình bằng dấu mũ và sử dụng một cái gì đó giống LOOCV
hoặc (thậm chí nhiều hơn) LGOCV
, lợi ích của việc chia dữ liệu thành tập hợp và kiểm tra nếu đây thực chất là bước xác thực chéo không?
Tôi đã đọc một số câu hỏi liên quan và họ gợi ý rằng một số phương pháp xác thực chéo (ví dụ: những gì được mô tả ở đây tại trang web caret ) là dành cho mục đích lựa chọn tính năng . Nhưng trong trường hợp của tôi, tôi đang sử dụng randomForest
( method = "rf"
) và kernlab
( method = svmRadial
), không được liệt kê trong nhóm cố gắng thanh lọc những người dự đoán.
Vì vậy, câu hỏi của tôi là nếu tôi sử dụng một cái gì đó như cross_val <- trainControl(method = "LGOCV", p = 0.8)
, không giống như đào tạo 80% dữ liệu của tôi, thử nghiệm mô hình kết quả trên 20% còn lại và thực hiện nó nhiều lần để có ý tưởng về việc làm thế nào tốt Mô hình đang hoạt động?
Nếu vậy, có cần phải chia dữ liệu của tôi thành các bộ thử nghiệm / đào tạo không?
PS Tôi hỏi một phần khi tôi tiến hành các mô hình trên các nguyên mẫu DOE được tạo theo kinh nghiệm (nghĩ rằng hàng hóa cứng trong đó chúng tôi điều chỉnh đầu vào và sau đó sử dụng các phương pháp thử nghiệm để đo các thuộc tính khác nhau về nguyên mẫu).
Do đó, tôi không có một bộ dữ liệu khổng lồ với nhiều cấp độ dự đoán chồng chéo để mô hình hóa - chúng tôi thường chạy thử nghiệm tại mỗi điểm quan tâm của DOE vì việc tạo dữ liệu rất tốn kém trong trường hợp này. Vì vậy, tôi muốn sử dụng tất cả dữ liệu tôi có thể cho một mô hình chính xác, nhưng muốn kiểm tra ở đây rằng tôi không thiếu thứ gì đó rõ ràng và tạo ra một mô hình kém bằng cách không phân tách mọi thứ.
Chỉnh sửa: Để trả lời câu hỏi của @ topepo, tôi đang lập mô hình các thuộc tính được đo lường vật lý của một hợp chất dựa trên việc điều chỉnh các đầu vào hóa học của công thức. Tôi không thể thảo luận về ứng dụng thực tế của mình, nhưng tôi sẽ tạo ra một ví dụ dựa trên công thức sơn latex nội thất. Tôi đang chạy các thí nghiệm được thiết kế trong đó chúng tôi pha trộn 4-5 hóa chất, có thể chơi với% chất rắn và một lượng thời gian để làm nóng dung dịch polymer để điều chỉnh mức độ trùng hợp.
Sau đó chúng tôi có thể đo lưu biến, trọng lượng phân tử, độ cứng của lớp sơn, khả năng chống nước, v.v.
Chúng tôi có các bản sao tốt của một số biến, nhưng một vài bản sao thực sự theo nghĩa là mọi cấp độ DOE đều giống hệt nhau. Tổng số dữ liệu được đặt là ~ 80 quan sát và có thể 4-5 lần lặp lại chính xác. Chúng tôi đã tiến hành 15 thử nghiệm khác nhau và có lẽ 5-6 trong số chúng đã được thực hiện cho mỗi lần quan sát. Một số câu trả lời có mặt cho 25-50% dữ liệu.
Từ đây, chúng tôi muốn mô hình hóa các tác động của 7 yếu tố dự đoán của chúng tôi lên các thuộc tính đầu ra và sau đó tối ưu hóa để nhắm mục tiêu các không gian thiết kế mới có khả năng đưa ra các thuộc tính mong muốn.
(Do đó, câu hỏi của tôi TẠI ĐÂY . Một khi tôi có một mô hình được đào tạo, sẽ rất tuyệt nếu thực hiện "đảo ngược" và đưa ra các phản hồi mong muốn để có được dự đoán tốt nhất ở các mức đầu vào có thể để thử tiếp theo).
data_set1
, tôi sẽ xem xét bước nào được thực hiện bằng LGOCV
xác nhận chéo? Từ cách đọc của tôi, tôi giả sử 1) caret
lặp đi lặp lại thông qua điều chỉnh các tham số data_set1
và sau đó 2) giữ các tham số đó cố định và 3) tạo ra một "mô hình phụ" bằng cách sử dụng các tham số từ số 1 cho mỗi p = 0.8
mẫu data_set1
và kiểm tra dự đoán về 0,2 còn lại để đánh giá độ chính xác . Đó có phải là một bản tóm tắt hợp lý?