Caret - Xác thực chéo K-lần lặp lại so với xác thực chéo K-gấp, lặp lại n lần


16

Các caret gói là một thư viện R rực rỡ cho việc xây dựng nhiều mô hình học máy, và có một số chức năng để xây dựng và đánh giá mô hình. Để điều chỉnh tham số và đào tạo mô hình, gói caret cung cấp 'repeatcv' là một trong những phương pháp.

Như một cách thực hành tốt, điều chỉnh tham số có thể được thực hiện bằng cách sử dụng xác thực chéo K-Fold lồng nhau, hoạt động như sau:

  1. Phân vùng tập huấn thành tập con 'K'
  2. Trong mỗi lần lặp, hãy lấy các tập con 'K trừ 1' để đào tạo mô hình và giữ 1 tập hợp con (tập giữ) để kiểm tra mô hình.
  3. Tiếp tục phân vùng tập huấn 'K trừ 1' thành tập con 'K' và lặp lại sử dụng tập hợp con 'K trừ 1' mới và 'tập xác thực' để điều chỉnh tham số (tìm kiếm lưới). Tham số tốt nhất được xác định trong bước này được sử dụng để kiểm tra trên bộ giữ ở bước 2.

Mặt khác, tôi giả sử, việc xác thực chéo K-lần lặp lại có thể lặp lại bước 1 và 2 lặp đi lặp lại như nhiều lần chúng ta chọn để tìm phương sai mô hình.

Tuy nhiên, xem qua thuật toán trong hướng dẫn sử dụng, có vẻ như phương thức 'repeatcv' cũng có thể thực hiện xác nhận chéo K-lồng lồng nhau, ngoài việc lặp lại xác thực chéo.

thuật toán đào tạo caret https://topepo.github.io/caret/training.html

Câu hỏi của tôi là:

  1. Là cách nói của tôi về phương pháp 'repeatcv' của caret có đúng không?
  2. Nếu không, bạn có thể vui lòng cho một ví dụ về việc sử dụng xác thực chéo K-Fold lồng nhau, với phương thức 'repeatcv' bằng cách sử dụng gói caret không?

Biên tập:

Các chiến lược xác nhận chéo khác nhau được giải thích và so sánh trong bài viết phương pháp này.

Krstajic D, Buturovic LJ, Leahy DE và Thomas S : Cạm bẫy xác thực chéo khi lựa chọn và đánh giá mô hình hồi quy và phân loại . Tạp chí Cheminformatics 2014 6 (1): 10. doi: 10.1186 / 1758-2946-6-10

Tôi quan tâm đến Thuật toán 2: phân tầng lặp lại lồng ghép xác thực chéoThuật toán 3: lặp lại xác thực chéo tìm kiếm lưới để lựa chọn biến và điều chỉnh tham số bằng cách sử dụng gói caret.

Câu trả lời:


2

Không có gì sai với thuật toán (lồng nhau) được trình bày, và trên thực tế, nó có thể sẽ hoạt động tốt với độ mạnh mẽ tốt cho vấn đề sai lệch sai lệch trên các tập dữ liệu khác nhau. Tuy nhiên, bạn chưa bao giờ nói rằng người đọc nên cho rằng các tính năng bạn đang sử dụng là "tối ưu" nhất, vì vậy nếu không biết, có một số vấn đề lựa chọn tính năng trước tiên phải được giải quyết.

ĐẶC ĐIỂM / LỰA CHỌN PARAMETER

Một cách tiếp cận ít thiên vị hơn là không bao giờ để bộ phân loại / mô hình đến gần với bất cứ thứ gì liên quan từ xa đến lựa chọn tham số / tính năng, vì bạn không muốn con cáo (bộ phân loại, mô hình) là người bảo vệ gà (tính năng, tham số). Phương pháp lựa chọn tính năng (tham số) của bạn là một - trong đó lựa chọn tính năng được gói bên trong việc học lặp được thực hiện bởi trình phân loại / mô hình. Ngược lại, tôi luôn sử dụng tính năng sử dụng một phương thức khác xa với trình phân loại / mô hình, như một nỗ lực để giảm thiểu sai lệch lựa chọn tính năng (tham số). Tra cứu gói so với lọc và lựa chọn thiên vị trong quá trình lựa chọn tính năng (GJ McLachlan).wrmộtpperfTôitôiter

D1D2n= =50π= =0,1n,0,2n,0,3n,0,4n,0,5n

TỐI ƯU / TỐI THIỂU

y= =f(x1,x2,Giáo dục,xj)yđược thu nhỏ liên tục. Đưa ra điều này và đưa ra nhu cầu giảm thiểu sai lệch trong dự đoán của bạn (sai lệch lựa chọn, sai lệch sai lệch, rò rỉ thông tin từ các đối tượng thử nghiệm vào các đối tượng đào tạo, v.v.) bạn có thể xem xét sử dụng CV trong khi sử dụng các phương pháp tình báo bầy đàn, như tối ưu hóa dòng hạt (PSO), tối ưu hóa đàn kiến, v.v. PSO (xem Kennedy & Eberhart, 1995) thêm các tham số để trao đổi thông tin văn hóa và xã hội giữa các hạt khi chúng bay qua không gian tham số trong quá trình học. Khi bạn đã quen thuộc với các phương pháp thông minh bầy đàn, bạn sẽ thấy rằng bạn có thể vượt qua rất nhiều sai lệch trong việc xác định tham số. Cuối cùng, tôi không biết liệu có một cách tiếp cận rừng ngẫu nhiên (RF, xem Breiman, Tạp chí Máy học) để tính gần đúng chức năng, nhưng nếu có,

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.