Xu hướng và phương sai trong xác thực chéo một lần so với K-Fold


83

Làm thế nào để các phương pháp xác thực chéo khác nhau so sánh về phương sai và sai lệch mô hình?

Câu hỏi của tôi một phần được thúc đẩy bởi chủ đề này: Số lần tối ưu trong xác thực chéo -Fold: CV rời đi luôn là sự lựa chọn tốt nhất? K. Câu trả lời cho thấy rằng các mô hình được học với xác thực chéo một lần có độ sai lệch cao hơn so với các mô hình đã học với xác thực chéo Fold thông thường , khiến CV rời khỏi một lựa chọn tồi tệ hơn.K

Tuy nhiên, trực giác của tôi nói với tôi rằng trong CV rời rạc, người ta sẽ thấy sự khác biệt tương đối thấp hơn giữa các mô hình so với CV , vì chúng tôi chỉ thay đổi một điểm dữ liệu qua các nếp gấp và do đó, các tập huấn giữa các nếp gấp trùng nhau đáng kể.K

Hoặc đi theo một hướng khác, nếu thấp trong K- Fold CV, các bộ huấn luyện sẽ khá khác nhau giữa các nếp gấp và các mô hình kết quả có nhiều khả năng khác nhau (do đó phương sai cao hơn).KK

Nếu lập luận trên là đúng, tại sao các mô hình được học với CV rời khỏi có phương sai cao hơn?


2
Xin chào Amelio. Xin lưu ý rằng mô phỏng cung cấp trong câu trả lời mới bởi Xavier và Q cũ này bằng cách Jake Westfall stats.stackexchange.com/questions/280665 , cả hai chứng minh rằng phương sai giảm với . Điều này mâu thuẫn trực tiếp với câu trả lời hiện đang được chấp nhận và cũng là câu trả lời được đánh giá cao nhất (đã được chấp nhận trước đó). Tôi chưa thấy bất kỳ mô phỏng nào ở bất cứ nơi nào có thể hỗ trợ cho tuyên bố rằng phương sai tăng theo K và cao nhất đối với LOOCV. KK
amip

2
Cảm ơn @amoeba Tôi đang theo dõi tiến trình trên cả hai câu trả lời. Tôi chắc chắn sẽ làm hết sức mình để đảm bảo câu trả lời được chấp nhận chỉ ra câu trả lời hữu ích và đúng đắn nhất.
Amelio Vazquez-Reina

1
@amoeba thấy researchgate.net/profile/Francisco_Martinez-Murcia/publication/... whhich cho thấy sự gia tăng trong đúng k
Hanan Shteingart

Sẽ rất thú vị khi xem anh ta lấy biểu đồ đó từ đâu, thoạt nhìn vào luận án, có vẻ như nó được tạo ra để phù hợp với những giải thích của anh ta trong các phần giới thiệu. Có lẽ đó là một mô phỏng thực tế nhưng nó không được giải thích, và nó chắc chắn không phải là kết quả từ các thí nghiệm thực tế của anh ta thấp hơn ...
Xavier Bourret Sicotte

Câu trả lời:


51

Tại sao các mô hình được học với CV rời khỏi có phương sai cao hơn?

[TL: DR] Tóm tắt các bài đăng và tranh luận gần đây (tháng 7 năm 2018)

Chủ đề này đã được thảo luận rộng rãi cả trên trang web này, và trong các tài liệu khoa học, với những quan điểm, trực giác và kết luận mâu thuẫn. Trở lại vào năm 2013 khi câu hỏi này lần đầu tiên được hỏi, quan điểm chủ đạo là LOOCV dẫn đến sai lớn hơn của lỗi tổng quát dự kiến của một thuật toán huấn luyện sản xuất mô hình ra các mẫu kích thước .n(K1)/K

Tuy nhiên, quan điểm này dường như là một khái quát không chính xác của một trường hợp đặc biệt và tôi cho rằng câu trả lời đúng là: "nó phụ thuộc ..."

Paraphrasing Yves Grandvalet tác giả của một bài báo năm 2004 về chủ đề này tôi sẽ tóm tắt lập luận trực quan như sau:

  1. Nếu xác thực chéo là trung bình các ước tính độc lập : thì CV bỏ qua một lần sẽ thấy phương sai tương đối thấp hơn giữa các mô hình vì chúng ta chỉ thay đổi một điểm dữ liệu qua các nếp gấp và do đó các tập huấn giữa các nếp gấp chồng lên nhau.
  2. Điều này không đúng khi các tập huấn luyện có mối tương quan cao : Tương quan có thể tăng với K và mức tăng này chịu trách nhiệm cho sự gia tăng chung của phương sai trong kịch bản thứ hai. Theo trực giác, trong tình huống đó, CV rời rạc có thể bị mù với những bất ổn tồn tại, nhưng có thể không được kích hoạt bằng cách thay đổi một điểm duy nhất trong dữ liệu đào tạo, điều này làm cho nó rất khác với việc thực hiện tập huấn luyện.

Mô phỏng thử nghiệm từ bản thân tôi và những người khác trên trang web này, cũng như của các nhà nghiên cứu trong các bài báo được liên kết dưới đây sẽ cho bạn thấy rằng không có sự thật phổ quát nào về chủ đề này. Hầu hết các thí nghiệm đã đơn điệu giảm hoặc sai liên tục với , nhưng một số trường hợp đặc biệt cho thấy tăng không phù hợp với K .KK

Phần còn lại của câu trả lời này đề xuất một mô phỏng trên một ví dụ đồ chơi và đánh giá tài liệu không chính thức.

[Cập nhật] Bạn có thể tìm thấy ở đây một mô phỏng thay thế cho một mô hình không ổn định với sự hiện diện của các ngoại lệ.

Mô phỏng từ một ví dụ đồ chơi cho thấy phương sai giảm / không đổi

Hãy xem xét ví dụ đồ chơi sau đây trong đó chúng ta đang ghép một đa thức bậc 4 với một đường cong hình sin ồn ào. Chúng tôi hy vọng mô hình này có giá thấp cho các bộ dữ liệu nhỏ do quá nhiều, như được hiển thị bởi đường cong học tập.

nhập mô tả hình ảnh ở đây

Lưu ý rằng chúng tôi vẽ sơ đồ 1 - MSE ở đây để tái tạo hình minh họa từ trang ESLII 243

 Phương pháp luận

Bạn có thể tìm thấy mã cho mô phỏng này ở đây . Cách tiếp cận như sau:

  1. sin(x)+ϵϵ
  2. iN
  3. i
    • K
    • Lưu trữ lỗi bình phương trung bình (MSE) trên các nếp gấp K
  4. iiK
  5. K{5,...,N}

Ki

Phía bên tay trái : Kfold cho 200 điểm dữ liệu, Phía bên tay phải : Kfold cho 40 điểm dữ liệu

nhập mô tả hình ảnh ở đây

Độ lệch chuẩn của MSE (trên các tập dữ liệu i) so với Kfold

nhập mô tả hình ảnh ở đây

Từ mô phỏng này, có vẻ như:

  • N=40KK=10K
  • K5
  • N=200K

Một đánh giá tài liệu không chính thức

Ba bài báo sau đây điều tra sự sai lệch và phương sai của xác nhận chéo

Kohavi 1995

Bài viết này thường được coi là nguồn cho lập luận rằng LOOC có phương sai cao hơn. Trong phần 1:

Ví dụ, phần còn lại gần như không thiên vị, nhưng nó có phương sai cao, dẫn đến ước tính không đáng tin cậy (Efron 1983) "

Tuyên bố này là nguồn gốc của nhiều nhầm lẫn, bởi vì nó dường như là từ Efron vào năm 1983, không phải Kohavi. Cả hai lập luận lý thuyết và kết quả thực nghiệm của Kohavi đều đi ngược lại tuyên bố này:

Hệ quả 2 (Phương sai trong CV)

k

Thử nghiệm Trong thí nghiệm của mình, Kohavi so sánh hai thuật toán: cây quyết định C4.5 và phân loại Naive Bayes trên nhiều bộ dữ liệu từ kho lưu trữ UC Irvine. Kết quả của anh ta là dưới đây: LHS là độ chính xác so với nếp gấp (nghĩa là độ lệch) và RHS là độ lệch chuẩn so với nếp gấp

nhập mô tả hình ảnh ở đây

Trong thực tế, chỉ có cây quyết định trên ba tập dữ liệu rõ ràng có phương sai cao hơn để tăng K. Các kết quả khác cho thấy phương sai giảm hoặc không đổi.

Cuối cùng, mặc dù kết luận có thể được diễn đạt mạnh mẽ hơn, không có lập luận nào cho việc LOO có phương sai cao hơn, hoàn toàn ngược lại. Từ phần 6. Tóm tắt

"Xác thực chéo k lần với các giá trị k vừa phải (10-20) làm giảm phương sai ... Khi k giảm (2-5) và các mẫu trở nên nhỏ hơn, có sự khác biệt do sự không ổn định của chính bộ huấn luyện.

Trương và Dương

Các tác giả có một cái nhìn mạnh mẽ về chủ đề này và nêu rõ trong Phần 7.1

Trong thực tế, trong hồi quy tuyến tính bình phương tối thiểu, Burman (1989) cho thấy trong số các CV gấp k, khi ước tính lỗi dự đoán, LOO (tức là CV gấp n) có độ lệch và phương sai tiệm cận nhỏ nhất. ...

... Sau đó, một tính toán lý thuyết ( Lu , 2007) cho thấy LOO có độ lệch và phương sai nhỏ nhất cùng một lúc trong số tất cả các CV xóa-n với tất cả các xóa n_v có thể được xem xét

Kết quả thí nghiệm Tương tự, các thí nghiệm của Zhang chỉ theo hướng giảm phương sai với K, như hình dưới đây cho mô hình True và mô hình sai cho Hình 3 và Hình 5.

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

K

Tuy nhiên, nếu lựa chọn mô hình có liên quan, hiệu suất của LOO sẽ giảm đi do tính không chắc chắn của lựa chọn mô hình sẽ cao hơn do không gian mô hình lớn, hệ số hình phạt nhỏ và / hoặc sử dụng các hệ số hình phạt dựa trên dữ liệu


11
KK

4
@amoeba đây là trường hợp LOOCV thất bại: xem xét n điểm dữ liệu và đa thức nội suy bậc n. Bây giờ nhân đôi số điểm dữ liệu bằng cách thêm một quyền trùng lặp vào mỗi điểm hiện có. LOOCV nói rằng lỗi bằng không. Bạn cần phải hạ các nếp gấp để có được bất kỳ thông tin hữu ích.
Paul

2
Đối với những người quan tâm đến cuộc thảo luận này - hãy tiếp tục trò chuyện: chat.stackexchange.com/rooms/80281/ mẹo
Xavier Bourret Sicotte

1
kfoldk=10

1
@amoeba: lại Kohavi / LOO và phương sai. Tôi thấy rằng LOO cho một số mô hình phân loại có thể không ổn định (đáng ngạc nhiên). Điều này đặc biệt được phát âm ở cỡ mẫu nhỏ, và tôi nghĩ rằng nó có liên quan đến trường hợp thử nghiệm luôn thuộc về lớp được viết thiếu. toàn bộ mẫu: trong phân loại nhị phân phân tầng rời ra 2 dường như không có vấn đề này (nhưng tôi đã không kiểm tra rộng rãi). Sự không ổn định này sẽ thêm vào phương sai quan sát được, làm cho LOO thoát khỏi các lựa chọn khác của k. IIRC, điều này phù hợp với những phát hiện của Kohavi.
cbeleites

45

kkSSiSSiSi

k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

k

Tuy nhiên, lưu ý rằng mặc dù xác thực chéo hai lần không có vấn đề về các bộ huấn luyện chồng chéo, nhưng nó cũng thường có phương sai lớn vì các bộ huấn luyện chỉ bằng một nửa kích thước của mẫu ban đầu. Một thỏa hiệp tốt là xác nhận chéo mười lần.

Một số bài viết thú vị liên quan đến chủ đề này (trong số nhiều bài khác):


5
+1 (từ lâu rồi), nhưng đọc lại câu trả lời của bạn bây giờ, tôi bối rối bởi bit sau. Bạn nói rằng CV 2 lần "thường cũng có phương sai lớn vì các bộ huấn luyện chỉ bằng một nửa". Tôi hiểu rằng việc tập luyện nhỏ hơn hai lần là một vấn đề, nhưng tại sao nó lại tạo ra "phương sai lớn"? Thay vào đó không phải là "thiên vị lớn" sao? Sau đó, toàn bộ vấn đề chọn số lượng nếp gấp trở thành sự đánh đổi sai lệch, đó là cách nó thường được trình bày.
amip

1
k

3
Chỉ nhìn vào một số tài liệu. Thật thú vị, Giới thiệu về Học tập thống kê James, Witten, Hastie & Tibshirani nói LOOCV "rất khác nhau, vì nó dựa trên một quan sát duy nhất (x1, y1)." và trong các yếu tố của học thống kê Hastie & Tibshirani & Friedman nói rằng LOOCV "có thể có phương sai cao vì các bộ đào tạo N rất giống nhau."

2
var[Σxi/n]ΣΣcov(xi,xj)/n2

3
Không, đó không thực sự là "toàn bộ điểm". Mọi người sử dụng CV gấp để có được ước tính toàn cầu mọi lúc. Bạn chắc chắn có thể thử sử dụng các ước tính nhiều lần theo các cách khác, nhưng đặt chúng cùng nhau là một trong những cách phổ biến nhất để ước tính hiệu suất giữ của một kỹ thuật mô hình. Và đó chính xác là những gì Eq 7.48 của ESL đang làm.
Paul

27

K

Tôi nghĩ rằng trực giác của bạn là hợp lý nếu bạn đang suy nghĩ về các dự đoán được thực hiện bởi các mô hình trên mỗi lần rời khỏi một lần. Chúng dựa trên dữ liệu tương quan / rất giống nhau (bộ dữ liệu đầy đủ trừ đi một điểm dữ liệu) và do đó sẽ đưa ra dự đoán tương tự - tức là độ biến thiên thấp.

Tuy nhiên, nguồn gốc của sự nhầm lẫn là khi mọi người nói về LOOCV dẫn đến tính biến đổi cao, họ không nói về những dự đoán được đưa ra bởi nhiều mô hình được xây dựng trong vòng xác thực chéo đó trên các bộ giữ. Thay vào đó, họ đang nói về mức độ biến đổi của mô hình được chọn cuối cùng của bạn (mô hình được chọn qua LOOCV) sẽ có bao nhiêu nếu bạn huấn luyện mô hình / tham số chính xác đó trên các tập huấn luyện mới - tập huấn luyện mà mô hình của bạn chưa từng thấy trước đây. Trong trường hợp này, tính biến thiên sẽ cao.

Tại sao độ biến thiên sẽ cao? Hãy đơn giản hóa điều này một chút. Hãy tưởng tượng rằng thay vì sử dụng LOOCV để chọn một mô hình, bạn chỉ có một bộ huấn luyện và sau đó bạn đã thử nghiệm một mô hình được xây dựng bằng dữ liệu đào tạo đó, giả sử, 100 lần trên 100 điểm dữ liệu thử nghiệm (điểm dữ liệu không phải là một phần của tập huấn luyện) . Nếu bạn chọn mô hình và bộ tham số thực hiện tốt nhất trong 100 thử nghiệm đó, thì bạn sẽ chọn một mô hình cho phép tập huấn luyện cụ thể này thực sự tốt trong việc dự đoán dữ liệu thử nghiệm. Bạn có khả năng có thể chọn một mô hình nắm bắt 100% các liên kết giữa tập dữ liệu đào tạo cụ thể đó và dữ liệu nắm giữ. Thật không may, một số liên kết giữa các tập dữ liệu kiểm tra và kiểm tra sẽ là liên kết nhiễu hoặc giả vì mặc dù bộ kiểm tra thay đổi và bạn có thể xác định nhiễu ở bên này, tập dữ liệu huấn luyện không và bạn không thể xác định phương sai được giải thích là do nhiễu. Nói cách khác, điều này có nghĩa là điều đó phù hợp với dự đoán của bạn đối với tập dữ liệu đào tạo cụ thể này.

Bây giờ, nếu bạn đào tạo lại mô hình này với cùng một tham số nhiều lần trên các tập huấn luyện mới, điều gì sẽ xảy ra? Chà, một mô hình phù hợp với một tập hợp dữ liệu đào tạo cụ thể sẽ dẫn đến sự thay đổi trong dự đoán của nó khi tập huấn thay đổi (nghĩa là thay đổi tập huấn luyện một chút và mô hình sẽ thay đổi đáng kể dự đoán của nó).

Bởi vì tất cả các nếp gấp trong LOOCV có mối tương quan cao, nó tương tự như trường hợp trên (cùng một tập huấn luyện; các điểm kiểm tra khác nhau). Nói cách khác, nếu tập huấn luyện cụ thể đó có một số tương quan giả với các điểm kiểm tra đó, thì mô hình của bạn sẽ gặp khó khăn trong việc xác định mối tương quan nào là thực và giả, bởi vì mặc dù tập kiểm tra thay đổi, tập huấn luyện không thay đổi.

Ngược lại, các nếp gấp đào tạo ít tương quan có nghĩa là mô hình sẽ phù hợp với nhiều bộ dữ liệu duy nhất. Vì vậy, trong tình huống này, nếu bạn giữ lại mô hình trên một tập dữ liệu mới khác, nó sẽ dẫn đến một dự đoán tương tự (nghĩa là biến thiên nhỏ).


4
Tôi nghĩ rằng câu trả lời này làm rõ hơn rất nhiều so với câu trả lời được chấp nhận và đặc biệt giải thích câu trả lời được chấp nhận.
D1X

Bạn có ý gì khi> "Bây giờ, nếu bạn đào tạo lại mô hình này với cùng một tham số nhiều lần trên các tập huấn luyện mới, điều gì sẽ xảy ra?". Đào tạo có nghĩa là tìm các thông số, phải không? ý của bạn là nói siêu âm?
MiloMinderbinder

14

Mặc dù câu hỏi này khá cũ, tôi muốn thêm một câu trả lời vì tôi nghĩ rằng nó đáng để làm rõ điều này hơn một chút.

Câu hỏi của tôi một phần được thúc đẩy bởi chủ đề này: Số lần tối ưu trong xác thực chéo K-gấp: CV rời đi luôn là sự lựa chọn tốt nhất? . Câu trả lời cho thấy rằng các mô hình đã học với xác thực chéo một lần có độ sai lệch cao hơn so với các mô hình đã học với xác thực chéo K-thường xuyên, khiến CV rời khỏi một lựa chọn tồi tệ hơn.

Câu trả lời đó không gợi ý điều đó, và nó không nên. Hãy xem lại câu trả lời được cung cấp ở đó:

Xác thực chéo một lần thường không dẫn đến hiệu suất tốt hơn so với K-Fold và có nhiều khả năng tệ hơn, vì nó có phương sai tương đối cao (nghĩa là giá trị của nó thay đổi nhiều hơn đối với các mẫu dữ liệu khác nhau so với giá trị cho xác nhận chéo k-gấp).

Đó là nói về hiệu suất . Ở đây hiệu suất phải được hiểu là hiệu suất của công cụ ước tính lỗi mô hình . Những gì bạn đang ước tính với k-Fold hoặc LOOCV là hiệu suất của mô hình, cả khi sử dụng các kỹ thuật này để chọn mô hình và để tự cung cấp ước tính lỗi. Đây KHÔNG phải là phương sai của mô hình, nó là phương sai của công cụ ước tính lỗi (của mô hình). Xem ví dụ (*) dưới đây.

Tuy nhiên, trực giác của tôi nói với tôi rằng trong CV rời rạc, người ta sẽ thấy sự khác biệt tương đối thấp hơn giữa các mô hình so với CV gấp, vì chúng ta chỉ thay đổi một điểm dữ liệu qua các nếp gấp và do đó các tập huấn giữa các nếp gấp trùng nhau.

n2n

Chính xác là phương sai thấp hơn và tương quan cao hơn giữa các mô hình làm cho công cụ ước tính mà tôi nói ở trên có nhiều phương sai hơn, bởi vì công cụ ước tính đó là giá trị trung bình của các đại lượng tương quan này và phương sai của dữ liệu tương quan cao hơn dữ liệu không tương quan . Ở đây nó được chỉ ra tại sao: phương sai của giá trị trung bình của dữ liệu tương quan và không tương quan .

Hoặc đi theo hướng khác, nếu K thấp trong K-Fold CV, các bộ huấn luyện sẽ khá khác nhau giữa các nếp gấp và các mô hình kết quả có nhiều khả năng khác nhau (do đó phương sai cao hơn).

Thật.

Nếu lập luận trên là đúng, tại sao các mô hình được học với CV rời khỏi có phương sai cao hơn?

Lập luận trên là đúng. Bây giờ, câu hỏi là sai. Phương sai của mô hình là một chủ đề hoàn toàn khác. Có một phương sai trong đó có một biến ngẫu nhiên. Trong học máy bạn xử lý rất nhiều biến ngẫu nhiên, đặc biệt và không giới hạn ở: mỗi quan sát là một biến ngẫu nhiên; mẫu là một biến ngẫu nhiên; mô hình, vì nó được đào tạo từ một biến ngẫu nhiên, là một biến ngẫu nhiên; công cụ ước tính lỗi mà mô hình của bạn sẽ tạo ra khi đối mặt với dân số là một biến ngẫu nhiên; và cuối cùng nhưng không kém phần quan trọng, lỗi của mô hình là một biến ngẫu nhiên, vì có khả năng có tiếng ồn trong dân số (đây được gọi là lỗi không thể khắc phục). Cũng có thể có nhiều tính ngẫu nhiên hơn nếu có sự ngẫu nhiên liên quan đến quá trình học tập mô hình. Điều quan trọng nhất là phân biệt giữa tất cả các biến này.


errerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<nerr=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

Cái cuối cùng, mặc dù nó có nhiều sai lệch hơn, nên được ưu tiên hơn, vì nó có ít phương sai hơn và sai lệch chấp nhận được , nghĩa là một sự thỏa hiệp (đánh đổi phương sai ). Xin lưu ý rằng bạn không muốn phương sai rất thấp nếu điều đó đòi hỏi một sự thiên vị cao!


Lưu ý thêm : Trong câu trả lời này, tôi cố gắng làm rõ (những gì tôi nghĩ là) những quan niệm sai lầm xung quanh chủ đề này và đặc biệt, cố gắng trả lời từng điểm và chính xác những nghi ngờ của người hỏi. Cụ thể, tôi cố gắng làm rõ phương sai mà chúng ta đang nói đến , đó là những gì chủ yếu được hỏi ở đây. Tức là tôi giải thích câu trả lời được liên kết bởi OP.

Điều đó đang được nói, trong khi tôi cung cấp lý do lý thuyết đằng sau yêu cầu, chúng tôi chưa tìm thấy bằng chứng thực nghiệm thuyết phục nào hỗ trợ nó. Vì vậy, hãy rất cẩn thận.

Tốt nhất, bạn nên đọc bài đăng này trước và sau đó tham khảo câu trả lời của Xavier Bourret Sicotte, nơi cung cấp một cuộc thảo luận sâu sắc về các khía cạnh thực nghiệm.

kkfoldk10 × 10fold


2
KK

3
kN

KK=10K=N

1
Chưa nhìn vào những tờ giấy đó, tôi sẽ xem chúng khi có thời gian. Tuy nhiên, các mô hình tuyến tính OLS là các mô hình rất đơn giản, thực sự có thể có phương sai thấp. Không chỉ vậy, họ có các công thức đóng để xác thực chéo.
D1X

1
+1 các chỉnh sửa của bạn làm cho câu trả lời rõ ràng hơn nhiều - chúng tôi được căn chỉnh về tác động của mối tương quan giữa các bộ đào tạo -> phương sai cao hơn. Trong thực tế (thực tế) có vẻ như các bộ huấn luyện không phải lúc nào cũng tương quan với nhau.
Xavier Bourret Sicotte

12

Các vấn đề thực sự tinh tế. Nhưng điều chắc chắn là không đúng khi nói chung LOOCV có phương sai lớn hơn. Một bài báo gần đây thảo luận về một số khía cạnh chính và giải quyết một số quan niệm sai lầm dường như phổ biến về xác nhận chéo.

Yongli Zhang và Yuhong Yang (2015). Xác nhận chéo để chọn một quy trình lựa chọn mô hình. Tạp chí Kinh tế lượng, tập. 187, 95-112.

Những quan niệm sai lầm sau đây thường thấy trong các tài liệu, thậm chí cho đến nay:

"CV rời khỏi một lần (LOO) có độ lệch nhỏ hơn nhưng phương sai lớn hơn CV rời"

Quan điểm này khá phổ biến. Chẳng hạn, Kohavi (1995, Phần 1) tuyên bố: "Ví dụ, nghỉ phép gần như không thiên vị, nhưng nó có phương sai cao, dẫn đến ước tính không đáng tin cậy". Tuyên bố, tuy nhiên, nói chung là không đúng sự thật.

Chi tiết hơn:

Trong các tài liệu, thậm chí bao gồm các ấn phẩm gần đây, có những khuyến nghị quá mức. Đề xuất chung của Kohavi (1995) về việc sử dụng CV 10 lần đã được chấp nhận rộng rãi. Chẳng hạn, Krstajic et al (2014, trang 11) nêu rõ: 93 Kohavi [6] và Hastie et al [4] về mặt thực nghiệm cho thấy việc xác thực chéo V so với xác thực chéo một lần có độ sai lệch thấp hơn. Do đó, họ đưa ra khuyến nghị của CV 10 lần (với sự lặp lại) cho tất cả các cuộc điều tra số của họ. Theo quan điểm của chúng tôi, một thực tế như vậy có thể gây hiểu nhầm. Đầu tiên, không nên có bất kỳ khuyến nghị chung nào không tính đến mục tiêu sử dụng CV. Đặc biệt, kiểm tra sai lệch và phương sai của ước tính độ chính xác CV của mô hình ứng viên / quy trình mô hình hóa có thể là một vấn đề rất khác so với lựa chọn mô hình tối ưu (với một trong hai mục tiêu lựa chọn mô hình đã nêu trước đó). Thứ hai, thậm chí giới hạn trong bối cảnh ước tính chính xác, tuyên bố nói chung là không chính xác. Đối với các mô hình / quy trình mô hình hóa có độ không ổn định thấp, LOO thường có độ biến thiên nhỏ nhất. Chúng tôi cũng đã chứng minh rằng đối với các quy trình không ổn định cao (ví dụ: LASSO với pn lớn hơn n), CV 10 lần hoặc 5 lần, trong khi giảm độ biến thiên, có thể có MSE lớn hơn đáng kể so với LOO do mức tăng sai lệch thậm chí còn tồi tệ hơn. Đối với các mô hình / quy trình mô hình hóa có độ không ổn định thấp, LOO thường có độ biến thiên nhỏ nhất. Chúng tôi cũng đã chứng minh rằng đối với các quy trình không ổn định cao (ví dụ: LASSO với pn lớn hơn n), CV 10 lần hoặc 5 lần, trong khi giảm độ biến thiên, có thể có MSE lớn hơn đáng kể so với LOO do mức tăng sai lệch thậm chí còn tồi tệ hơn. Đối với các mô hình / quy trình mô hình hóa có độ không ổn định thấp, LOO thường có độ biến thiên nhỏ nhất. Chúng tôi cũng đã chứng minh rằng đối với các quy trình không ổn định cao (ví dụ: LASSO với pn lớn hơn n), CV 10 lần hoặc 5 lần, trong khi giảm độ biến thiên, có thể có MSE lớn hơn đáng kể so với LOO do mức tăng sai lệch thậm chí còn tồi tệ hơn.

Nhìn chung, từ Hình 3-4, LOO và CV lặp lại 50 và 20 lần là tốt nhất ở đây, 10 lần là tồi tệ hơn đáng kể và k ≤ 5 rõ ràng là kém. Để ước tính hiệu suất dự đoán, chúng tôi có xu hướng tin rằng LOO thường là tốt nhất hoặc trong số tốt nhất cho mô hình cố định hoặc quy trình mô hình rất ổn định (như BIC trong ngữ cảnh của chúng tôi) về cả sai lệch và phương sai, hoặc khá gần với tốt nhất trong MSE cho một quy trình không ổn định hơn (như AIC hoặc thậm chí LASSO với p ≫ n). Mặc dù CV gấp 10 lần (có sự lặp lại) đôi khi chắc chắn có thể là tốt nhất, nhưng thường xuyên hơn, nó ở một vị trí khó xử: nó nguy hiểm hơn LOO (do vấn đề sai lệch) đối với ước tính lỗi dự đoán và thường tệ hơn xóa -n / 2 CV để xác định ứng cử viên tốt nhất.


4
Có thể mở rộng câu trả lời này một chút, có lẽ để tóm tắt một số khía cạnh chính được nêu trong bài báo?
Cá bạc

3
Giấy rất thú vị. Khi xem xét Kohavi (1995) tôi cảm thấy rằng nhiều tuyên bố là vô cùng rộng và phần lớn không có căn cứ. Đó là một bài báo về trí tuệ dân gian mà việc thẩm vấn quan trọng đã quá hạn.
Paul

3

Trước khi thảo luận về sai lệch và phương sai, câu hỏi đầu tiên là:

Những gì được ước tính bằng xác nhận chéo?

Kn(K1)/KKK

K

K

K


4
K

0

Tôi nghĩ rằng có một câu trả lời đơn giản hơn. Nếu bạn tăng k, các bộ kiểm tra sẽ ngày càng nhỏ hơn. Vì các nếp gấp được lấy mẫu ngẫu nhiên, nó có thể xảy ra với các bộ thử nghiệm nhỏ, nhưng không thể xảy ra với các nếp gấp lớn hơn, chúng không phải là đại diện của một sự xáo trộn ngẫu nhiên. Một bộ kiểm tra có thể chứa tất cả các bản ghi khó dự đoán và một bộ khác là những bản dễ. Do đó, phương sai rất cao khi bạn dự đoán các bộ kiểm tra rất nhỏ mỗi lần.


Xi

4
có vẻ như bạn đang nói về sự thay đổi trong các dự đoán mô hình trên các tập hợp nắm giữ trong quá trình xác nhận chéo. Tôi không nghĩ rằng điều này được quan tâm nhiều. Điều gì là quan tâm là liệu mô hình điều chỉnh cuối cùng của bạn sẽ thay đổi nhiều trong những dự đoán nó làm cho nó là được đào tạo về dữ liệu khác nhau (ví dụ, dự toán mô hình của bạn thật là thực sự biến tùy thuộc vào tập huấn luyện)
captain_ahab

Và làm thế nào bạn có thể ước tính biến thể dự kiến ​​trên dữ liệu chưa được phát hiện nếu không thông qua biến thể được quan sát giữa các bộ dữ liệu được dự đoán liên tiếp vào thời điểm đó chưa biết? Tôi nhận được quan điểm của bạn, mặc dù tính biến đổi bắt nguồn từ thiết lập thử nghiệm không đáng quan tâm. Phản hồi của tôi: Do đó, người ta cần chọn một thiết lập thử nghiệm không đưa ra các loại biến đổi mới. Nếu một người làm như vậy, hai loại biến thiên không thể được phân tách và việc ước tính độ mở rộng của một loại đáng quan tâm trở nên khó khăn hơn.
David Ernst

1
bạn có thể hiển thị điều này với các mô phỏng (Tôi sẽ tìm một bài báo). Tôi không chắc liệu chúng ta có nói chuyện với nhau không - nhưng khi hastie và mọi người đang nói về mối tương quan cao giữa các tập huấn luyện trong LOOCV, họ nhấn mạnh rằng về cơ bản bạn tiếp tục đào tạo mô hình của mình trên cùng một tập dữ liệu đào tạo. Điều đó dẫn đến việc quá mức cho tập dữ liệu đào tạo đó. thay đổi tập dữ liệu huấn luyện, bạn mô hình dự đoán cho ví dụ thử nghiệm X sẽ thay đổi rất nhiều. ngược lại nếu bạn đào tạo bộ được ít tương quan, bạn có thể sử dụng một tập huấn luyện hoàn toàn mới và bạn sẽ nhận được một dự đoán tương tự cho kiểm tra ví dụ X.
captain_ahab

Tôi nghĩ có hai vấn đề riêng biệt liên quan. Tăng k dẫn đến sự chồng chéo nhiều hơn giữa các tập huấn luyện có hậu quả mà bạn đề cập. (Tôi không tranh cãi với bất kỳ vấn đề nào) Đồng thời, việc tăng k dẫn đến các bộ kiểm tra nhỏ hơn trên mỗi lần, điều đó có nghĩa là các hồ sơ có nhiều khả năng bị xáo trộn theo những cách không mong muốn trong các bộ đó. Tôi nghĩ rằng đối với câu hỏi cụ thể được hỏi, đây là lý do chính. Có thể có sự đóng góp từ tập hợp chồng chéo là tốt. (Có vấn đề thứ ba khi bạn sử dụng các lần lặp lại vì sau đó các bộ kiểm tra cũng trùng lặp.)
David Ernst
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.