Một lần xác nhận chéo là gì, hoặc cụm từ này không có ý nghĩa?


9

Tôi hiểu khái niệm xác thực chéo k-Fold , nhưng tôi không hiểu "gấp" nghĩa là gì. Trích dẫn từ trang được liên kết trên wikipedia:

Quá trình xác nhận chéo sau đó được lặp lại k lần (các lần)

Điều này có vẻ rất mơ hồ. Liệu "nếp gấp" có đề cập đến mỗi lần lặp lại của quy trình không? Hoặc nó là một danh từ để chỉ bộ dữ liệu thử nghiệm đào tạo được ghép nối?


2
Tôi thú nhận rằng tôi thậm chí không biết xác thực chéo là gì, nhưng đây không phải là ý nghĩa tiếng Anh thông thường của " Fold" có nghĩa là " lần", như trong "Đã có sự gia tăng bạo lực gấp bốn lần tội phạm kể từ khi hợp pháp hóa vũ khí hạt nhân cầm tay. " kk
David Richerby

Đó là một điểm rất tốt. Tuy nhiên, như bạn có thể thấy trong câu trả lời, các nếp gấp có thể được sử dụng để tham chiếu đến dữ liệu.
Alex

Vâng, mặc dù điều đó nghe có vẻ khủng khiếp giống như một sự hiểu lầm của một người không phải người bản xứ bị mắc kẹt.
David Richerby

Câu trả lời:


10

Các từ ngữ chắc chắn là khó xử ở đó.

Hãy nhớ lại rằng phân vùng xác thực chéo một tập dữ liệu thành "bộ dữ liệu con" gần bằng nhau. Mỗi một trong những "bộ dữ liệu phụ" này được gọi là "nếp gấp". Xác thực chéo Fold yêu cầu điều chỉnh lại mô hình lần, bỏ qua chính xác một lần từ dữ liệu mỗi lần, do đó, thuật ngữ "gấp" cũng có thể được sử dụng để chỉ mỗi lần lặp lại.KKK

Vì có sự tương ứng một-một giữa các nếp gấp và lặp lại, nên thường không có vấn đề gì với thuật ngữ lỏng lẻo này. Nó thường rõ ràng từ bối cảnh sử dụng được dự định và những lần khác nó không tạo ra sự khác biệt.


Đúng vậy, do đó, cách giải thích này làm cho mỗi bài kiểm tra rời rạc đặt một 'nếp gấp'. Do đó, dữ liệu đào tạo có thể được gọi là "dữ liệu không trong màn hình đầu tiên". Bạn có một tài liệu tham khảo cho điều này?
Alex

1
Và vâng, "hết hạn" là một thuật ngữ hợp lệ
Shadowtalker

2
Các mô hình đôi khi được gọi là mô hình thay thế, tham chiếu, ví dụ Braga-Neto UM, Dougherty ER.: Xác thực chéo có hợp lệ để phân loại microarray mẫu nhỏ không? Tin sinh học. 2004 12 tháng 2; 20 (3): 374-80. dx.doi.org/10.1093/bioinformatics/btg419 . "nếp gấp" thường được sử dụng để phân biệt "chạy" (lặp lại / lặp lại) của xác thực chéo (một lần chạy sau đó bao gồm nếp gấp theo nghĩa "thủ tục")kk
cbeleites không hài lòng với SX

2
+1 nhưng cụm từ "dữ liệu không trong màn hình" nghe có vẻ rất khó xử và cực kỳ không rõ ràng @Alex. Đừng sử dụng nó.
amip

1
Tôi thường sử dụng "gấp" một cách lười biếng có nghĩa là từng đoạn của tập dữ liệu. Như trong "nếp gấp 5 bị mất cân bằng so với phần còn lại của dữ liệu"
Shadowtalker

3

"Fold" dùng để chỉ một phân vùng (theo nghĩa lý thuyết tập hợp của từ) của mẫu, , thành tập huấn luyện, và bộ xác nhận, . Điều này có nghĩa là:STjVj

  1. TjVj= ,
  2. TjVj=S ,

( ).1jk

Lưu ý rằng trong "cổ điển" -fold chéo xác nhận (CV) một điều kiện bổ sung được đặt trên bộ xác nhận:k

  1. ViVj= ( ).ij

Cuối cùng, lưu ý rằng trong CV cổ điển kiểm soát cả số lần thực hiện quy trình xác thực tàu, cũng như kích thước của bộ xác thực và tập huấn luyện:, do đó.kk|Vj|1k|S||Tj|k1k|S|


0

Tôi đồng ý với OP rằng thuật ngữ này là vụng về và khó hiểu. Đây là ý kiến ​​của tôi: những người nói tiếng Anh bản ngữ được giáo dục tốt thường sử dụng các thuật ngữ như "gấp đôi" hoặc "ba lần", nghe có vẻ hơi cổ xưa nhưng vẫn có thể sử dụng được. Tuy nhiên, quan trọng, chúng ta không thấy những từ này có chứa danh từ "gấp"; "Fold" là một hậu tố ở đây, một cấu trúc đặc biệt hài hước được kết hợp với một số để tạo ra một biến thể đầy màu sắc trên "double" hoặc "triple", v.v ... Nó hoàn toàn không liên quan gì đến động từ "gấp" hoặc danh từ "gấp" có thể xuất hiện trong khi làm origami và đề cập đến một mảnh giấy gấp.

Tôi nghi ngờ rằng từ "Fold" bắt đầu được sử dụng như một danh từ có nghĩa là "phân vùng" trong bối cảnh xác thực chéo k-Fold khi người nói / người viết không quen thuộc với tiếng Anh hoặc với xác thực chéo nghĩ rằng "k-Fold" theo nghĩa đen có nghĩa là "tạo k 'nếp gấp" của dữ liệu ". Thật dễ hiểu khi ai đó sẽ đi đến kết luận này. Tuy nhiên, "k-Fold" không có nghĩa là "tạo k 'nếp gấp" - thay vào đó, nó có nghĩa là " thực hiện xác thực chéo k lần ", trong đó chi tiết về việc phải tạo ra các phân vùng k của dữ liệu.

Cá nhân tôi không bao giờ sử dụng "gấp" theo cách kỳ lạ này; Tôi gọi các phân đoạn dữ liệu trong câu hỏi là "phân vùng", và nó rõ ràng hơn nhiều.

Ngoài ra, chỉ vì việc sử dụng này đã lan truyền trong cộng đồng không làm cho việc sử dụng tiếng Anh hợp lý, IMO. Tôi thích giao tiếp đơn giản và rõ ràng để phát minh và sử dụng thuật ngữ mới khó hiểu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.