Hiểu xác thực chéo phân tầng


55

Sự khác biệt giữa xác nhận chéo phân tầngxác nhận chéo là gì?

Wikipedia nói:

Trong xác thực chéo k phân tầng , các nếp gấp được chọn sao cho giá trị phản hồi trung bình xấp xỉ bằng nhau trong tất cả các nếp gấp. Trong trường hợp phân loại nhị phân, điều này có nghĩa là mỗi nếp gấp chứa tỷ lệ gần bằng nhau của hai loại nhãn lớp.

Nhưng tôi vẫn bối rối.

  1. Điều này mean response valuecó nghĩa gì trong bối cảnh này?
  2. Tại sao số 1 quan trọng?
  3. Làm thế nào để một người đạt được số 1 trong thực tế?

Câu trả lời:


43

Bài viết xác thực chéo trong bách khoa toàn thư về hệ thống cơ sở dữ liệu cho biết:

Sự phân tầng là quá trình sắp xếp lại dữ liệu để đảm bảo mỗi nếp gấp là một đại diện tốt của toàn bộ. Ví dụ, trong một vấn đề phân loại nhị phân trong đó mỗi lớp bao gồm 50% dữ liệu, tốt nhất là sắp xếp dữ liệu sao cho mỗi lần gấp, mỗi lớp bao gồm khoảng một nửa các trường hợp.

Về tầm quan trọng của sự phân tầng, Kohavi (Một nghiên cứu về xác nhận chéo và bootstrap để ước tính độ chính xác và lựa chọn mô hình) kết luận rằng:

phân tầng nói chung là một sơ đồ tốt hơn, cả về độ lệch và phương sai, khi so sánh với xác nhận chéo thông thường.


5
Bạn có thể mô tả, bằng trực giác, tại sao CV tốt hơn thường xuyên?
MohamedEzz

Có lẽ bao gồm một đoạn có nhiều mức độ phân tầng khác nhau mà bạn có thể nhắm đến và chúng can thiệp vào các mức độ khác nhau với sự ngẫu nhiên của các nếp gấp. Đôi khi, tất cả những gì bạn cần là đảm bảo có ít nhất một bản ghi của mỗi lớp trong mỗi lần gấp. Sau đó, bạn chỉ có thể tạo các nếp gấp một cách ngẫu nhiên, kiểm tra xem điều kiện đó có được đáp ứng hay không và chỉ trong trường hợp không chắc là nó không được cải tổ lại các nếp gấp.
David Ernst

37

Sự phân tầng tìm cách đảm bảo rằng mỗi nếp gấp là đại diện cho tất cả các tầng của dữ liệu. Nói chung, việc này được thực hiện theo cách được giám sát để phân loại và nhằm mục đích đảm bảo mỗi lớp được thể hiện bằng nhau trên mỗi lần kiểm tra (tất nhiên được kết hợp theo cách bổ sung để tạo thành các nếp gấp đào tạo).

Trực giác đằng sau điều này liên quan đến sự thiên vị của hầu hết các thuật toán phân loại. Chúng có xu hướng trọng số mỗi trường hợp bằng nhau, điều đó có nghĩa là các lớp biểu hiện quá nhiều trọng số (ví dụ: tối ưu hóa thước đo F, Độ chính xác hoặc một dạng lỗi bổ sung). Sự phân tầng không quá quan trọng đối với một thuật toán có trọng số cho mỗi lớp bằng nhau (ví dụ: tối ưu hóa Kappa, Informedness hoặc ROC AUC) hoặc theo một ma trận chi phí (ví dụ: đưa ra một giá trị cho mỗi lớp có trọng số chính xác và / hoặc chi phí cho mỗi cách phân loại sai). Xem, ví dụ DMW Powers (2014), Số đo F không đo được: Tính năng, Sai sót, Ngụy biện và Sửa lỗi. http://arxiv.org/pdf/1503.06410

Một vấn đề cụ thể quan trọng đối với các thuật toán thậm chí không thiên vị hoặc cân bằng, là chúng có xu hướng không thể học hoặc kiểm tra một lớp không được đại diện trong một lần, và hơn nữa là ngay cả trong trường hợp chỉ có một lớp đại diện trong một nếp gấp không cho phép khái quát hóa để thực hiện sự tôn trọng. đánh giá. Tuy nhiên, ngay cả sự cân nhắc này không phải là phổ biến và ví dụ, không áp dụng quá nhiều cho việc học một lớp, nó cố gắng xác định điều gì là bình thường đối với một lớp riêng lẻ và xác định một cách hiệu quả các ngoại lệ là một lớp khác, dựa trên việc xác thực chéo là về việc xác định số liệu thống kê không tạo ra một phân loại cụ thể.

Mặt khác, phân tầng có giám sát làm ảnh hưởng đến độ tinh khiết kỹ thuật của đánh giá vì nhãn của dữ liệu kiểm tra không ảnh hưởng đến đào tạo, nhưng trong phân tầng được sử dụng trong việc lựa chọn các trường hợp đào tạo. Phân tầng không giám sát cũng có thể dựa trên việc truyền bá dữ liệu tương tự xung quanh chỉ nhìn vào các thuộc tính của dữ liệu, chứ không phải lớp thực sự. Xem, ví dụ: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Phân tầng xác thực không chính xác để ước tính chính xác.

Sự phân tầng cũng có thể được áp dụng cho hồi quy thay vì phân loại, trong trường hợp như phân tầng không giám sát, sự tương tự thay vì nhận dạng được sử dụng, nhưng phiên bản được giám sát sử dụng giá trị hàm thực đã biết.

Các biến chứng tiếp theo là các lớp hiếm và phân loại đa nhãn, trong đó phân loại đang được thực hiện trên nhiều kích thước (độc lập). Ở đây các bộ nhãn thực sự trên tất cả các kích thước có thể được coi là các lớp cho mục đích xác thực chéo. Tuy nhiên, không phải tất cả các kết hợp nhất thiết phải xảy ra, và một số kết hợp có thể hiếm. Các lớp hiếm và các kết hợp hiếm là một vấn đề trong đó một lớp / kết hợp xảy ra ít nhất một lần nhưng ít hơn K lần (trong K-CV) không thể được biểu diễn trong tất cả các lần kiểm tra. Trong các trường hợp như vậy, thay vào đó, người ta có thể xem xét một hình thức tăng cường phân tầng (lấy mẫu thay thế để tạo ra một nếp gấp kích thước đầy đủ với các lần lặp lại dự kiến ​​và 36,8% dự kiến ​​không được chọn để thử nghiệm, với một trường hợp của mỗi lớp được chọn ban đầu mà không thay thế cho lần thử nghiệm) .

Một cách tiếp cận khác để phân tầng đa nhãn là cố gắng phân tầng hoặc bootstrap riêng từng kích thước lớp mà không tìm cách đảm bảo lựa chọn đại diện cho các kết hợp. Với các nhãn L và các thể hiện N và các thể hiện Kkl của lớp k cho nhãn l, chúng ta có thể chọn ngẫu nhiên (không thay thế) từ nhóm các thể hiện được gắn nhãn tương ứng Dkl khoảng các thể hiện N / LKkl. Điều này không đảm bảo cân bằng tối ưu mà là tìm kiếm sự cân bằng theo phương pháp heuristur. Điều này có thể được cải thiện bằng cách chặn lựa chọn nhãn ở mức hoặc vượt quá hạn ngạch trừ khi không có lựa chọn nào (vì một số kết hợp không xảy ra hoặc rất hiếm). Các vấn đề có nghĩa là có quá ít dữ liệu hoặc kích thước không độc lập.


5

Giá trị phản hồi trung bình xấp xỉ bằng nhau trong tất cả các nếp gấp là một cách khác để nói tỷ lệ của mỗi lớp trong tất cả các nếp gấp xấp xỉ bằng nhau.

Ví dụ: chúng tôi có một bộ dữ liệu với 80 bản ghi lớp 0 và 20 bản ghi lớp 1. Chúng tôi có thể đạt được giá trị phản hồi trung bình là (80 * 0 + 20 * 1) / 100 = 0,2 và chúng tôi muốn 0,2 là giá trị phản hồi trung bình của tất cả các nếp gấp. Đây cũng là một cách nhanh chóng trong EDA để đo lường nếu bộ dữ liệu được cung cấp bị mất cân bằng thay vì đếm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.