Giá trị trung bình (điểm) so với Điểm (ghép) trong xác thực chéo


15

TLDR:

Tập dữ liệu của tôi là khá nhỏ (120) mẫu. Trong khi thực hiện xác nhận chéo 10 lần, tôi nên:

  1. Thu thập các kết quả đầu ra từ mỗi lần kiểm tra, ghép chúng thành một vectơ và sau đó tính toán sai số trên vectơ đầy đủ của dự đoán này (120 mẫu)?

  2. Hoặc thay vào đó tôi nên tính toán sai số trên các đầu ra tôi nhận được trên mỗi lần gấp (với 12 mẫu trên mỗi lần), và sau đó lấy ước tính lỗi cuối cùng của tôi là trung bình của ước tính lỗi 10 lần?

Có bài báo khoa học nào tranh luận về sự khác biệt giữa các kỹ thuật này không?


Bối cảnh: Mối quan hệ tiềm năng với điểm số Macro / Micro trong phân loại đa nhãn:

Tôi nghĩ rằng câu hỏi này có thể liên quan đến sự khác biệt giữa trung bình vi môvĩ mô thường được sử dụng trong tác vụ phân loại nhiều nhãn (ví dụ: 5 nhãn).

Trong cài đặt đa nhãn, điểm trung bình vi mô được tính bằng cách lập bảng dự phòng tổng hợp gồm dương thực, dương dương tính, âm tính thật, âm tính giả cho cả 5 dự đoán phân loại trên 120 mẫu. Bảng dự phòng này sau đó được sử dụng để tính toán độ chính xác vi mô, thu hồi vi mô và vi đo f. Vì vậy, khi chúng tôi có 120 mẫu và năm phân loại, các biện pháp vi mô được tính toán trên 600 dự đoán (120 mẫu * 5 nhãn).

Khi sử dụng biến thể Macro , người ta sẽ tính toán các biện pháp (độ chính xác, thu hồi, v.v.) một cách độc lập trên mỗi nhãn và cuối cùng, các biện pháp này được tính trung bình.

Ý tưởng đằng sau sự khác biệt giữa các ước tính vi môvĩ mô có thể được mở rộng thành những gì có thể được thực hiện trong cài đặt K-Fold trong một vấn đề phân loại nhị phân. Trong 10 lần, chúng ta có thể lấy trung bình trên 10 giá trị (số đo Macro ) hoặc nối 10 thí nghiệm và tính toán các biện pháp vi mô .

Bối cảnh - Ví dụ mở rộng:

Ví dụ sau minh họa cho câu hỏi. Giả sử chúng ta có 12 mẫu thử nghiệm và chúng ta có 10 lần:

  • Gấp 1 : TP = 4, FP = 0, TN = 8 Chính xác = 1.0
  • Gấp 2 : TP = 4, FP = 0, TN = 8 Chính xác = 1.0
  • Gấp 3 : TP = 4, FP = 0, TN = 8 chính xác = 1,0
  • Gấp 4 : TP = 0, FP = 12, Chính xác = 0
  • Gấp 5 .. Gấp 10 : Tất cả đều có cùng TP = 0, FP = 12 và Chính xác = 0

nơi tôi đã sử dụng ký hiệu sau:

TP = # của tích cực thực, FP = # sai tích cực, TN = # của âm tính thực

Kết quả là:

  • Độ chính xác trung bình trên 10 lần = 3/10 = 0,3
  • Độ chính xác về kết hợp các dự đoán của 10 lần = TP / TP + FP = 12/12 + 84 = 0.125

Lưu ý rằng các giá trị 0,3 và 0,125 rất khác nhau !


CV không thực sự là một thước đo tuyệt vời để dự đoán hiệu suất trong tương lai. Phương sai chỉ là quá nhỏ. Tốt hơn là đi với bootstrap để xác nhận mô hình của bạn.
dùng765195

2
@ user765195: bạn có thể sao lưu yêu cầu của mình với một số trích dẫn không?
Zach

Tôi đã tìm kiếm nhưng tôi không tìm thấy bất kỳ tài liệu nào liên quan đến phương pháp CV tổng hợp. Nó dường như là một cách thích hợp hơn để tính toán số đo vì nó có ít phương sai hơn.
dùng13420

1
@Zach, có một số cuộc thảo luận ở đây, trong cuốn sách của Mitchell: tinyurl.com/92fsmuv (xem đoạn cuối ở trang 93 và đoạn đầu tiên trong trang 94.) Tôi sẽ cố gắng nhớ các tài liệu tham khảo khác rõ ràng hơn.
dùng765195

1
k

Câu trả lời:


3

Sự khác biệt được mô tả là IMHO không có thật.

Bạn sẽ chỉ quan sát nó nếu phân phối các trường hợp thực sự tích cực (tức là phương pháp tham chiếu nói rằng đó là trường hợp tích cực) rất không đồng đều trên các nếp gấp (như trong ví dụ) số lượng các trường hợp thử nghiệm có liên quan (mẫu số của thước đo hiệu suất chúng ta đang nói đến, ở đây thực sự tích cực) không được tính đến khi tính trung bình các đường trung bình gấp.

412= =13 (vì có 4 trường hợp thử nghiệm trong tổng số 12 trường hợp có liên quan để tính độ chính xác) và trung bình 6 lần cuối cùng với 1 (tất cả các trường hợp thử nghiệm liên quan đến tính toán chính xác), trung bình có trọng số hoàn toàn giống bạn ' d nhận được từ việc gộp các dự đoán của 10 lần và sau đó tính toán độ chính xác.


chỉnh sửa: câu hỏi ban đầu cũng được hỏi về việc lặp / lặp lại xác nhận:

k

  • Làm thế nào nhiều dự đoán thay đổi nếu dữ liệu đào tạo bị nhiễu loạn bằng cách trao đổi một vài mẫu đào tạo?
  • Tức là, dự đoán của các mô hình "thay thế" khác nhau bao nhiêu cho cùng một mẫu thử nghiệm?

Bạn đã yêu cầu các bài báo khoa học :

Đánh giá thấp phương sai Cuối cùng, tập dữ liệu của bạn có cỡ mẫu hữu hạn (n = 120), bất kể bạn có bao nhiêu lần lặp lại bootstrap hoặc xác thực chéo.

  • Bạn có (ít nhất) 2 nguồn phương sai trong kết quả xác thực lại (xác thực chéo và ngoài bootstrap):

    • phương sai do số lượng hữu hạn của mẫu (thử nghiệm)
    • phương sai do sự không ổn định của các dự đoán của các mô hình thay thế
  • Nếu mô hình của bạn ổn định, thì

    • k
    • Tuy nhiên, ước tính hiệu suất vẫn có thể thay đổi do số lượng mẫu thử hữu hạn.
    • Nếu cấu trúc dữ liệu của bạn là "đơn giản" (nghĩa là một vectơ đo lường duy nhất cho từng trường hợp độc lập thống kê), bạn có thể giả sử rằng kết quả kiểm tra là kết quả của quy trình Bernoulli (ném đồng xu) và tính toán phương sai kiểm tra hữu hạn.
  • nk


Ngoài ra, tôi đang thực hiện phân loại đa nhãn với bốn phân loại. Vì vậy, tôi muốn xem xét các biện pháp Micro và Macro F trong 4 nhiệm vụ. Tôi cho rằng xác nhận chéo "kết hợp" thậm chí sẽ cần thiết trong trường hợp này? Ngoài ra, tôi không chắc chắn liệu bootstrap có giống với phương thức CV "kết hợp" mà tôi đã đề cập ở trên không. Ngoài ra còn có một số cuộc thảo luận tại stats.stackexchange.com/questions/4868/ cấp
user13420

@ user13420: tôi cũng không chắc ý của bạn với CV kết hợp ... Đây là câu trả lời tôi đã viết ra những gì ngoài bootstrap và xác thực chéo có ý nghĩa với tôi: stats.stackexchange.com/a/26548/4598
cbeleites hỗ trợ Monica

@ user13420: Thuật ngữ rất khác nhau trong các lĩnh vực khác nhau. Bạn có thể cập nhật câu trả lời của mình với thông tin về các biện pháp Micro và Macro F là gì không? Tuy nhiên, xác nhận chéo là một kỹ thuật rất chung: nó là một sơ đồ cho kết quả kiểm tra mô hình điện toán. Bạn có thể tính toán bất kỳ thước đo hiệu suất nào cần làm đầu vào giá trị tham chiếu cho từng trường hợp và giá trị dự đoán cho từng trường hợp.
cbeleites hỗ trợ Monica

CV kết hợp có nghĩa là bạn thu thập dự đoán của từng lần nắm giữ và tính toán số đo sau tất cả 10 lần giữ. Vì vậy, nếu tôi đo lường độ chính xác, gọi lại cho một nhiệm vụ phân loại, nó sẽ có độ chính xác duy nhất, gọi lại trái ngược với 10 giá trị và trung bình (đó là trường hợp trong CV thông thường)
user13420

2
Cảm ơn cbeleites - Tôi đã thêm những làm rõ vì tôi thấy từ ngữ của câu hỏi ban đầu hơi khó hiểu. Tôi hy vọng các chỉnh sửa của mình sẽ tốt hơn - tôi đã cố gắng làm nổi bật tình trạng khó xử hơn - nhưng xin vui lòng cho tôi biết khác. Tất cả những gì đã nói, khi bạn đề cập rằng bạn tìm thấy sự khác biệt không có thật - tôi muốn lưu ý rằng @ user13420 nhận được hai kết quả khác nhau đáng kể ở dưới cùng của OP khi làm theo cách tiếp cận 1 hoặc 2 . Tôi đã thấy mình phải đối mặt với vấn đề nan giải này. Tôi tin rằng cách tiếp cận thứ 2 là phổ biến hơn, nhưng sẽ rất tuyệt nếu bạn tiếp nhận nó.
Josh

1

Bạn nên làm điểm số (nối). Đó là một quan niệm sai lầm phổ biến trong lĩnh vực có nghĩa là (điểm số) là cách tốt nhất. Nó có thể giới thiệu nhiều thành kiến ​​hơn vào ước tính của bạn, đặc biệt là về các lớp hiếm, như trong trường hợp của bạn. Đây là một bài báo ủng hộ điều này:

http://www.kdd.org/explor_files/v12-1-p49-forman-sigkdd.pdf

Trong bài báo, họ sử dụng "Favg" thay cho "trung bình (điểm)" và "Ftp, fp" thay cho "điểm số (ghép)" của bạn

Ví dụ về đồ chơi:

Hãy tưởng tượng rằng bạn có xác nhận chéo 10 lần và một lớp xuất hiện 10 lần và tình cờ được chỉ định để nó xuất hiện một lần trong mỗi lần. Ngoài ra, lớp luôn được dự đoán chính xác nhưng có một dữ liệu dương tính duy nhất trong dữ liệu. Nếp gấp thử nghiệm chứa dương tính giả sẽ có độ chính xác 50%, trong khi tất cả các nếp gấp khác sẽ có 100%. Vậy avg (điểm) = 95%. Mặt khác, điểm số (ghép) là 10/11, khoảng 91%.

Nếu chúng tôi giả định rằng dân số thực được biểu thị bằng dữ liệu và 10 phân loại xác thực chéo đại diện tốt cho phân loại cuối cùng, thì độ chính xác trong thế giới thực sẽ là 91% và ước tính 95% của avg là sai lệch .

Trong thực tế, bạn sẽ không muốn đưa ra những giả định đó. Thay vào đó, bạn có thể sử dụng số liệu thống kê phân phối để ước tính độ tin cậy, bằng cách cho phép ngẫu nhiên dữ liệu và tính toán lại điểm số (nối) nhiều lần, cũng như bootstrapping.


Đây là một bài báo tuyệt vời! Tôi nghĩ rằng kết quả trong ngôn ngữ của câu hỏi ban đầu (không được sử dụng trong bài báo) là khi tính toán điểm F, hãy sử dụng phương pháp "trung bình vi mô"; cụ thể, tính tổng TP, TN, FP, FN từ tất cả các nếp gấp, để có được một ma trận nhầm lẫn duy nhất và sau đó tính điểm F (hoặc các số liệu mong muốn khác).
travelingbones
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.