So sánh phân phối hiệu suất tổng quát hóa

Giả sử rằng tôi có hai phương pháp học tập cho một vấn đề phân loại , và , và tôi ước tính hiệu suất khái quát hóa của chúng với một cái gì đó như xác nhận chéo lặp lại hoặc bootstrapping. Từ quy trình này, tôi nhận được phân phối điểm và cho mỗi phương thức qua các lần lặp lại này (ví dụ: phân phối giá trị ROC AUC cho mỗi mô hình). $A$ $B$ $P_A$ $P_B$

Nhìn vào các bản phân phối này, có thể là nhưng đó là (nghĩa là hiệu suất tổng quát hóa dự kiến của cao hơn , nhưng có sự không chắc chắn hơn về ước tính này). $\mu_A \ge \mu_B$ $\sigma_A \ge \sigma_B$ $A$ $B$

Tôi nghĩ rằng điều này được gọi là tiến thoái lưỡng nan sai lệch trong hồi quy.

Tôi có thể sử dụng phương pháp toán học nào để so sánh và và cuối cùng đưa ra quyết định sáng suốt về việc sử dụng mô hình nào? $P_A$ $P_B$

Lưu ý: Để đơn giản, tôi đề cập đến hai phương pháp và ở đây, nhưng tôi quan tâm đến các phương pháp có thể được sử dụng để so sánh phân phối điểm của ~ 1000 phương pháp học (ví dụ từ tìm kiếm dạng lưới) và cuối cùng thực hiện một quyết định cuối cùng về việc sử dụng mô hình nào. $A$ $B$

cross-validation model-selection

— Amelio Vazquez-Reina
nguồn

Tôi nghĩ rằng thuật ngữ đánh đổi sai lệch không áp dụng ở đây, bởi vì bạn không phân tích một lỗi bình phương trung bình thành sai lệch và phương sai, và bạn không nói về phương sai của công cụ ước tính mà là về phương sai của điểm số.

— Lucas

Cảm ơn @Lika. Tôi đang cố gắng ước tính số điểm của phân loại và của tôi trên dữ liệu chưa xem . Đối với điều này, tôi nghĩ rằng tôi có thể lấy giá trị trung bình của điểm trên dữ liệu đã xem làm công cụ ước tính của mình (tức là và cho và tương ứng). Phương sai của các công cụ ước tính này có khác với phương sai của điểm số và không?

A

$A$

B

$B$

E (P_{A})

$E(P_A)$

E (P_{B})

$E(P_B)$

A

$A$

B

$B$

P_{A}

$P_A$

P_{B}

$P_B$

— Amelio Vazquez-Reina

@ user815423426 Tôi nghĩ việc so sánh phụ thuộc vào chức năng mất bạn có. Diebold và Mariano (2002) có một bài viết hay về nghiên cứu câu hỏi của bạn. Họ đề xuất một số thử nghiệm thống kê so sánh hiệu suất "tổng quát hóa". Tôi không biết làm thế nào để thiết lập một liên kết trong các bình luận. Bài báo là: Diebold, Francis X., và Robert S. Mariano. "So sánh độ chính xác dự đoán." Tạp chí Thống kê Kinh doanh & Kinh tế 20.1 (2002): 134-144.

— semibruin

Nếu chỉ có hai phương pháp A và B, tôi sẽ tính xác suất cho phân vùng kiểm tra / huấn luyện tùy ý rằng lỗi (theo một số liệu hiệu suất phù hợp) cho mô hình A thấp hơn lỗi cho mô hình B. Nếu xác suất này lớn hơn 0,5, tôi đã chọn mô hình A và nếu không thì mô hình B (cf Mann-Whitney U test?) Tuy nhiên, tôi nghi ngờ rằng cuối cùng sẽ chọn mô hình với giá trị trung bình thấp hơn trừ khi các phân phối của thống kê hiệu suất là rất không -đối xứng.

Mặt khác, đối với tìm kiếm dạng lưới, tình huống hơi khác một chút vì bạn không thực sự so sánh các phương thức khác nhau, mà thay vào đó điều chỉnh các tham số (siêu) của cùng một mô hình để phù hợp với một mẫu dữ liệu hữu hạn (trong trường hợp này là gián tiếp qua chéo -Thẩm định). Tôi đã thấy rằng loại điều chỉnh này có thể rất dễ bị khớp quá mức, xem bài viết của tôi

Gavin C. Cawley, Nicola LC Talbot, "Về sự phù hợp quá mức trong lựa chọn mô hình và xu hướng lựa chọn tiếp theo trong đánh giá hiệu suất", Tạp chí nghiên cứu máy học, 11 (tháng 7): 2079−2107, 2010 ( www )

Tôi có một bài báo đánh giá cho thấy rằng có lẽ tốt nhất là sử dụng lưới tương đối thô cho các máy kernel (ví dụ: SVM) để tránh phù hợp với tiêu chí lựa chọn mô hình. Một cách tiếp cận khác (mà tôi chưa nghiên cứu, vì vậy, hãy cẩn thận!) Sẽ chọn mô hình có sai số cao nhất không thua kém về mặt thống kê so với mô hình tốt nhất được tìm thấy trong tìm kiếm lưới (mặc dù đó có thể là một cách tiếp cận khá bi quan, đặc biệt là cho các bộ dữ liệu nhỏ).

Mặc dù vậy, giải pháp thực sự có lẽ không phải là tối ưu hóa các tham số bằng cách sử dụng tìm kiếm dạng lưới, mà là trung bình trên các giá trị tham số, theo cách tiếp cận Bayes, hoặc chỉ là một phương pháp tập hợp. Nếu bạn không tối ưu hóa, sẽ khó khăn hơn để phù hợp!

— Sao Hỏa Dikran
nguồn

Cảm ơn Dikran. Khi bạn nói "average over the parameter values"tôi nghĩ hiểu cách thực hiện điều này thông qua một phương pháp tập hợp (ví dụ: xây dựng đầu ra của bộ đồng phục là trung bình của các đầu ra phân loại), nhưng tôi không chắc làm thế nào với cách tiếp cận Bayes khi làm việc với mô hình phân biệt đối xử. Tôi hiểu lý thuyết về cách tiếp cận Bayes hoàn toàn (nghĩa là tránh ước tính điểm và loại bỏ các tham số để xây dựng hậu thế cuối cùng), nhưng, giả sử rằng trước đó của tôi về các tham số là thống nhất, điều này sẽ không tương đương với việc xây dựng tập hợp trung bình ?

— Amelio Vazquez-Reina

Theo cách tiếp cận Bayes, các mô hình sẽ được cân nhắc bởi khả năng cận biên của chúng (ví dụ bằng chứng Bayes) và bất kỳ trước nào được đặt trên các tham số siêu, vì vậy đây sẽ là trường hợp đặc biệt của việc lấy trung bình một phương pháp cụ thể để cân trọng lượng cho các mô hình.

— Dikran Marsupial