Làm cách nào để chọn số liệu tốt nhất để đo hiệu chuẩn của tôi?

10

Tôi lập trình và làm phát triển dựa trên thử nghiệm. Sau khi tôi thực hiện thay đổi mã, tôi chạy thử nghiệm. Đôi khi họ thành công và đôi khi họ thất bại. Trước khi tôi chạy thử nghiệm, tôi ghi lại một số từ 0,01 đến 0,99 để tôi tin rằng thử nghiệm sẽ thành công.

Tôi muốn biết liệu tôi có cải thiện trong việc dự đoán liệu thử nghiệm của tôi sẽ thành công hay thất bại. Sẽ thật tuyệt nếu tôi có thể theo dõi liệu tôi có tốt hơn trong việc dự đoán liệu thử nghiệm sẽ thành công vào thứ Hai hay thứ Sáu hay không. Nếu khả năng dự đoán thành công thử nghiệm của tôi tương quan với các số liệu khác mà tôi theo dõi, tôi muốn biết.

Điều đó để lại cho tôi nhiệm vụ chọn đúng số liệu. Trong Superforcasting Philip Tetlock đề xuất sử dụng điểm Brier để đo mức độ hiệu chỉnh của các chuyên gia. Một số liệu khác đã được đề xuất trong tài liệu là quy tắc chấm điểm Logarit . Ngoài ra còn có các ứng cử viên khác có thể.

Làm cách nào để quyết định sử dụng số liệu nào? Có một lập luận cho việc ủng hộ một quy tắc chấm điểm so với các quy tắc khác?

— Cơ đốc giáo
nguồn

1

Một nguồn khó khăn tiềm ẩn trong việc đo lường các thay đổi trong kỹ năng dự báo của bạn là khó khăn tiềm ẩn của vấn đề dự báo có thể thay đổi. Những thay đổi trong kỹ năng của bạn có thể không thể phân biệt được với những thay đổi về độ khó của vấn đề.

— Matthew Gunn

1

Tôi giả sử rằng bạn đang làm bài kiểm tra đơn vị cho mã của bạn.

Một ý tưởng mà tôi có thể nghĩ ra, có thể sẽ không làm chính xác những gì bạn muốn, là sử dụng mô hình tuyến tính.

Lợi ích của việc đó là bạn có thể tạo ra một loạt các biến khác mà bạn có thể đưa vào phân tích.

$\mathbf{Y}$ $\mathbf{x}$

Bây giờ bạn có thể chỉ cần phù hợp với mô hình tuyến tính

y_{i} = a + b x_{i} + ϵ

$y_i = a + bx_i +\epsilon$

$b$ $b$

Điều làm cho cách tiếp cận này trở nên tốt đẹp là bây giờ bạn có thể bắt đầu thêm một loạt các biến khác để xem liệu điều đó có tạo ra một mô hình tốt hơn không và những biến đó có thể giúp đưa ra dự đoán tốt hơn. Các biến có thể là một chỉ báo cho ngày trong tuần, ví dụ cho thứ Hai, nó sẽ luôn là 1 và bằng 0 cho tất cả các ngày khác. Nếu bạn bao gồm biến đó trong mô hình, bạn sẽ nhận được:

y_{i} = a + a_{Monday} + b x_{i} + ϵ

$y_i = a + a_{\text{Monday}} + bx_i +\epsilon$

$a_{\text{Monday}}$

Bạn cũng có thể tạo một biến mới trong đó bạn cho điểm để đánh giá độ khó của nhiệm vụ bạn thực hiện. Nếu bạn có quyền kiểm soát phiên bản, thì bạn có thể sử dụng số dòng mã là khó khăn, tức là bạn viết càng nhiều mã, càng có nhiều khả năng sẽ bị hỏng.

Các biến khác có thể là, số cốc cà phê ngày hôm đó, chỉ báo cho thời hạn sắp tới, có nghĩa là có nhiều căng thẳng hơn để hoàn thành công cụ, v.v.

Bạn cũng có thể sử dụng biến thời gian để xem dự đoán của mình có tốt hơn không. Ngoài ra, bạn đã dành bao lâu cho nhiệm vụ hoặc bao nhiêu phiên bạn đã dành cho nó, cho dù bạn đang thực hiện một sửa chữa nhanh chóng và nó có thể cẩu thả, v.v.

Cuối cùng, bạn có một mô hình dự đoán, nơi bạn có thể cố gắng dự đoán khả năng thành công. Nếu bạn quản lý để tạo ra điều này, thì có lẽ bạn thậm chí không phải đưa ra dự đoán của riêng mình, bạn chỉ có thể sử dụng tất cả các biến và có một dự đoán khá tốt về việc mọi thứ sẽ hoạt động.

Điều này là bạn chỉ muốn một số duy nhất. Trong trường hợp đó, bạn có thể sử dụng mô hình đơn giản mà tôi đã trình bày lúc đầu và chỉ sử dụng độ dốc và làm lại các phép tính cho từng giai đoạn, sau đó bạn có thể xem liệu có xu hướng trong điểm số đó theo thời gian hay không.

Hi vọng điêu nay co ich.

— Gume
nguồn

1

b

$b$

Y

$Y$

x

$x$

a

$a$

b

$b$

b

$b$

b

$b$

a

$a$

@IWS Cảm ơn bạn đã nhập, tôi đồng ý với bạn đến mức bạn muốn một giá trị duy nhất để ước tính hiệu suất của bạn, sau đó bỏ qua phần chặn là một ý kiến hay. Nếu bạn muốn cố gắng diễn giải dữ liệu hơn nữa, (và bạn có đủ dữ liệu đó) ,, thì có thể nên thêm phần chặn và so sánh các mô hình.

— Gumeo

1

Mặc dù đây không phải là một câu trả lời và nhiều tài liệu tham khảo, nhưng có lẽ nên kiểm tra Steyerberg E - Dịch tễ học 2012 .

Trong bài viết này, Steyerberg và các đồng nghiệp giải thích các cách khác nhau để kiểm tra hiệu suất mô hình dự đoán cho các mô hình có kết quả nhị phân (thành công hay thất bại). Hiệu chuẩn chỉ là một trong những biện pháp này. Tùy thuộc vào việc bạn muốn có xác suất chính xác , phân loại chính xác hay phân loại lại chính xác, bạn có thể muốn sử dụng các biện pháp khác nhau về hiệu suất mô hình. Mặc dù bản thảo này liên quan đến các mô hình được sử dụng trong nghiên cứu y sinh, tôi cảm thấy chúng cũng có thể áp dụng cho các tình huống khác (của bạn).

Cụ thể hơn với tình huống của bạn, số liệu hiệu chuẩn thực sự khó diễn giải bởi vì chúng tóm tắt (tức là trung bình) hiệu chuẩn trên toàn bộ phạm vi dự đoán có thể. Do đó, bạn có thể có điểm tóm tắt hiệu chuẩn tốt, trong khi dự đoán của bạn bị tắt trong một phạm vi xác suất dự đoán quan trọng (ví dụ: bạn có thể có điểm số thấp (= tốt), trong khi dự đoán cho thành công bị tắt ở trên hoặc dưới một mức nhất định xác suất dự đoán) hoặc ngược lại (điểm tóm tắt kém, trong khi dự đoán được hiệu chỉnh tốt trong khu vực quan trọng). Do đó, tôi sẽ đề nghị bạn suy nghĩ về việc liệu phạm vi xác suất dự đoán thành công quan trọng như vậy có tồn tại trong trường hợp của bạn hay không. Nếu vậy, sử dụng các biện pháp thích hợp (ví dụ: chỉ số phân loại lại). Nếu không (có nghĩa là bạn quan tâm đến hiệu chuẩn tổng thể), hãy sử dụng brier,

Để kết luận, bất kỳ một trong các biện pháp tóm tắt hiệu chuẩn đều yêu cầu bước đầu tiên của bạn để vẽ các xác suất dự đoán của bạn so với xác suất quan sát được (xem câu trả lời của Ngoại lệ để biết cách thực hiện). Tiếp theo, biện pháp tóm tắt có thể được tính toán, nhưng việc lựa chọn biện pháp tóm tắt sẽ phản ánh mục tiêu dự đoán thành công của thất bại ngay từ đầu.

— IWS
nguồn

0

Tôi đã thực hiện mô hình dự đoán về dữ liệu thưa thớt và đó là một thách thức lớn để làm cho mô hình của bạn được hiệu chỉnh trong những trường hợp này. Tôi sẽ nói với bạn những gì tôi đã làm, bạn có thể nhận được sự giúp đỡ từ đó.

Tôi đã thực hiện 20 thùng xác suất dự đoán và cố gắng vẽ đồ thị dự đoán trung bình và xác suất thành công thực tế. Đối với xác suất dự đoán trung bình, tôi lấy trung bình của phạm vi bin. Đối với xác suất thực tế trung bình, tôi đã tính thành công thực tế và số lần thất bại trong các thùng, từ đó tôi có xác suất thành công (trung bình) thực tế trong thùng. Để giảm tác động của các ngoại lệ, tôi đã xóa dữ liệu 5% trên cùng và dưới cùng trước khi lấy xác suất trung bình thực tế trong mỗi thùng.

Khi tôi nhận được những thứ này, tôi có thể dễ dàng vẽ dữ liệu.

— Ngoại lệ
nguồn

Sẽ là tốt để chỉ ra rằng đây là bước đầu tiên trong việc tính toán mức độ phù hợp của thử nghiệm độ phù hợp của Hosmer-Lemeshow.

— jwimberley