Tôi có một mô hình hồi quy logistic được đào tạo mà tôi đang áp dụng cho một tập dữ liệu thử nghiệm. Biến phụ thuộc là nhị phân (boolean). Đối với mỗi mẫu trong tập dữ liệu thử nghiệm, tôi áp dụng mô hình hồi quy logistic để tạo% xác suất rằng biến phụ thuộc sẽ là đúng. Sau đó, tôi ghi lại liệu giá trị acutal là đúng hay sai. Tôi đang cố gắng tính toán một con số hoặc Điều chỉnh như trong mô hình hồi quy tuyến tính.
Điều này mang lại cho tôi một bản ghi cho từng mẫu trong bộ thử nghiệm như:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
Tôi đang tự hỏi làm thế nào để kiểm tra độ chính xác của mô hình. Nỗ lực đầu tiên của tôi là sử dụng bảng dự phòng và nói "nếu prob_value_is_true
> 0,80, hãy đoán rằng giá trị thực là đúng" và sau đó đo tỷ lệ chính xác với phân loại không chính xác. Nhưng tôi không thích điều đó, vì cảm giác giống như tôi chỉ đánh giá 0,80 là ranh giới, không phải là độ chính xác của mô hình nói chung và ở tất cả các prob_value_is_true
giá trị.
Sau đó, tôi đã cố gắng chỉ xem xét từng giá trị riêng biệt của prob_value_is_true, xem xét tất cả các mẫu trong đó prob_value_is_true
= 0,34 và đo% của các mẫu trong đó giá trị acutal là đúng (trong trường hợp này, độ chính xác hoàn hảo sẽ là nếu% của các mẫu đó là sự thật = 34%). Tôi có thể tạo một điểm chính xác của mô hình bằng cách tính tổng chênh lệch ở mỗi giá trị riêng biệt của prob_value_is_true
. Nhưng kích thước mẫu là một mối quan tâm lớn ở đây, đặc biệt là đối với các cực trị (gần 0% hoặc 100%), do đó trung bình của các giá trị acutal là không chính xác, vì vậy sử dụng chúng để đo độ chính xác của mô hình có vẻ không đúng.
Tôi thậm chí đã thử tạo ra các phạm vi lớn để đảm bảo đủ kích thước mẫu (0-.25, .25-.50, .50-.75, .75-1.0), nhưng làm thế nào để đo lường "mức độ tốt" của% giá trị thực đó làm tôi thất vọng . Nói tất cả các mẫu trong prob_value_is_true
khoảng từ 0,25 đến 0,50 có trung bình acutal_value
0,45. Điều đó có tốt không vì nó nằm trong phạm vi? Xấu vì nó không gần 37,5% (trung tâm của phạm vi)?
Vì vậy, tôi bị mắc kẹt ở những gì có vẻ như là một câu hỏi dễ dàng và hy vọng ai đó có thể chỉ cho tôi một tài nguyên hoặc phương pháp để tính toán độ chính xác cho mô hình hồi quy logistic.