Tôi hiểu rằng một trong những lý do hồi quy logistic thường được sử dụng để dự đoán tỷ lệ nhấp trên web là vì nó tạo ra các mô hình được hiệu chỉnh tốt. Có một lời giải thích toán học tốt cho điều này?
Tôi hiểu rằng một trong những lý do hồi quy logistic thường được sử dụng để dự đoán tỷ lệ nhấp trên web là vì nó tạo ra các mô hình được hiệu chỉnh tốt. Có một lời giải thích toán học tốt cho điều này?
Câu trả lời:
Đúng.
Vectơ xác suất dự đoán từ hồi quy logistic thỏa mãn phương trình ma trận
Trong đó là ma trận thiết kế và là vectơ đáp ứng. Điều này có thể được xem như là một tập hợp các phương trình tuyến tính, một phát sinh từ mỗi cột của ma trận thiết kế .y X
Chuyên về cột chặn (là một hàng trong ma trận chuyển vị), phương trình tuyến tính liên quan là
do đó xác suất dự đoán trung bình tổng thể bằng trung bình của phản hồi.
Tổng quát hơn, đối với cột tính năng nhị phân , phương trình tuyến tính liên quan là
do đó tổng (và do đó trung bình) của các xác suất dự đoán bằng tổng của phản hồi, ngay cả khi chuyên về các bản ghi mà .
Tôi nghĩ rằng tôi có thể cung cấp cho bạn một lời giải thích dễ hiểu như sau:
Chúng ta biết rằng hàm mất của nó có thể được biểu thị dưới dạng hàm sau:
Trong đó biểu thị số lượng của tất cả các mẫu đào tạo, nhãn của mẫu thứ i, xác suất dự đoán của mẫu thứ i: . (chú ý sự thiên vị ở đây)
m
Vì mục tiêu của đào tạo là để giảm thiểu chức năng mất, chúng ta hãy đánh giá đạo hàm riêng của nó đối với từng tham số (có thể tìm thấy đạo hàm chi tiết ở đây ):
Và đặt nó thành 0 yeils:
Điều đó có nghĩa là nếu mô hình được đào tạo đầy đủ, các xác suất dự đoán mà chúng tôi nhận được cho tập huấn sẽ tự trải rộng sao cho mỗi tính năng tổng của các giá trị trọng số (tất cả) của tính năng đó bằng tổng giá trị của tính năng đó của các mẫu dương tính.
Ở trên phù hợp với mọi tính năng để thiên vị . Đặt là 1 và là yeilds:
Sau đó, chúng tôi nhận được:
Trong đó là xác suất dự đoán của mô hình được đào tạo đầy đủ cho mẫu thứ i. Và chúng ta có thể viết hàm theo cách rút gọn:
Rõ ràng chúng ta có thể thấy rằng hồi quy logistic được hiệu chỉnh tốt.
Tham khảo: Mô hình log-linear và Trường ngẫu nhiên có điều kiện của Charles Elkan