Những gì bạn muốn làm không tồn tại bởi vì nó, vì thiếu từ tốt hơn, thiếu sót về mặt toán học.
Nhưng trước tiên, tôi sẽ nhấn mạnh lý do tại sao tôi nghĩ rằng tiền đề của câu hỏi của bạn là âm thanh. Sau đó tôi sẽ cố gắng giải thích lý do tại sao tôi nghĩ rằng kết luận bạn rút ra từ họ dựa trên sự hiểu lầm về mô hình logistic và cuối cùng, tôi sẽ đề xuất một cách tiếp cận khác.
Tôi sẽ biểu thị các quan sát của bạn (các chữ cái đậm hơn biểu thị các vectơ) nằm trong không gian chiều (mục nhập đầu tiên của là 1) với , và là một hàm đơn điệu của , nói như đường cong logistic để sửa ý tưởng. Để giải quyết vấn đề, tôi sẽ chỉ cho rằng là đủ lớn so với .{(xxi,yi)}ni=1npxxip<nyi∈[0,1]f(xxi)=f(xx′iββ)xx′iββnp
Bạn đúng rằng nếu bạn có ý định sử dụng TVD làm tiêu chí để đánh giá mô hình được trang bị, thì thật hợp lý khi mong đợi sự phù hợp của bạn để tối ưu hóa cùng tiêu chí đó trong số tất cả các ứng cử viên có thể, trên dữ liệu của bạn. Vì thế
ββ∗=argminββ∈Rp||yy−f(xx′iββ)||1
Vấn đề là thuật ngữ lỗi :
và nếu chúng tôi thực thi (chúng tôi chỉ đơn giản muốn mô hình của mình không thiên vị ) phải là dị thể . Điều này là do có thể nhận hai giá trị 0 và 1. Do đó, với
, cũng chỉ có thể nhận hai giá trị: khi , xảy ra với xác suất và khiϵi=yi−f(xx′iββ)E(ϵϵ)=0ϵi yixxiϵi1−f(xx′iββ)yi=1f(xx′iββ)−f(xx′iββ)yi=1, xảy ra với xác suất .1−f(xx′iββ)
Những cân nhắc này cùng ngụ ý rằng:
var(ϵϵ)=E(ϵϵ2)=(1−f(xx′ββ))2f(xx′ββ)+(−f(xx′ββ))2(1−f(xx′ββ))=(1−f(xx′ββ))f(xx′ββ)=E(yy|xx)E(1−yy|xx)
do đó không phải là hằng số parabola lõm và được tối đa hóa khi sao cho .var(ϵϵ)xxE(y|xx)≈.5
Sự không đồng nhất vốn có của phần dư có hậu quả . Điều này hàm ý trong số những điều khác mà khi giảm thiểu chức năng mất , bạn là một phần quá trọng lượng của mẫu. Đó là, được trang bị toàn không phù hợp với dữ liệu mà chỉ là phần của nó được nhóm xung quanh các vị trí nơi sao cho . Nói một cách dí dỏm, đây là những điểm dữ liệu ít thông tin nhất trong mẫu của bạn : chúng tương ứng với những quan sát mà thành phần nhiễu là lớn nhất. Do đó, mức độ phù hợp của bạn được kéo về phía , ví dụ: không liên quan.l1ββ∗xxE(yy|xx)≈.5ββ∗=ββ:f(xx′ββ)≈.5
Một giải pháp, rõ ràng từ giải trình ở trên là bỏ yêu cầu không thiên vị. Một cách phổ biến để thiên vị công cụ ước tính (có một số giải thích Bayes kèm theo) là bao gồm một thuật ngữ co rút. Nếu chúng tôi mở rộng lại phản hồi:
y+i=2(yi−.5),1≤i≤n
và, để nhanh chóng tính toán, thay thế bằng một hàm đơn điệu khác --it sẽ thuận lợi cho các phần tiếp theo để biểu thị thành phần đầu tiên của vector của tham số như và số còn lại cái - và bao gồm một thuật ngữ co rút (ví dụ một trong những hình thức ), vấn đề tối ưu hóa kết quả trở thành:f(xx′ββ)g(xx,[c,γγ])=xx′[c,γγ]cp−1γγ||γγ||2
[c∗,γγ∗]=argmin[[c,γγ]∈Rp∑i=1nmax(0,1−y+ixx′i[[c,γγ])+12||γγ||2
Lưu ý rằng trong bài toán tối ưu hóa mới (cũng lồi) này, hình phạt cho các quan sát được phân loại chính xác là 0 và nó phát triển tuyến tính với cho một lỗi được phân loại sai - như trong thua. Giải pháp cho vấn đề tối ưu hóa thứ hai này là các hệ số svm tuyến tính (với sự phân tách hoàn hảo). Trái ngược với , việc tìm hiểu những từ dữ liệu với hình phạt loại TVD ('loại' là điều hợp lý) . Do đó, giải pháp này được thực hiện rộng rãi. Xem ví dụ gói LiblineaR .xx′[[c,γ]l1[c∗,γγ∗]ββ∗[c∗,γγ∗]