Tôi đồng ý với các điểm chính của @Upper_Case cũng đặt câu trả lời. Tôi muốn đưa ra một viễn cảnh nhấn mạnh vào khía cạnh "học máy" của câu hỏi.
Đối với tác vụ phân loại sử dụng kNN, hồi quy logistic, SVM kernel hoặc mạng nơ ron phi tuyến tính, nhược điểm chính mà chúng tôi quan tâm là giảm hiệu suất mô hình , ví dụ giảm điểm AUC trên bộ xác thực.
Những nhược điểm khác của độ lệch thường được điều tra khi khó đánh giá thiệt hại về chất lượng của kết quả .ّ Tuy nhiên, trong một vấn đề phân loại, chúng ta có thể huấn luyện và xác nhận mô hình một lần với tính năng gốc (bị lệch) và một lần với tính năng được chuyển đổi , và sau đó
- Nếu hiệu suất giảm, chúng tôi không chuyển đổi,
- Nếu hiệu suất được cải thiện, chúng tôi chuyển đổi.
Nói cách khác, thiệt hại của sự sai lệch có thể được đánh giá một cách dễ dàng và khách quan, do đó, những biện minh đó không ảnh hưởng đến quyết định của chúng tôi , chỉ có hiệu suất mới có.
Nếu chúng ta xem xét kỹ hơn các biện minh cho việc sử dụng cho phép chuyển đổi nhật ký, chúng sẽ đúng khi một số giả định được đưa ra về các tính năng cuối cùng mà một mô hình hoặc thử nghiệm trực tiếp làm việc. Một tính năng cuối cùng là một chức năng của tính năng thô; chức năng đó có thể là danh tính. Ví dụ, một mô hình (hoặc thử nghiệm) có thể giả định rằng một tính năng cuối cùng phải bình thường hoặc ít nhất là đối xứng xung quanh giá trị trung bình hoặc là phụ gia tuyến tính, v.v. Sau đó, chúng tôi, với kiến thức (hoặc suy đoán) là nguyên liệu tính năng bị lệch trái, có thể thực hiện chuyển đổi nhật ký để căn chỉnh tính năng cuối cùng với giả định được áp đặt.
Một điều phức tạp quan trọng ở đây là chúng tôi không và không thể thay đổi phân phối của bất kỳ tính năng thô nào, chúng tôi chỉ tạo ra một tính năng cuối cùng (như một chức năng của tính năng thô) có phân phối khác phù hợp hơn với các giả định được áp đặt.
Đối với tác vụ phân loại sử dụng kNN, hồi quy logistic, SVM kernel hoặc mạng nơ ron phi tuyến tính, không có tính chuẩn tắc hoặc giả định đối xứng để phân phối các tính năng cuối cùng, do đó không có lực lượng nào từ các mô hình này trong vấn đề này. Mặc dù, chúng ta có thể theo dõi một bóng của giả định "bổ sung tuyến tính" trong mô hình hồi quy logistic, tức là
và trong các mạng thần kinh cho tổng các tính năng có trọng số trong lớp đầu tiên, tức làP( y= 1 | x ) =11 +e- (w1x1+ . . +wdxd)
yTôi= f(Wtôi , .x + b ) = f(Wtôi , 1x1+Wtôi , 2x2+ . . . + b )
Tôi nói "một cái bóng" bởi vì biến mục tiêu không trực tiếp là sự bổ sung tuyến tính của các tính năng cuối cùng, việc bổ sung trải qua một hoặc nhiều phép biến đổi phi tuyến tính có thể làm cho các mô hình này mạnh mẽ hơn khi vi phạm giả định này. Mặt khác, giả định bổ sung tuyến tính không tồn tại trong kNN hoặc kernelSVM, vì chúng hoạt động với khoảng cách mẫu-mẫu hơn là tương tác tính năng.
Nhưng một lần nữa, những biện minh này đứng thứ hai so với kết quả đánh giá mô hình, nếu hiệu suất bị ảnh hưởng, chúng tôi không chuyển đổi.