Tại sao không biến đổi sức mạnh hoặc nhật ký được dạy nhiều trong học máy?


24

Học máy (ML) sử dụng các kỹ thuật hồi quy tuyến tính và logistic rất nhiều. Nó cũng phụ thuộc vào kỹ thuật tính năng kỹ thuật ( feature transform, kernel, vv).

Tại sao không có gì về variable transformation(ví dụ power transformation) được đề cập trong ML? (Ví dụ: tôi không bao giờ nghe về việc lấy root hoặc đăng nhập vào các tính năng, họ thường chỉ sử dụng đa thức hoặc RBF.) Tương tự như vậy, tại sao các chuyên gia ML không quan tâm đến việc chuyển đổi tính năng cho biến phụ thuộc? (Ví dụ: tôi chưa bao giờ nghe về việc thực hiện chuyển đổi nhật ký của y; họ chỉ không chuyển đổi y.)

Chỉnh sửa: Có thể câu hỏi không chắc chắn, câu hỏi thực sự của tôi là "chuyển đổi sức mạnh thành các biến không quan trọng trong ML?"


4
Tôi muốn biết lý do tại sao điều này đã bị hạ cấp; Đó thực sự là một câu hỏi thú vị.
Shadowtalker

1
Tôi nghĩ rằng hầu hết mọi người sẽ tham gia một khóa hồi quy tuyến tính trước khóa học ML đầu tiên của họ. Chắc chắn, khóa học chứng khoán LR sẽ chứa một chương về những điều này (biến đổi). Btw, tôi đã không đánh giá thấp câu hỏi.
dùng603

Câu trả lời:


12

Cuốn sách Ứng dụng mô hình dự đoán ứng dụng của Kuhn và Johnson là một cuốn sách học máy thực tế được đánh giá cao với một phần lớn về chuyển đổi biến bao gồm cả Box-Cox. Các tác giả cho rằng nhiều thuật toán học máy hoạt động tốt hơn nếu các tính năng có phân phối đối xứng và không chính thống. Chuyển đổi các tính năng như thế này là một phần quan trọng của "kỹ thuật tính năng".


8

Theo quan điểm của riêng tôi, tôi thường quan tâm đến phân phối dự đoán của biến trả lời, thay vì chỉ có nghĩa là có điều kiện, và trong trường hợp đó tốt hơn là sử dụng khả năng đại diện chính xác hơn cho phân phối mục tiêu. Chẳng hạn, tôi thích sử dụng các mô hình tuyến tính có nhân hơn là (hồi quy) hỗ trợ hồi quy véc tơ, bởi vì tôi có thể sử dụng khả năng Poisson nếu tôi muốn. Vì nhiều người học máy là người Bayes, tôi nghi ngờ rằng việc sử dụng một khả năng khác sẽ có vẻ thanh lịch hơn so với biến đổi (chọn một khả năng thích hợp thường là bước đầu tiên).


0

Đây là suy nghĩ sau đó của tôi.

Tôi nghĩ đó là vì ML chủ yếu liên quan đến phân loại và phân loại là không cần chuyển đổi y (y là phân loại). ML thường xử lý các biến độc lập lớn (ví dụ hàng nghìn trong NLP) và hồi quy logistic không yêu cầu tính quy tắc; Tôi nghĩ đó là lý do tại sao họ không sử dụng chuyển đổi năng lượng Box-Cox do xem xét tốc độ. (lưu ý: Tôi không quen với việc chuyển đổi năng lượng.)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.