Lý do không thu hẹp thuật ngữ thiên vị (chặn) trong hồi quy

21

Đối với mô hình tuyến tính , thuật ngữ co rút luôn là . $y=\beta_0+x\beta+\varepsilon$ $P(\beta)$

Lý do nào khiến chúng tôi không thu hẹp thuật ngữ (chặn) sai lệch ? Chúng ta có nên thu hẹp thuật ngữ thiên vị trong các mô hình mạng thần kinh? $\beta_0$

— yliueagle
nguồn

Thư viện liblinear cho hồi quy logistic như được sử dụng trong scikit-learn xử phạt thuật ngữ thiên vị (tôi nghĩ đây là một tạo tác triển khai, sai lệch được xử lý như một biến đầu vào bổ sung)

— seanv507

33

Các yếu tố của học thống kê bởi Hastie et al. định nghĩa hồi quy sườn núi như sau (Mục 3.4.1, phương trình 3.41): tức là loại trừ rõ ràng thuật ngữ chặn khỏi hình phạt sườn núi.

\hat{β}^{r i d g e} = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}},

$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$

β_{0}

$\beta_0$

Sau đó, họ viết:

[...] Lưu ý rằng việc chặn đã bị loại khỏi thời hạn phạt. Hình phạt của việc đánh chặn sẽ làm cho thủ tục phụ thuộc vào nguồn gốc được chọn cho ; nghĩa là, việc thêm một hằng số vào mỗi mục tiêu sẽ không chỉ đơn giản dẫn đến sự thay đổi của các dự đoán với cùng một lượng . $\beta_0$ $Y$ $c$ $y_i$ $c$

Thật vậy, trong sự hiện diện của thuật ngữ đánh chặn, thêm cho tất cả chỉ đơn giản là sẽ dẫn đến tăng như các giá trị tốt và tương ứng tất cả các dự đoán cũng sẽ tăng . Điều này không đúng nếu đánh chặn bị phạt: sẽ phải tăng ít hơn . $c$ $y_i$ $\beta_0$ $c$ $\hat y_i$ $c$ $\beta_0$ $c$

Trong thực tế, có một số tính chất tốt và thuận tiện của hồi quy tuyến tính phụ thuộc vào việc có một thuật ngữ chặn (không mở rộng) thích hợp. Ví dụ như giá trị trung bình của và giá trị trung bình của đều bình đẳng, và (do đó) các phương nhiều hệ số tương quan tương đương với hệ số xác định : xem ví dụ chủ đề này để giải thích: Giải thích hình học của nhiều hệ số tương quan và hệ số xác định . $y_i$ $\hat y_i$ $R$ $R^2$

(R)^{2} = \cos^{2} (\hat{y}, y) = \frac{‖ \hat{y} ‖^{2}}{‖ y ‖^{2}} = R^{2},

$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$

R

$R$

R^{2}

$R^2$

Việc trừng phạt đánh chặn sẽ dẫn đến tất cả những điều đó không còn đúng nữa.

— amip nói phục hồi Monica
nguồn

2

Nhớ lại mục đích của co rút hoặc chính quy. Đó là để ngăn thuật toán học tập phù hợp với dữ liệu đào tạo hoặc tương đương - ngăn chặn việc chọn các giá trị tham số lớn tùy ý. Điều này có nhiều khả năng cho các bộ dữ liệu có nhiều hơn một vài ví dụ đào tạo về sự hiện diện của tiếng ồn (thảo luận rất thú vị về sự hiện diện của tiếng ồn và tác động của nó được thảo luận trong "Học từ dữ liệu" của Yaser Abu-Mustafa). Một mô hình học được trên dữ liệu nhiễu không có tính chính quy sẽ có khả năng hoạt động kém trên một số điểm dữ liệu không nhìn thấy.

Với ý nghĩ này, hãy tưởng tượng bạn có các điểm dữ liệu 2D mà bạn muốn phân loại theo hai lớp. Có tất cả trừ các tham số thiên vị cố định, thay đổi thuật ngữ thiên vị sẽ chỉ di chuyển ranh giới lên hoặc xuống. Bạn có thể khái quát điều này đến một không gian chiều cao hơn.

Thuật toán học tập không thể đặt các giá trị lớn tùy ý cho thuật ngữ sai lệch vì điều này sẽ dẫn đến giá trị tổn thất gộp có thể (mô hình sẽ không phù hợp với dữ liệu đào tạo). Nói cách khác, được đưa ra một số tập huấn luyện, bạn (hoặc một thuật toán học tập) không thể di chuyển mặt phẳng ra xa so với thực tế.

Vì vậy, không có lý do gì để thu hẹp thuật ngữ thiên vị, thuật toán học tập sẽ tìm ra thuật ngữ tốt mà không có nguy cơ thừa.

Một lưu ý cuối cùng: Tôi đã thấy trong một số bài báo rằng khi làm việc trong không gian nhiều chiều để phân loại, không có nhu cầu nghiêm ngặt để mô hình hóa thuật ngữ sai lệch. Điều này có thể hoạt động đối với dữ liệu có thể phân tách tuyến tính vì với nhiều kích thước được thêm vào, có nhiều khả năng hơn để tách hai lớp.

— Vladovov Dovgalecs
nguồn

Bạn có thể cung cấp tài liệu tham khảo cho một số bài báo có nội dung "khi làm việc trong không gian nhiều chiều để phân loại, không cần phải mô hình hóa thuật ngữ thiên vị" không?

— chandresh

1

Thuật ngữ chặn hoàn toàn không tránh khỏi co rút. Công thức "co ngót" chung (tức là chính quy hóa) đặt thuật ngữ chính quy trong hàm mất, ví dụ:

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

Trong trường hợp thường liên quan đến một chuẩn mực Lebesgue, và là đại lượng vô hướng kiểm soát trọng lượng bao nhiêu chúng tôi đặt về thời hạn co rút. $f(\beta)$ $\lambda$

Bằng cách đặt thuật ngữ co rút trong hàm mất mát như thế này, nó có ảnh hưởng đến tất cả các hệ số trong mô hình. Tôi nghi ngờ rằng câu hỏi của bạn phát sinh từ một sự nhầm lẫn về ký hiệu trong đó (trong ) là một vector của tất cả các hệ số, bao gồm . Mô hình tuyến tính của bạn có thể sẽ được viết tốt hơn như nơi là "ma trận thiết kế," do đó tôi có nghĩa là nó là dữ liệu của bạn với một cột của gắn vào phía bên tay trái (để có những đánh chặn ). $\beta$ $P(\beta)$ $\beta_0$ $y = X \beta + \epsilon$ $X$ $1's$

Bây giờ, tôi không thể nói chuyện chính quy hóa cho các mạng lưới thần kinh. Có thể là đối với các mạng thần kinh, bạn muốn tránh sự thu hẹp của thuật ngữ sai lệch hoặc thiết kế hàm mất thường xuyên khác với công thức tôi đã mô tả ở trên. Tôi chỉ không biết. Nhưng tôi mạnh mẽ nghi ngờ rằng các trọng số và các điều khoản thiên vị được thường xuyên hóa cùng nhau.

— David Marx
nguồn

2

Nó phụ thuộc vào quy ước, nhưng ví dụ: Các yếu tố của học thống kê của Hastie et al. xác định hồi quy sườn sao cho việc chặn không bị phạt (xem câu trả lời của tôi). Tôi nghi ngờ điều này có thể là tiêu chuẩn hơn so với khác.

— amip nói rằng Phục hồi lại

1

Tôi không chắc câu trả lời trên của David Marx là hoàn toàn đúng; theo Andrew Ng, theo quy ước, hệ số sai lệch / đánh chặn thường không được chuẩn hóa theo hồi quy tuyến tính và trong mọi trường hợp, liệu nó có được chuẩn hóa hay không không tạo ra sự khác biệt đáng kể.

— xenocyon
nguồn

1

Tôi sẽ đưa ra lời giải thích đơn giản nhất, sau đó mở rộng.

y_{t} = ε_{t}

$y_t=\varepsilon_t$

E [ε_{t}] = E [y_{t}] \neq 0

$E[\varepsilon_t]=E[y_t]\ne 0$

$\beta$

$\beta$ $\beta_0$

y_{t} = β_{0} + ε_{t}

$y_t=\beta_0+\varepsilon_t$

E [y_{t}] = β_{0} + E [ε_{t}]

$E[y_t]=\beta_0+E[\varepsilon_t]$

E [ε_{t}] = 0

$E[\varepsilon_t]=0$

β_{0} = μ = E [y_{t}]

$\beta_0=\mu=E[y_t]$

Mô hình này không gợi cảm như mô hình ban đầu, thực tế nó khá ngớ ngẩn. Tuy nhiên, nó là một mô hình hợp pháp. Bạn có thể chạy ANOVA trên nó, ví dụ.

$\beta_0=E[y_t]$

— Aksakal
nguồn