So sánh phần dư giữa hồi quy OLS và không OLS

Giả sử bạn muốn để ước lượng một mô hình tuyến tính: ( $n$ quan sát phản ứng, và $p+1$ dự đoán)

E (y_{i}) = β_{0} + \sum_{j = 1}^{p} β_{j} x_{i j}

$\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij}$

Một cách để làm điều này là thông qua giải pháp OLS, tức là chọn các hệ số sao cho tổng các lỗi bình phương là tối thiểu:

(β_{0}, β_{1}, \dots, β_{p})^{T} = \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sum_{i = 1}^{n} {(y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j})}^{2}

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2$

Ngoài ra, bạn có thể sử dụng một hàm mất mát khác, như tổng độ lệch tuyệt đối, sao cho:

(β_{0}, β_{1}, \dots, β_{p})^{T} = \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sum_{i = 1}^{n} | y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j} |

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right|$

Giả sử bạn đã tìm thấy các tham số cho hai mô hình và muốn chọn mô hình có giá trị nhỏ nhất của hàm mất. Làm thế nào bạn có thể so sánh các giá trị tối thiểu đạt được bởi các hàm mất nói chung? (tức là không chỉ trường hợp cụ thể này - chúng ta cũng có thể thử các hàm mất dựa trên khác $L_p$ ) Dường như có sự khác biệt về quy mô của các hàm - một giao dịch với các ô vuông trong khi các hàm khác thì không.

regression loss-functions

— Comp_War chiến binh
nguồn

Vâng, các giả định của Markov cho chúng ta thấy rằng phương trình đầu tiên là BLUE, hoặc công cụ ước lượng không thiên vị tuyến tính tốt nhất . Trong trường hợp này "Tốt nhất" được xác định bằng cách có các lỗi tiêu chuẩn nhỏ nhất trong tất cả các công cụ ước tính có thể. Đó không phải là một thống kê đầy đủ?

— gregmacfarlane

lưu ý rằng và vì vậy

‖ x ‖_{2} \leq ‖ x ‖_{1} \leq \sqrt{n} ‖ x ‖_{2}

$\|x\|_2 \leq \|x\|_1 \leq \sqrt{n}\|x\|_2$

\underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sqrt{\sum_{i = 1}^{n} {(y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j})}^{2}} \leq \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sum_{i = 1}^{n} | y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j} | \leq \sqrt{(} n) \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sqrt{\sum_{i = 1}^{n} {(y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j})}^{2}}

$\underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2} \leq \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right| \leq \sqrt(n) \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2}$

— Manuel

@gmacfarlane Tôi muốn định nghĩa "tốt nhất" ở đây theo giá trị tối thiểu của hàm mất, thay vì lỗi tiêu chuẩn trên các ước tính tham số. (chỉ vì tò mò)

— Comp_War Warrior

Tôi nghĩ rằng bạn không thể so sánh sự phù hợp đến từ 2 chức năng mất khác nhau, bởi vì chúng là câu trả lời cho các câu hỏi khác nhau. Một khi bạn quyết định rằng một hàm mất mát nhất định là một hàm thích hợp cho tình huống của bạn, sự phù hợp sẽ theo quyết định đó. Bạn không thể gấp nó lại để xác nhận sự lựa chọn của hàm mất mà không trở thành thông tư. Nếu bạn có một số tiêu chí khác mà cả hai hàm mất có thể được hiểu là được bao hàm bởi, bạn có thể sử dụng nó, nhưng bạn cần phải xác định trước điều đó.

— gung - Phục hồi Monica

Lưu ý rằng nếu mô hình cho kỳ vọng là chính xác và kích thước mẫu đủ lớn để cả hai ước tính có hiệu quả ở giá trị dân số, thì câu hỏi sẽ chuyển đổi hiệu quả thành "Làm thế nào để tôi so sánh độ lệch trung bình với độ lệch chuẩn"? Theo bất kỳ giả định phân phối nhất định nào, bạn có thể so sánh kích thước dự kiến của chúng, nhưng tất nhiên trong các mẫu nhỏ, bản thân các ước tính khác nhau.

— Glen_b -Reinstate Monica

(Chuyển đổi nhận xét của tôi thành câu trả lời.)

Tôi nghĩ rằng bạn không thể so sánh sự phù hợp đến từ các chức năng mất khác nhau, bởi vì chúng là câu trả lời cho các câu hỏi khác nhau. Một khi bạn quyết định rằng một hàm mất mát nhất định là một hàm thích hợp cho tình huống của bạn, sự phù hợp sẽ theo quyết định đó. Bạn không thể gấp nó lại để xác nhận sự lựa chọn của hàm mất mà không trở thành thông tư. Nếu bạn có một số tiêu chí khác mà cả hai hàm mất có thể được hiểu là được bao hàm bởi, bạn có thể sử dụng nó, nhưng bạn cần phải xác định trước điều đó.

— gung - Phục hồi Monica
nguồn