MSE là một ủy quyền cho Tương quan của Pearson trong các vấn đề hồi quy

TL; DR (quá dài, không đọc):

Tôi đang làm việc với một vấn đề dự đoán theo chuỗi thời gian, mà tôi coi là một vấn đề Hồi quy bằng cách sử dụng Deep Learning (máy ảnh). Tôi muốn tối ưu hóa cho mối tương quan Pearson giữa dự đoán của tôi và các nhãn thực sự. Tôi bối rối bởi thực tế rằng việc sử dụng MSE làm proxy thực sự dẫn đến kết quả tốt hơn (về mặt tương quan) so với sử dụng Pearson làm chức năng mất trực tiếp. Có được coi là thực hành xấu để sử dụng các số liệu tương quan như các chức năng mất cho học tập sâu? Nếu vậy, tại sao?

Phiên bản dài hơn:

Tôi có một nhiệm vụ dự đoán chuỗi thời gian: Tôi quan sát các giá trị cho các bước thời gian liên tiếp và cần dự đoán giá trị ở bước thời gian . Vì các giá trị thường nằm trong , nên tôi coi đây là một vấn đề hồi quy, mà tôi đang giải quyết bằng cách sử dụng Deep Learning (máy ảnh). $T$ $T+1$ $[-200,200]$

Câu hỏi của tôi liên quan đến việc lựa chọn mất mát và số liệu.

Dữ liệu của tôi có nhãn thực sự chủ yếu vào khoảng với một số giá trị cực đoan. Nhiều giá trị cực đoan là sai lầm và tôi không muốn thay đổi việc học của mình để tập trung vào việc làm cho chúng đúng. Nói cách khác, tôi muốn có thể nắm bắt xu hướng chung (ví dụ phân loại chính xác khoảng thời gian của giá trị dương so với âm) và tôi có thể "sống cùng" với dự đoán 100 thay vì 200, chẳng hạn. $[-10,10]$

Vì lý do này, tôi nghĩ rằng số liệu đánh giá của tôi phải là mối tương quan Pearson giữa các giá trị dự đoán và giá trị thực.

Bây giờ, đối với chức năng mất: Lý tưởng nhất là nếu tôi muốn tối ưu hóa cho tương quan Pearson cao, sẽ có ý nghĩa khi sử dụng chức năng đó làm chức năng mất, phải không? Tôi đã thử nghiệm một kiến trúc đơn giản là "mô hình cơ sở" của tôi hai lần: Một lần với việc sử dụng Pearson (theo tính toán trên một lô nhỏ) trực tiếp làm chức năng mất của tôi và một lần với việc sử dụng MSE chung làm proxy. Trong cả hai trường hợp, tôi theo dõi cả MSE và Pearson cho các kỷ nguyên khác nhau và tôi thực hiện "dừng sớm" dựa trên bộ xác thực.

Kết quả của tôi:

MSE là một mất mát: MSE 160, Pearson 0,7
Pearson là một mất mát: MSE 250, Pearson 0,6

Tôi hiểu rằng MSE cao hơn cho tổn thất Pearson là kết quả của thực tế là tối ưu hóa cho tương quan không có quy mô, vì vậy tất cả các dự đoán có thể bị "tắt" bởi một yếu tố theo cách làm tăng MSE. Nhưng làm thế nào để sử dụng MSE như một proxy thực sự làm tốt hơn về mặt tương quan Pearson? Có bất kỳ lý do liên quan đến tối ưu hóa là tại sao tương quan Pearson không nên được sử dụng như là một hàm mất? Thật vậy, tôi thấy rằng trong thực tế nó hầu như không được sử dụng, nhưng tôi muốn hiểu lý do đằng sau điều này.

— galoosh33
nguồn

Đây là một câu hỏi hay và không may trả lời trong một thời gian dài, có vẻ như đã có một câu trả lời một phần được đưa ra chỉ một vài tháng sau khi bạn hỏi câu hỏi này ở đây về cơ bản chỉ lập luận rằng sự tương quan là hữu ích khi đầu ra rất ồn ào và có lẽ MSE khác . Tôi nghĩ trước hết chúng ta nên xem các công thức cho cả hai.

M S E (y, \hat{y}) = = \frac{1}{n} Σ_{Tôi = = 1}^{n} (y_{Tôi} - \hat{y_{Tôi}})^{2}

$MSE(y,\hat{y}) = \frac{1}{n} \sum_{i=1}^n(y_i - \hat{y_i})^2$

R (y, \hat{y}) = = \frac{Σ_{Tôi = = 1}^{n} (y_{Tôi} - \bar{y}) (\hat{y_{Tôi}} - \hat{\bar{y}})}{\sqrt{Σ_{Tôi = = 1}^{n} (y_{Tôi} - \bar{y})^{2}} \sqrt{Σ_{Tôi = = 1}^{n} (\hat{y_{Tôi}} - \hat{\bar{y}})^{2}}}

$R(y, \hat{y}) = \frac{\sum_{i=1}^n (y_i - \bar{y})(\hat{y_i} - \hat{\bar{y}})} {\sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2} \sqrt{\sum ^n _{i=1}(\hat{y_i} - \hat{\bar{y}})^2}}$

$\hat{\bar{y}} = \bar{y}$ $\mathbb{R^2}$ $\{ y_i, \hat{y_i}\}$ bạn có thể thấy có nhiều mối quan hệ giữa hai người sẽ không được đại diện.

$R^2$ $R^2$ $y$ $R^2$

R^{2} (y, \hat{y}) = = 1 - \frac{Σ_{Tôi = = 1}^{n} (y_{Tôi} - \hat{y})^{2}}{Σ_{Tôi = = 1}^{n} (y_{Tôi} - \bar{y})^{2}}

$R^2(y,\hat{y}) = 1 - \frac{\sum_{i=1}^n (y_i-\hat{y})^2}{\sum_{i=1}^n (y_i-\bar{y})^2}$

R

$R$

R^{2}

$R^2$

R

$R$

R^{2}

$R^2$

R

$R$

\hat{y}

$\hat{y}$

— JoeTheShmoe
nguồn