Thuật ngữ khác nhau cho thấy các quy ước khác nhau. Thuật ngữ "dư" ngụ ý rằng đó là những gì còn sót lại sau khi tất cả các biến giải thích đã được tính đến, tức là dự đoán thực tế. "Lỗi dự đoán" ngụ ý rằng đó là dự đoán lệch bao nhiêu so với thực tế, tức là dự đoán - thực tế.
Quan niệm của một người về mô hình hóa cũng ảnh hưởng đến quy ước nào là tự nhiên hơn. Giả sử bạn có một khung dữ liệu với một hoặc nhiều cột tính năng , cột phản hồi và cột dự đoán .X=x1,x2...yy^
Một quan niệm là là "thật" giá trị, và chỉ đơn giản là một phiên bản chuyển đổi của . Trong quan niệm này, và đều là hai biến ngẫu nhiên ( là một biến có nguồn gốc). Mặc dù là người chúng ta thực sự quan tâm, là người chúng ta có thể quan sát, vì vậy được sử dụng làm proxy cho . Những "lỗi" là bao nhiêu lệch khỏi đây "true" giá trị . Điều này gợi ý xác định lỗi theo hướng của độ lệch này, tức là .yy^Xyy^y^yy^y^yy^ye=y^−y
Tuy nhiên, có một quan niệm khác cho rằng là giá trị "thực". Đó là, y phụ thuộc vào thông qua một số quy trình xác định; một trạng thái cụ thể của làm phát sinh một giá trị xác định cụ thể. Giá trị này sau đó bị nhiễu loạn bởi một số quy trình ngẫu nhiên. Vậy ta có . Trong quan niệm này, là giá trị "thực" của y. Ví dụ: giả sử bạn đang cố gắng tính giá trị của g, gia tốc do trọng lực. Bạn thả một loạt các vật thể, bạn đo xem chúng rơi bao xa ( ) và mất bao lâu để chúng rơi ( ). Sau đó, bạn phân tích dữ liệu với mô hình y =y^XXx→f(X)→f(X)+error()y^Xy2xg−−√. Bạn thấy rằng không có giá trị nào của g làm cho phương trình này hoạt động chính xác. Vì vậy, sau đó bạn mô hình này như là
y^=2xg−−√
y=y^+error .
Nghĩa là, bạn hãy biến y và xem xét có được một "thực sự" giá trị được thực sự được tạo ra bởi luật vật lý, và sau đó một số giá trị khác đó là sửa đổi bởi một cái gì đó độc lập của , chẳng hạn như lỗi đo lường hoặc gió giật hoặc bất cứ điều gì.y^yy^X
Trong quan niệm này, bạn đang dùng y = để trở thành hiện thực "nên" và nếu bạn nhận được câu trả lời không đồng ý với điều đó, thì, thực tế đã hiểu câu trả lời sai. Bây giờ tất nhiên điều này có vẻ khá ngớ ngẩn và kiêu ngạo khi đặt theo cách này, nhưng có những lý do chính đáng để tiến hành quan niệm này, và nó có thể hữu ích khi nghĩ theo cách này. Và cuối cùng, nó chỉ là một mô hình; Các nhà thống kê không nhất thiết nghĩ rằng đây thực sự là cách thế giới hoạt động (mặc dù có thể có một số người làm). Và đưa ra phương trình , theo đó các lỗi là điểm trừ thực tế được dự đoán.2xg−−√y=y^+error
Ngoài ra, lưu ý rằng nếu bạn không thích khía cạnh "thực tế đã hiểu sai" về quan niệm thứ hai, bạn có thể xem nó là "Chúng tôi đã xác định một số quy trình mà qua đó y phụ thuộc vào , nhưng chúng tôi không nhận được chính xác là câu trả lời đúng, vì vậy phải có một số quy trình khác g cũng ảnh hưởng đến y. " Trong biến thể này,X
y= y +g(?)G=y - yy^=f(X)
y=y^+g(?)
g=y−y^ .