Câu trả lời:
Xu hướng là sự khác biệt giữa giá trị dự kiến của một người ước tính và giá trị thực được ước tính. Ví dụ, giá trị trung bình của mẫu đối với một mẫu ngẫu nhiên đơn giản (SRS) là một ước lượng không thiên vị của dân số có nghĩa là vì nếu bạn lấy tất cả các SRS có thể tìm phương tiện của chúng, và lấy ý nghĩa của các phương tiện đó thì bạn sẽ hiểu được dân số (đối với hữu hạn quần thể này chỉ là đại số để hiển thị điều này). Nhưng nếu chúng ta sử dụng một cơ chế lấy mẫu có liên quan đến giá trị nào đó thì giá trị trung bình có thể bị sai lệch, hãy nghĩ đến một mẫu quay số ngẫu nhiên đặt câu hỏi về thu nhập.
Đây cũng là một số ước tính được thiên vị. Giá trị trung bình cắt sẽ bị sai lệch cho dân số / phân phối bị lệch. Phương sai chuẩn không thiên vị cho SRS nếu trung bình dân số được sử dụng với mẫu số hoặc trung bình mẫu được sử dụng với mẫu số .
Dưới đây là một ví dụ đơn giản sử dụng R, chúng tôi tạo ra một loạt các mẫu từ bình thường với giá trị trung bình 0 và độ lệch chuẩn 1, sau đó tính trung bình trung bình, phương sai và độ lệch chuẩn từ các mẫu. Lưu ý mức trung bình trung bình và phương sai gần với các giá trị thực (lỗi lấy mẫu có nghĩa là chúng sẽ không chính xác), bây giờ so sánh sd trung bình, đó là một công cụ ước tính sai lệch (mặc dù không quá sai lệch).
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
Trong hồi quy, chúng ta có thể có được các ước lượng sai lệch của độ dốc bằng cách thực hiện hồi quy từng bước. Một biến có nhiều khả năng được giữ theo hồi quy từng bước nếu độ dốc ước tính xa hơn 0 và có nhiều khả năng bị giảm nếu gần 0 hơn, do đó đây là lấy mẫu sai lệch và độ dốc trong mô hình cuối cùng sẽ có xu hướng xa hơn từ 0 so với độ dốc thực. Các kỹ thuật như độ lệch hồi quy lasso và sườn núi dốc về 0 để chống lại độ lệch lựa chọn từ 0.
Xu hướng có nghĩa là giá trị dự kiến của công cụ ước tính không bằng tham số dân số.
Theo trực giác trong phân tích hồi quy, điều này có nghĩa là ước tính của một trong các tham số quá cao hoặc quá thấp. Tuy nhiên, ước tính hồi quy bình phương nhỏ nhất bình phương là BLUE, viết tắt của các ước lượng không thiên vị tuyến tính tốt nhất. Trong các hình thức hồi quy khác, các ước tính tham số có thể bị sai lệch. Đây có thể là một ý tưởng tốt, bởi vì thường có sự đánh đổi giữa sai lệch và phương sai. Ví dụ, hồi quy sườn đôi khi được sử dụng để làm giảm phương sai của ước tính khi có cộng tuyến.
Một ví dụ đơn giản có thể minh họa điều này tốt hơn, mặc dù không phải trong bối cảnh hồi quy. Giả sử bạn nặng 150 pound (được xác minh trên thang cân bằng có bạn trong một giỏ và một đống trọng lượng trong giỏ khác). Bây giờ, bạn có hai cân phòng tắm. Bạn tự cân 5 lần cho mỗi lần.
Thang đo 1 cho các trọng số 152, 151, 151,5, 150,5 và 152.
Thang đo 2 cho trọng số 145, 155, 154, 146 và 150.
Thang đo 1 là sai lệch, nhưng có phương sai thấp hơn; trung bình của trọng lượng không phải là trọng lượng thực sự của bạn. Thang đo 2 không thiên vị (trung bình là 150), nhưng có phương sai cao hơn nhiều.
Thang đo nào là "tốt hơn"? Nó phụ thuộc vào những gì bạn muốn quy mô để làm.
Trong phân tích hồi quy tuyến tính, sai lệch đề cập đến lỗi được đưa ra bằng cách xấp xỉ một vấn đề thực tế, có thể phức tạp, bởi một mô hình đơn giản hơn nhiều. Nói một cách đơn giản, bạn giả sử một mô hình tuyến tính đơn giản như y * = (a *) x + b * trong đó như trong thực tế, vấn đề kinh doanh có thể là y = ax ^ 3 + bx ^ 2 + c.
Có thể nói rằng MSE thử nghiệm dự kiến (lỗi bình phương trung bình) từ một vấn đề hồi quy có thể được phân tách như dưới đây. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Xu hướng (f * (x0))] ^ 2 + Var (e)
f * -> dạng chức năng được giả định cho mô hình hồi quy tuyến tính y0 -> giá trị phản hồi ban đầu được ghi trong dữ liệu thử nghiệm x0 -> giá trị dự đoán ban đầu được ghi trong dữ liệu thử nghiệm e -> lỗi không thể khắc phục Vì vậy, mục tiêu là chọn một phương pháp tốt nhất để đến một mô hình mà đến đạt được phương sai thấp và sai lệch thấp.
Lưu ý: Giới thiệu về Học thống kê của Trevor Hastie & Robert Tibshirani có cái nhìn sâu sắc về chủ đề này