Trực giác là gì thiên vị


21

Tôi đang vật lộn để nắm bắt khái niệm sai lệch trong bối cảnh phân tích hồi quy tuyến tính.

  • Định nghĩa toán học của thiên vị là gì?

  • Chính xác thì thiên vị là gì và tại sao / như thế nào?

  • Ví dụ minh họa?

Câu trả lời:


28

Xu hướng là sự khác biệt giữa giá trị dự kiến ​​của một người ước tính và giá trị thực được ước tính. Ví dụ, giá trị trung bình của mẫu đối với một mẫu ngẫu nhiên đơn giản (SRS) là một ước lượng không thiên vị của dân số có nghĩa là vì nếu bạn lấy tất cả các SRS có thể tìm phương tiện của chúng, và lấy ý nghĩa của các phương tiện đó thì bạn sẽ hiểu được dân số (đối với hữu hạn quần thể này chỉ là đại số để hiển thị điều này). Nhưng nếu chúng ta sử dụng một cơ chế lấy mẫu có liên quan đến giá trị nào đó thì giá trị trung bình có thể bị sai lệch, hãy nghĩ đến một mẫu quay số ngẫu nhiên đặt câu hỏi về thu nhập.

Đây cũng là một số ước tính được thiên vị. Giá trị trung bình cắt sẽ bị sai lệch cho dân số / phân phối bị lệch. Phương sai chuẩn không thiên vị cho SRS nếu trung bình dân số được sử dụng với mẫu số hoặc trung bình mẫu được sử dụng với mẫu số . nn-1

Dưới đây là một ví dụ đơn giản sử dụng R, chúng tôi tạo ra một loạt các mẫu từ bình thường với giá trị trung bình 0 và độ lệch chuẩn 1, sau đó tính trung bình trung bình, phương sai và độ lệch chuẩn từ các mẫu. Lưu ý mức trung bình trung bình và phương sai gần với các giá trị thực (lỗi lấy mẫu có nghĩa là chúng sẽ không chính xác), bây giờ so sánh sd trung bình, đó là một công cụ ước tính sai lệch (mặc dù không quá sai lệch).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

Trong hồi quy, chúng ta có thể có được các ước lượng sai lệch của độ dốc bằng cách thực hiện hồi quy từng bước. Một biến có nhiều khả năng được giữ theo hồi quy từng bước nếu độ dốc ước tính xa hơn 0 và có nhiều khả năng bị giảm nếu gần 0 hơn, do đó đây là lấy mẫu sai lệch và độ dốc trong mô hình cuối cùng sẽ có xu hướng xa hơn từ 0 so với độ dốc thực. Các kỹ thuật như độ lệch hồi quy lasso và sườn núi dốc về 0 để chống lại độ lệch lựa chọn từ 0.


SRS?  
hồng y

@cardinal Mẫu ngẫu nhiên đơn giản.
whuber

@whuber: Wow. Mặc dù chữ viết tắt có ý nghĩa, tôi không nhớ là đã bắt gặp nó trong bất kỳ cài đặt chính thức nào. Có các trường con cụ thể hoặc các khu vực được áp dụng trong đó đó là một khởi tạo "tiêu chuẩn" không?
Đức Hồng Y


(+1) Chỉnh sửa của @ whuber rất hữu ích trong việc làm rõ câu trả lời này.
Đức hồng y

7

Xu hướng có nghĩa là giá trị dự kiến ​​của công cụ ước tính không bằng tham số dân số.

Theo trực giác trong phân tích hồi quy, điều này có nghĩa là ước tính của một trong các tham số quá cao hoặc quá thấp. Tuy nhiên, ước tính hồi quy bình phương nhỏ nhất bình phương là BLUE, viết tắt của các ước lượng không thiên vị tuyến tính tốt nhất. Trong các hình thức hồi quy khác, các ước tính tham số có thể bị sai lệch. Đây có thể là một ý tưởng tốt, bởi vì thường có sự đánh đổi giữa sai lệch và phương sai. Ví dụ, hồi quy sườn đôi khi được sử dụng để làm giảm phương sai của ước tính khi có cộng tuyến.

Một ví dụ đơn giản có thể minh họa điều này tốt hơn, mặc dù không phải trong bối cảnh hồi quy. Giả sử bạn nặng 150 pound (được xác minh trên thang cân bằng có bạn trong một giỏ và một đống trọng lượng trong giỏ khác). Bây giờ, bạn có hai cân phòng tắm. Bạn tự cân 5 lần cho mỗi lần.

Thang đo 1 cho các trọng số 152, 151, 151,5, 150,5 và 152.

Thang đo 2 cho trọng số 145, 155, 154, 146 và 150.

Thang đo 1 là sai lệch, nhưng có phương sai thấp hơn; trung bình của trọng lượng không phải là trọng lượng thực sự của bạn. Thang đo 2 không thiên vị (trung bình là 150), nhưng có phương sai cao hơn nhiều.

Thang đo nào là "tốt hơn"? Nó phụ thuộc vào những gì bạn muốn quy mô để làm.


1
Mặc dù định nghĩa sai lệch là chính xác, tôi sợ rằng các ví dụ nhầm lẫn nó với sự không chính xác, đó là một cái gì đó hoàn toàn khác nhau! Xu hướng là một thuộc tính của một thủ tục thống kê (một công cụ ước tính) trong khi độ chính xác là một thuộc tính của một quá trình đo lường . (-1).
whuber

1
@whuber: Vâng, tôi đồng ý với điều đó. Và, tôi vẫn nghĩ rằng, ngay cả như vậy, cần phải làm rõ sự khác biệt giữa kỳ vọng toán học và trung bình mẫu, vì chúng liên quan đến sai lệch.
Đức hồng y

1
Không, tôi đã không cố nói bất cứ điều gì về "sự không chính xác" (rất khó xác định) nhưng về "phương sai". Một thang đo không thiên vị, thang đo kia có phương sai thấp. Tôi đã không sử dụng từ "chính xác" hoặc "chính xác". Một thang đo có xu hướng ước tính trọng lượng của bạn quá cao (hoặc quá thấp) là sai lệch.
Peter Flom - Tái lập Monica

1
Nhưng ý nghĩa "thiên vị" này chỉ là một từ đồng nghĩa với không chính xác; nó không giống với định nghĩa bạn đã đưa ra trong dòng đầu tiên. Hơn nữa, như @cardinal chỉ ra, ví dụ này cũng đặt ra một kỳ vọng với giá trị trung bình của một mẫu cụ thể.
whuber

3
Tôi đồng ý với @whuber ở đây. Theo nghĩa sai lệch (thích hợp) mà OP đang hỏi, đó không phải là thang đo thiên vị hay không thiên vị, mà là bất kỳ ước tính nào về cân nặng của bạn mà bạn có được từ các phép đo của nó!
Đức hồng y

0

Trong phân tích hồi quy tuyến tính, sai lệch đề cập đến lỗi được đưa ra bằng cách xấp xỉ một vấn đề thực tế, có thể phức tạp, bởi một mô hình đơn giản hơn nhiều. Nói một cách đơn giản, bạn giả sử một mô hình tuyến tính đơn giản như y * = (a *) x + b * trong đó như trong thực tế, vấn đề kinh doanh có thể là y = ax ^ 3 + bx ^ 2 + c.

Có thể nói rằng MSE thử nghiệm dự kiến ​​(lỗi bình phương trung bình) từ một vấn đề hồi quy có thể được phân tách như dưới đây. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Xu hướng (f * (x0))] ^ 2 + Var (e)

f * -> dạng chức năng được giả định cho mô hình hồi quy tuyến tính y0 -> giá trị phản hồi ban đầu được ghi trong dữ liệu thử nghiệm x0 -> giá trị dự đoán ban đầu được ghi trong dữ liệu thử nghiệm e -> lỗi không thể khắc phục Vì vậy, mục tiêu là chọn một phương pháp tốt nhất để đến một mô hình mà đến đạt được phương sai thấp và sai lệch thấp.

Lưu ý: Giới thiệu về Học thống kê của Trevor Hastie & Robert Tibshirani có cái nhìn sâu sắc về chủ đề này


3
Điều này thường được gọi bằng một cái gì đó như "lỗi mô tả sai mô hình" để không nhầm lẫn nó với định nghĩa chuẩn của sai lệch được đưa ra trong câu trả lời được chấp nhận. Mặt khác, không thể hiểu được xác nhận (chính xác) rằng OLS là một công cụ ước tính không thiên vị về các hệ số của các biến hồi quy.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.