Toán đánh đổi thiên vị / phương sai


8

Tôi hiểu vấn đề trong các điều khoản thiếu / thừa nhưng tôi vẫn đấu tranh để nắm bắt chính xác toán học đằng sau nó. Tôi đã kiểm tra nhiều nguồn ( ở đây , ở đây , ở đây , ở đâyở đây ) nhưng tôi vẫn không hiểu tại sao chính xác thiên vị và phương sai chống đối nhau như thế nào, ví dụ: và làm:exex


nguồn

Có vẻ như mọi người đều rút ra phương trình sau (bỏ qua lỗi không thể sửa chữa tại đây) và sau đó, thay vì lái xe về nhà và chỉ ra chính xác lý do tại sao các điều khoản bên phải hành xử theo cách họ làm, bắt đầu đi lang thang về sự không hoàn hảo của thế giới này và làm thế nào không thể chính xác và phổ quát cùng một lúc.ϵ

E[(θ^nθ)2]=E[(θ^nE[θ^n])2]+(E[θ^nθ])2

Ví dụ rõ ràng

Giả sử, trung bình dân số đang được ước tính bằng cách sử dụng trung bình mẫu , tức là và thì: vì và , nên chúng tôi có: μX¯n=1ni=1nXiθμθ^nX¯n

MSE=Var(X¯nμ)+(E[X¯n]μ)2
E[X¯n]=μVar(μ)=0
MSE=Var(X¯n)=1nVar(X)n0

Vì vậy, các câu hỏi là :

  1. Tại sao chính xác và không thể giảm đồng thời?E[(θ^nE[θ^n])2]E[θ^nθ]
  2. Tại sao chúng ta không thể lấy một số ước lượng không thiên vị và giảm phương sai bằng cách tăng cỡ mẫu?

Câu trả lời:


11

Đầu tiên, không ai nói rằng sai lệch bình phương và phương sai hoạt động giống như , trong trường hợp bạn đang tự hỏi. Điểm đơn giản là cái này tăng và cái kia giảm. Nó tương tự như đường cung và cầu trong kinh tế vi mô, vốn được mô tả theo truyền thống là đường thẳng, đôi khi khiến mọi người nhầm lẫn. Một lần nữa, điểm đơn giản là một dốc xuống và một hướng lên trên.e±x

Sự nhầm lẫn chính của bạn là về những gì trên trục ngang. Đó là mô hình phức tạp - không phải cỡ mẫu. Có, như bạn viết, nếu chúng tôi sử dụng một số công cụ ước lượng không thiên vị, thì việc tăng kích thước mẫu sẽ làm giảm phương sai của nó và chúng tôi sẽ có được một mô hình tốt hơn. Tuy nhiên , sự đánh đổi sai lệch là trong bối cảnh của một cỡ mẫu cố định và điều chúng ta thay đổi là độ phức tạp của mô hình, ví dụ, bằng cách thêm các yếu tố dự đoán.

Nếu mô hình A quá nhỏ và không chứa các yếu tố dự đoán có giá trị tham số thực không khác và mô hình B bao gồm mô hình A nhưng chứa tất cả các yếu tố dự đoán có giá trị tham số không khác nhau, thì ước tính tham số từ mô hình A sẽ không thiên vị và từ mô hình B không thiên vị - nhưng các sai của ước lượng tham số trong mô hình A sẽ được nhỏ hơn cho các thông số tương tự trong mô hình B.


2
Cảm ơn bạn đã trả lời. Tôi chỉ đề cập đến chỉ để minh họa điểm rõ ràng của các chức năng đối lập. Dù bằng cách nào, bạn đang nói rằng sự đánh đổi là một thuộc tính của các hệ thống đa biến và không thể dễ dàng được hiển thị trong trường hợp đơn biến? Nói một cách định tính, tôi nhận được điểm phức tạp của mô hình so với quá mức nhưng nó có thể được hiển thị dưới dạng toán học không? ex
ayorgo

2
Bạn có thể hiển thị nó một cách toán học nếu bạn giới hạn bản thân trong một lớp mô hình cụ thể, ví dụ: Bình phương tối thiểu thông thường. Trong trường hợp đơn giản nhất, DGP thực sự có thể phụ thuộc tuyến tính vào một biến duy nhất . Mô hình A sau đó sẽ là một mô hình trung bình đơn giản và mô hình B sẽ là một hồi quy trên và bạn có thể tính toán độ lệch và phương sai. Và nếu bạn muốn, bạn có thể bao gồm các quyền hạn cao hơn của cho nhiều phương sai hơn nữa. xxx
Stephan Kolassa

1
Các giá trị mà OP đề cập là giá trị dân số. Các ước tính của các giá trị có thể có khác không tương quan, ví dụ như King và Zhen: gking.harvard.edu/files/gking/files/0s.pdf xem trang 11, nơi họ nhà nước "và vì vậy chúng tôi đang trong tình trạng hạnh phúc nơi thiên vị giảm cũng làm giảm phương sai ". Tuy nhiên, như Stephan đề cập đến trục ngang của cốt truyện trong OP là độ phức tạp của mô hình và ví dụ được đưa ra bởi King và Zheng, mặc định phức tạp hơn so với hồi quy logistic.
Lucas Roberts

1

Sự cố xảy ra khi một mô hình có xu hướng phù hợp với tiếng ồn cao.f(x,θ)

Trong trường hợp đó mô hình có xu hướng phù hợp quá mức. Đó là, nó không chỉ thể hiện mô hình thực mà còn là nhiễu ngẫu nhiên mà bạn không muốn chụp với mô hình của mình (vì nhiễu là một phần không có hệ thống không cho phép bạn đưa ra dự đoán cho dữ liệu mới).

Người ta có thể cải thiện (giảm) tổng sai số của khớp, bằng cách đưa ra một số sai lệch, khi sai lệch này làm cho phương sai / khớp quá giảm giảm mạnh hơn so với tăng sai lệch / không khớp (nghĩa là không thể hiện chính xác mô hình thực) .

1. Tại sao chính xác và không thể giảm đồng thời?E[(θ^nE[θ^n])2]E[θ^nθ]

Đây không phải là sự thật. Chúng có thể được giảm đồng thời (tùy trường hợp). Hãy tưởng tượng rằng bạn đã giới thiệu một số sai lệch, cả hai đều làm tăng phương sai cũng như sai lệch. Sau đó theo hướng ngược lại giảm sự thiên vị này sẽ đồng thời giảm sự thiên vị và phương sai.

Ví dụ: một bình phương gốc có tỷ lệ chênh lệch bình phương cho mẫu có kích thước là một ước lượng không thiên vị cho độ lệch chuẩn dân số khi . Bây giờ, nếu bạn có , thì cả hai bạn sẽ giảm độ lệch cũng như phương sai khi bạn giảm kích thước của hằng số này .c1n(xix¯)2nσc=nn1c>nn1c

Tuy nhiên, sự thiên vị (cố ý) được thêm vào trong chính quy hóa thường là loại làm giảm phương sai (ví dụ: bạn có thể giảm xuống mức dưới ). Do đó, bạn có được sự đánh đổi trong thiên vị so với phương sai và loại bỏ sự thiên vị sẽ (trong thực tế) làm tăng phương sai.cnn1

2. Tại sao chúng ta không thể lấy một số ước lượng không thiên vị và giảm phương sai bằng cách tăng cỡ mẫu?

Về nguyên tắc bạn có thể.

Nhưng,

  • Điều này có thể đòi hỏi nhiều nỗ lực lấy mẫu hơn, tốn kém và điều này thường là một hạn chế.
  • Có thể cũng có thể có những khó khăn về tính toán với các vấn đề ước tính nhất định và kích thước mẫu sẽ cần phải tăng cực kỳ để giải quyết vấn đề này, nếu có thể.

    (ví dụ: các tham số chiều cao> các phép đo hoặc như trong hồi quy sườn núi : các đường rất nông quanh mức tối ưu toàn cầu)

Thường cũng không có sự phản đối để thiên vị. Khi nói về việc giảm tổng lỗi (như trong nhiều trường hợp) thì việc sử dụng công cụ ước tính sai lệch nhưng ít sai sót hơn sẽ được ưu tiên.

Về ví dụ truy cập của bạn.

Liên quan đến câu hỏi thứ hai của bạn, bạn thực sự có thể giảm lỗi bằng cách tăng kích thước mẫu. Và liên quan đến câu hỏi đầu tiên của bạn, bạn cũng có thể giảm cả sai lệch và phương sai (giả sử bạn sử dụng một mẫu có tỷ lệ trung bình làm công cụ ước tính của dân số và xem xét thay đổi tham số tỷ lệ ).cxinc

Tuy nhiên, khu vực quan tâm thực tế là nơi độ lệch giảm trùng khớp với phương sai tăng. Hình ảnh bên dưới cho thấy độ tương phản này bằng cách sử dụng một mẫu (size = 5) được lấy từ phân phối bình thường với phương sai = 1 và mean = 1. Giá trị trung bình của mẫu không được tính là giá trị dự đoán không thiên vị của trung bình dân số. Nếu bạn sẽ tăng tỷ lệ của công cụ dự đoán này thì bạn có cả độ lệch và tăng phương sai. Tuy nhiên, nếu bạn giảm tỷ lệ của công cụ dự đoán thì bạn có độ lệch tăng, nhưng giảm phương sai. Công cụ dự đoán "tối ưu" sau đó thực sự không phải là trung bình mẫu mà là một số công cụ ước tính bị thu hẹp (xem thêm Tại sao công cụ ước tính James-Stein được gọi là công cụ ước tính "co ngót"? ).

thừa và thiếu trong thu hẹp mẫu có nghĩa là

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.