Ước tính hồi quy L1 trung vị trong khi ước tính hồi quy L2 có nghĩa là gì?


24

Vì vậy, tôi đã được hỏi một câu hỏi về các biện pháp trung tâm L1 (tức là lasso) và L2 (nghĩa là hồi quy sườn núi) ước tính. Câu trả lời là L1 = trung vị và L2 = trung bình. Có bất kỳ loại lý luận trực quan cho điều này? Hay nó phải được xác định theo đại số? Nếu vậy, làm thế nào để tôi làm điều đó?


4
Bởi L1 / L2, bạn đang đề cập đến hàm mục tiêu hay các ràng buộc? Nếu hàm mục tiêu thì có lỗi L1 được giảm thiểu với trung vị có điều kiện và L2 có nghĩa là trung bình có điều kiện. Nếu các ràng buộc (những gì sườn núi / lasso đề cập đến) thì đây là cách sai lầm để suy nghĩ về điều này. "Các biện pháp trung tâm" của họ vẫn đang nhắm đến một ý nghĩa có điều kiện nhưng với các hình phạt khác nhau đối với . β
muratoa

Câu trả lời:


24

Có một lời giải thích hình học đơn giản cho lý do tại sao hàm mất L1 mang lại trung vị.

Hãy nhớ lại rằng chúng ta đang làm việc theo một chiều, vì vậy hãy tưởng tượng một dòng số trải theo chiều ngang. Vẽ từng điểm dữ liệu trên dòng số. Đặt ngón tay của bạn ở đâu đó trên dòng; ngón tay của bạn sẽ là ước tính ứng cử viên hiện tại của bạn.

Giả sử bạn di chuyển ngón tay của mình một chút sang bên phải, giả sử δ đơn vị ở bên phải. Điều gì xảy ra với tổng thiệt hại? Chà, nếu ngón tay của bạn nằm giữa hai điểm dữ liệu và bạn di chuyển nó qua một điểm dữ liệu, bạn đã tăng tổng tổn thất thêm δ cho mỗi điểm dữ liệu ở bên trái ngón tay của bạn và giảm δ cho mỗi dữ liệu chỉ về phía bên phải của ngón tay của bạn. Vì vậy, nếu có nhiều điểm dữ liệu ở bên phải ngón tay của bạn hơn so với bên trái, di chuyển ngón tay sang phải sẽ giảm tổng tổn thất. Nói cách khác, nếu hơn một nửa số điểm dữ liệu ở bên phải ngón tay của bạn, bạn nên di chuyển ngón tay sang phải.

Điều này dẫn đến việc bạn di chuyển ngón tay của mình về phía một điểm trong đó một nửa các điểm dữ liệu nằm ở điểm đó và một nửa ở bên phải. Điểm đó là trung vị.

Đó là L1 và trung vị. Thật không may, tôi không có cách giải thích tương tự, "tất cả trực giác, không đại số" cho L2 và giá trị trung bình.


7
Nếu chúng ta đang nói về một ước tính điểm đơn giản thì đó là phép tính đơn giản. ddβ1nΣtôi= =1n(ytôi-β)2= =-21nΣtôi= =1n(ytôi-β)= =0β= =1nΣtôiytôi
muratoa

3
@muratoa, vâng, tôi biết đạo hàm tính toán, nhưng câu hỏi yêu cầu cụ thể cho một lời giải thích tập trung vào trực giác và tránh đại số. Tôi sẽ cho rằng người hỏi đã biết đạo hàm tính toán, nhưng đang tìm kiếm thứ gì đó cung cấp trực giác nhiều hơn.
DW

Tôi nghĩ rằng OP đã đề cập đến hồi quy cho thấy anh ta đang nói về ước tính của y cho x là một giá trị trung bình có điều kiện sử dụng bình phương tối thiểu và trung vị có điều kiện cho sai số tuyệt đối trung bình. Các giải thích tương tự nên làm việc nhưng vấn đề là một chút khác nhau. Giải thích tính toán cho giá trị trung bình là khá rõ ràng và đơn giản. Có lẽ một lời giải thích cho giá trị trung bình có thể được đưa ra theo cách tương tự như DW cho trung vị. Giá trị trung bình mẫu là ước tính không thiên vị cho trung bình dân số.
Michael R. Chernick

Khi bạn di chuyển ước tính ra khỏi mẫu có nghĩa là lỗi bình phương trung bình thay đổi do sự gia tăng sai lệch. Lỗi bình phương trung bình thực sự tăng thêm d khi ước tính thêm d vào mẫu có nghĩa là ước tính ứng viên. 2
Michael R. Chernick

11
Một phiên bản nhanh và bẩn của đại số được đưa ra bởi muratoa tồn tại cho trường hợp L1. Quan sát rằng ngoại trừ khi , đạo hàm củawrt là , đó là nếu và nếu . Vì vậy, , ngoại trừ khi là một . Đạo hàm biến mất khi có cùng số lượng các điều khoản tích cực và tiêu cực trong số các , điều này đại khái phát sinh khi| y i - beta | β - s g n ( y i - β ) - 1 β < y i + 1 β > y i dβ=yi|yiβ|βsgn(yiβ)1β<yi+1β>yiβ y i y i - β β y iddβ1ni|yiβ|=1nisgn(yiβ)βyiyiββ là trung vị của . ytôi
Yves

17

Giải thích này là tổng hợp ý kiến của muratoaYves về câu trả lời của DW. Mặc dù nó dựa trên tính toán, tôi thấy nó đơn giản và dễ hiểu.

Giả sử chúng ta có và muốn có ước tính mới dựa trên chúng. Mất mát nhỏ nhất thu được khi chúng ta tìm thấy , làm cho đạo hàm của tổn thất về 0.y1,y2,...ykbetaββ

Mất L1

L 1

L1= =1kΣtôi= =1k|ytôi-β|
sgn(yi-β)yi>βyi<βyi-ββ
L1β= =-1kΣtôi= =1kSgn(ytôi-β)
Sgn(ytôi-β) là 1 khi , -1 khi . Đạo hàm bằng 0 khi có cùng số lượng các số hạng tích cực và tiêu cực trong số , có nghĩa là phải là trung vị của .ytôi>βytôi<βytôi-ββytôi

Mất L2

L2

L2= =1kΣtôi= =1k(ytôi-β)2
L2
L2β= =-2kΣtôi= =1k(ytôi-β)
βyi
L2β= =0β= =1kΣtôi= =1kytôi

Vì vậy, để giảm thiểu mất L2, phải là giá trị trung bình của .βytôi

3

Thêm vào câu trả lời của DW bằng một ví dụ thực tế hơn (đối với chức năng mất L2):

Hãy tưởng tượng một ngôi làng nhỏ được tạo thành từ 4 ngôi nhà gần nhau (ví dụ 10 mét). Cách những người đó 1 km, bạn có một ngôi nhà rất biệt lập. Bây giờ, bạn đến thị trấn đó và muốn xây dựng ngôi nhà của riêng mình ở đâu đó. Bạn muốn sống gần những ngôi nhà khác và làm bạn với mọi người. Hãy xem xét hai kịch bản thay thế:

  1. Bạn quyết định ở vị trí mà khoảng cách trung bình đến bất kỳ ngôi nhà nào là nhỏ nhất (tức là giảm thiểu chức năng mất L1).

    • Nếu bạn đặt ngôi nhà của mình ở trung tâm ngôi làng, bạn sẽ ở cách nhà khoảng 10 mét và cách nhà 1 km, cho bạn khoảng cách trung bình khoảng 200 mét (10 + 10 + 10 + 10 + 1000 / 5).
    • Nếu bạn đặt ngôi nhà của bạn cách ngôi làng 500 mét, bạn sẽ cách 5 ngôi nhà khoảng 500 mét, cho bạn khoảng cách trung bình là 500 mét.
    • Nếu bạn đặt ngôi nhà của mình bên cạnh ngôi nhà biệt lập, bạn sẽ cách làng (4 ngôi nhà) 1km và cách nhà 1 khoảng 10 mét, cho bạn khoảng cách trung bình khoảng 800 mét.

    Vì vậy, khoảng cách trung bình thấp nhất là 100 mét đạt được bằng cách xây dựng ngôi nhà của bạn trong làng. Cụ thể hơn, bạn sẽ xây dựng ngôi nhà của mình ở giữa 4 ngôi nhà này để có thêm vài mét khoảng cách trung bình. Và hóa ra điểm này là " điểm trung vị ", mà bạn sẽ có được tương tự bằng cách sử dụng công thức trung bình.

  2. Bạn quyết định thực hiện một cách tiếp cận dân chủ. Bạn hỏi mỗi người trong số năm người hàng xóm tương lai của họ vị trí ưa thích của họ cho ngôi nhà mới của bạn. Họ đều thích bạn và muốn bạn sống gần họ. Vì vậy, tất cả họ tuyên bố vị trí ưa thích của họ là vị trí ngay bên cạnh nhà riêng của họ. Bạn lấy trung bình của tất cả các địa điểm được bình chọn của năm người hàng xóm của mình và kết quả là "cách làng 200 mét" (trung bình số phiếu: 0 + 0 + 0 + 0 + 1000/5 = 200), đó là " Điểm trung bình " của 5 ngôi nhà, mà bạn sẽ có được tương tự bằng cách sử dụng công thức trung bình. Và vị trí này hóa ra giống hệt nhau, bắt chước tổng khoảng cách bình phương (nghĩa là hàm mất L2). Chúng ta hãy làm toán để xem nó:
    • Tại vị trí này, tổng khoảng cách bình phương là: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • Nếu chúng ta xây nhà ở trung tâm làng, tổng khoảng cách bình phương của chúng ta sẽ là: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • Nếu chúng ta xây dựng xây dựng ngôi nhà ở cách làng 100 mét (như trong 1), tổng khoảng cách bình phương là: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • Nếu chúng ta xây dựng ngôi nhà cách ngôi nhà biệt lập 100 mét, tổng khoảng cách bình phương là: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

Vì vậy, có, thật thú vị khi nhận thấy rằng, một chút trái ngược với trực giác, khi chúng ta giảm thiểu tổng khoảng cách, cuối cùng chúng ta không ở giữa "theo nghĩa", nhưng theo nghĩa của trung vị. Đây là một phần lý do tại sao OLS, một trong những mô hình hồi quy phổ biến nhất, sử dụng lỗi bình phương thay vì lỗi tuyệt đối.


1

Ngoài các câu trả lời đã được đăng (rất hữu ích với tôi!), Có một lời giải thích hình học cho mối liên hệ giữa định mức L2 và giá trị trung bình.

Để sử dụng ký hiệu tương tự như Chefwen , công thức cho mất L2 là:

L2= =1kΣtôi= =1k(ytôi-β)2

Chúng tôi muốn tìm giá trị của giúp giảm thiểu . Lưu ý rằng điều này tương đương với việc giảm thiểu các điều sau đây, vì nhân với và lấy căn bậc hai cả hai thứ tự bảo toàn:L 2 kβL2k

Σtôi= =1k(ytôi-β)2

Nếu bạn xem xét các vector dữ liệu như một điểm trong gian ba chiều, công thức này sẽ tính toán khoảng cách Euclide giữa điểm và điểm .ykyβ= =(β,β,...,β)

Vì vậy, vấn đề là tìm giá trị để giảm thiểu khoảng cách Euclide giữa các điểm và . Do các giá trị có thể có của đều nằm trên đường thẳng song song với theo định nghĩa, điều này tương đương với việc tìm phép chiếu vectơ của lên .βyββ1= =(1,1,...,1)y1

Chỉ thực sự có thể hình dung điều này khi , nhưng đây là một ví dụ trong đó . Như được hiển thị, chiếu lên mang lại như chúng ta mong đợi.k= =2y= =(2,6)1(4,4)

vector y chiếu lên beta

Để chỉ ra rằng phép chiếu này luôn mang lại giá trị trung bình (bao gồm cả khi ), chúng ta có thể áp dụng công thức cho phép chiếu :k>2

β= =proj1y= =y1|1|21β= =Σtôi= =1kytôik
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.