Hessian theo kinh nghiệm của một người ước lượng M có thể là vô thời hạn không?


15

Jeffrey Wooldridge trong Phân tích kinh tế học về mặt cắt ngang và dữ liệu bảng (trang 357) nói rằng Hessian theo kinh nghiệm "không được đảm bảo là xác định dương, hoặc thậm chí là bán chính xác, đối với mẫu cụ thể mà chúng tôi đang làm việc.".

Điều này có vẻ sai đối với tôi vì (các vấn đề về số) ngoài ra, Hessian phải là bán chính xác do kết quả của định nghĩa của công cụ ước lượng M là giá trị của tham số làm giảm thiểu hàm mục tiêu cho mẫu đã cho và thực tế đã biết ở mức tối thiểu (cục bộ), Hessian là nửa cực dương.

Lập luận của tôi có đúng không?

[EDIT: Tuyên bố đã bị xóa trong lần xuất bản thứ 2. của cuốn sách. Xem bình luận.]

BỐI CẢNH Giả sử rằng θ N là một ước lượng thu được bằng cách giảm thiểu nơi biểu thị quan sát -thứ.θ^N

1Ni=1Nq(wi,θ),
wii

Hãy biểu thị Hessian của theo , qH

H(q,θ)ij=2qθiθj

Hiệp phương sai tiệm cận của liên quan đến trong đó là giá trị tham số thực. Một cách để ước tính nó là sử dụng Hesssian theo kinh nghiệmθ^nE[H(q,θ0)]θ0

H^=1Ni=1NH(wi,θ^n)

Đây là tính xác định của đó là trong câu hỏi.H^


1
@Jyotirmoy, nếu tối thiểu xảy ra ở ranh giới của không gian tham số của bạn thì sao?
Đức hồng y

@ thẻ. Bạn nói đúng, lập luận của tôi sẽ không hoạt động trong trường hợp đó. Nhưng Wooldridge đang xem xét trường hợp tối thiểu là trong nội thất. Có phải anh ấy đã sai trong trường hợp đó?
Jyotirmoy Bhattacharya

@Jyotirmoy, nó chắc chắn chỉ có thể là semidefinite tích cực. Hãy nghĩ về các hàm tuyến tính hoặc một hàm trong đó tập hợp các điểm tối thiểu tạo thành một đa giác lồi. Đối với một ví dụ đơn giản hơn, hãy xem xét bất kỳ đa thức tại . x = 0f(x)=x2nx=0
Đức hồng y

1
@ thẻ. Thật. Điều gây phiền toái cho tôi là cụm từ "thậm chí là bán chính xác" trong tuyên bố được trích dẫn.
Jyotirmoy Bhattacharya

@Jyotirmoy, có một hình thức cụ thể của công cụ ước tính M được đưa ra trong cuốn sách mà bạn có thể cung cấp không? Cũng cung cấp không gian tham số đang xem xét. Có lẽ sau đó chúng ta có thể tìm ra những gì tác giả đã nghĩ trong đầu. Nói chung, tôi nghĩ rằng chúng tôi đã xác nhận rằng khẳng định của tác giả là chính xác. Đặt các ràng buộc hơn nữa trên dạng hoặc không gian tham số được xem xét có thể thay đổi điều đó. q
Đức hồng y

Câu trả lời:


16

Tôi nghĩ bạn đúng. Hãy chắt lọc lập luận của bạn về bản chất của nó:

  1. giảm thiểu chức năngQđịnh nghĩa làQ(θ)=1θ^NQQ(θ)=1Ni=1Nq(wi,θ).

  2. Hãy là Hessian của Q , đâu H ( θ ) = 2 QHQ theo định nghĩa và điều này đến lượt nó, bởi tuyến tính của sự khác biệt, tương đương1H(θ)=2Qθiθj.1Ni=1NH(wi,θn)

  3. Giả sử θ N nằm trong nội thất của lĩnh vực Q , sau đó H ( θ N ) phải tích cực bán nhất định.θ^NQH(θ^N)

Đây chỉ là một tuyên bố về chức năng : làm thế nào nó được định nghĩa là chỉ đơn thuần là một sự xao lãng, ngoại trừ trường hợp là giả differentiability bậc hai của q đối với đối số thứ hai của mình (với θ ) đảm bảo các differentiability trật tự thứ hai của Q .QqθQ


Tìm M-ước tính có thể là khó khăn. Hãy xem xét những dữ liệu này được cung cấp bởi @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

Quy trình R để tìm công cụ ước lượng M với tạo ra giải pháp ( c 1 , c 2 ) = ( - 114.91316 , - 32.54386 ) . Giá trị của hàm mục tiêu (trung bình của q 's) tại thời điểm này bằng 62,3542. Đây là một cốt truyện của sự phù hợp:q((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386)q

Phù hợp với 1

Dưới đây là một biểu đồ của hàm mục tiêu (log) trong vùng lân cận phù hợp này:

Mục tiêu 1

Có điều gì đó đáng nghi ở đây: các tham số của sự phù hợp rất xa so với các tham số được sử dụng để mô phỏng dữ liệu (gần ) và chúng tôi dường như không ở mức tối thiểu: chúng tôi đang ở trong một thung lũng cực kỳ nông, dốc hướng tới các giá trị lớn hơn của cả hai tham số:(0.3,0.2)

Mục tiêu 1, chế độ xem 3D

Yếu tố quyết định tiêu cực của Hessian tại thời điểm này xác nhận rằng đây không phải là mức tối thiểu cục bộ! Tuy nhiên, khi bạn nhìn vào các nhãn trục z, bạn có thể thấy rằng hàm này có độ chính xác đến năm chữ số trong toàn bộ khu vực, bởi vì nó bằng một hằng số 4.1329 (logarit của 62.354). Điều này có lẽ đã khiến bộ giảm thiểu chức năng R (với dung sai mặc định của nó) kết luận rằng nó gần mức tối thiểu.

Trong thực tế, giải pháp là xa điểm này. Để chắc chắn tìm thấy nó, tôi đã sử dụng phương pháp " Trục chính " đắt tiền nhưng có hiệu quả cao trong Mathicala , sử dụng độ chính xác 50 chữ số (cơ sở 10) để tránh các vấn đề về số có thể xảy ra. Nó tìm thấy mức tối thiểu gần trong đó hàm mục tiêu có giá trị 58,292655: nhỏ hơn khoảng 6% so với "tối thiểu" được tìm thấy bởi R. Mức tối thiểu này xảy ra trong một phần trông cực kỳ phẳng , nhưng tôi có thể làm cho nó trông (chỉ vừa đủ) như một mức tối thiểu thực sự, với các đường viền hình elip, bằng cách phóng đại c 2(c1,c2)=(0.02506,7.55973)c2 hướng trong cốt truyện:

Mục tiêu 2

Các đường viền nằm trong khoảng từ 58.29266 ở giữa cho đến 58,29284 ở các góc (!). Đây là chế độ xem 3D (một lần nữa của mục tiêu nhật ký):

Mục tiêu 2, chế độ xem 3D

Ở đây, Hessian là xác định dương: giá trị riêng của nó là 55062,02 và 0,430978. Do đó , điểm này là mức tối thiểu cục bộ (và có thể là mức tối thiểu toàn cầu). Đây là sự phù hợp tương ứng với:

Phù hợp với 2

Tôi nghĩ nó tốt hơn cái kia. Các giá trị tham số chắc chắn thực tế hơn và rõ ràng chúng ta sẽ không thể làm tốt hơn với họ đường cong này.

Có những bài học hữu ích chúng ta có thể rút ra từ ví dụ này:

  1. Tối ưu hóa số có thể khó khăn, đặc biệt là với các hàm mất phi tuyến và bậc hai. Vì thế:
  2. Kiểm tra lại kết quả theo nhiều cách nhất có thể, bao gồm:
  3. Vẽ đồ thị hàm mục tiêu bất cứ khi nào bạn có thể.
  4. Khi kết quả số xuất hiện vi phạm các định lý toán học, hãy cực kỳ nghi ngờ.
  5. Khi kết quả thống kê là đáng ngạc nhiên - chẳng hạn như các giá trị tham số đáng ngạc nhiên được trả về bởi mã R - sẽ rất đáng ngờ.

+1, phân tích hay. Tôi nghĩ đó là lý do tại sao Wooldridge bao gồm nhận xét. Tôi vẫn nghĩ rằng có thể nghĩ về một số ví dụ trong đó hessian sẽ là vô định. Ví dụ hạn chế không gian tham số. Trong ví dụ này, không gian tham số là toàn bộ mặt phẳng, đó là lý do tại sao mức tối thiểu cục bộ sẽ cho hessian bán tích cực. Tôi nghĩ đã đến lúc viết một email hay cho Wooldridge để nhận câu hỏi của anh ấy :)
mpiktas

@mpiktas Có, tôi chắc chắn tồn tại các vấn đề trong đó mức tối thiểu toàn cầu bên trong có Hessian không xác định, tuy nhiên tất cả các tham số đều có thể xác định được. Nhưng điều đó chỉ đơn giản là không thể đối với Hessian ở mức tối thiểu toàn cầu bên trong toàn cầu là không xác định. Loại điều này đã được chứng minh nhiều lần, chẳng hạn như trong Cấu trúc liên kết của Milnor từ một quan điểm khác biệt . Tôi nghi ngờ Wooldridge có thể đã bị đánh lừa bởi các "giải pháp" số sai lầm. (Các lỗi chính tả trên trang trích dẫn cho thấy nó được viết vội vàng, nhân tiện.)
whuber

thậm chí ở ranh giới, hessian sẽ tích cực? Tôi sẽ kiểm tra cuốn sách, tôi thấy rằng tôi thực sự thiếu kiến ​​thức sâu rộng trong lĩnh vực này. Các định lý cổ điển rất đơn giản, vì vậy tôi cho rằng không nên có gì khác quá phức tạp. Đó có thể là một trong những lý do tại sao tôi gặp rất nhiều khó khăn khi trả lời câu hỏi.
mpiktas

@mpiktas Ở ranh giới, Hessian thậm chí sẽ không nhất thiết được xác định . Ý tưởng là thế này: nếu ma trận đạo hàm Jacobian / Hessian / giây được xác định tại một điểm tới hạn, thì trong một vùng lân cận, hàm hoạt động giống như dạng bậc hai được xác định bởi ma trận này. Nếu ma trận có giá trị riêng dương âm, hàm phải tăng theo một số hướng và giảm theo hướng khác: nó không thể là một cực trị cục bộ. Đây là những gì liên quan @Jyotirmoy về báo giá, dường như mâu thuẫn với tài sản cơ bản này.
whuber

Cảm ơn cả bạn và @mpiktas vì những phân tích rất hay. Tôi có xu hướng đồng ý với bạn rằng Wooldridge đang nhầm lẫn những khó khăn về số với các tính chất lý thuyết của công cụ ước tính. Hãy xem nếu có bất kỳ câu trả lời khác.
Jyotirmoy Bhattacharya

7

Các báo giá đầy đủ có thể được tìm thấy ở đây . Ước tính θ N là giải pháp của vấn đề giảm thiểu ( trang 344 ):θ^N

minθΘN1i=1Nq(wi,θ)

Nếu giải pháp θ N là điểm bên trong của Θ , hàm mục tiêu là hai lần khả vi và độ dốc của hàm mục tiêu là số không, sau đó Hessian của hàm mục tiêu (đó là H ) là tích cực bán nhất định.θ^NΘH^

Bây giờ những gì Wooldridge đang nói rằng đối với mẫu đã cho, Hessian theo kinh nghiệm không được đảm bảo là xác định dương hoặc thậm chí là bán chính xác dương. Điều này đúng, vì Wooldrige không đòi hỏi hàm mục tiêu có đặc tính tốt đẹp, ông đòi hỏi rằng có tồn tại một giải pháp độc đáo θ 0 choN1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

N1i=1Nq(wi,θ)Θ

Hơn nữa trong cuốn sách của mình, Wooldridge đưa ra một ví dụ về các ước tính của Hessian được đảm bảo là xác định số dương. Trong thực tế, sự dứt khoát không tích cực của Hessian nên chỉ ra rằng giải pháp nằm trên điểm biên hoặc thuật toán không tìm được giải pháp. Mà thường là một dấu hiệu nữa cho thấy mô hình được trang bị có thể không phù hợp với dữ liệu đã cho.

Dưới đây là ví dụ bằng số. Tôi tạo ra vấn đề bình phương tối thiểu phi tuyến tính:

yi=c1xic2+εi

X[1,2]εσ2set.seed(3)xiyi

Tôi đã chọn bình phương hàm mục tiêu của hàm mục tiêu bình phương nhỏ nhất phi tuyến tính thông thường:

q(w,θ)=(yc1xic2)4

Đây là mã trong R để tối ưu hóa chức năng, độ dốc và hessian của nó.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

Thử nghiệm đầu tiên rằng gradient và hessian hoạt động như quảng cáo.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

xy

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Gradient là 0, nhưng hessian là không tích cực.

Lưu ý: Đây là lần thứ ba tôi đưa ra câu trả lời. Tôi hy vọng cuối cùng tôi cũng có thể đưa ra những phát biểu toán học chính xác, điều này đã lảng tránh tôi trong các phiên bản trước.


wyxw=(x,y)ym(x,θ)m(x,θ)

@mpiktas, tôi không khá chắc chắn làm thế nào để giải thích câu đầu tiên của bạn do cách diễn đạt. Tôi có thể thấy hai cách, một cách tôi gọi là chính xác và cách khác tôi sẽ không làm. Ngoài ra, nói đúng ra, tôi không đồng ý với câu thứ hai trong đoạn đầu tiên của bạn. Như tôi đã trình bày ở trên, có thể ở mức tối thiểu cục bộ trong phần bên trong của không gian tham số mà không có Hessian xác định dương.
Đức hồng y

wyxw=(x,y)

@cardinal, tôi đã sửa từ ngữ của tôi. Bây giờ nó sẽ ổn thôi. Cảm ơn đã chỉ ra vấn đề.
mpiktas

@mptikas. Cả Wooldridge và tôi đều không cho rằng Hessian phải tích cực ở mọi nơi. Yêu cầu của tôi là đối với một mức tối đa bên trong, Hessian theo kinh nghiệm phải là bán chính xác dương như là một điều kiện cần thiết của một chức năng trơn tru đạt đến mức tối đa. Wooldridge dường như đang nói điều gì đó khác biệt.
Jyotirmoy Bhattacharya

3

Hessian là vô định tại một điểm yên ngựa. Có thể đây có thể là điểm dừng duy nhất trong phần bên trong của không gian tham số.

Cập nhật: Hãy để tôi giải thích. Đầu tiên, hãy giả sử rằng Hessian theo kinh nghiệm tồn tại ở mọi nơi.

θ^niq(wi,)(1/N)iH(wi,θ^n) is positive semidefinite. If not, then θ^n is not a local minimum. This follows from second order optimality conditions — locally iq(wi,) must not decrease in any directions away from θ^n.

One source of the confusion might the "working" definition of an M-estimator. Although in principle an M-estimator should be defined as argminθiq(wi,θ), it might also be defined as a solution to the equation

0=iq˙(wi,θ),
where q˙ is the gradient of q(w,θ) with respect to θ. This is sometimes called the Ψ-type. In the latter case a solution of that equation need not be a local minimum. It can be a saddle point and in this case the Hessian would be indefinite.

Practically speaking, even a positive definite Hessian that is nearly singular or ill-conditioned would suggest that the estimator is poor and you have more to worry about than estimating its variance.


could you adapt your answer so that it matches the notation of the question? To what is x2y2 referring? Where does this get inserted into the equations given in the question?
probabilityislogic

+1 Good points in the update, especially the last paragraph. When the Hessian is available--as is implicitly assumed throughout this discussion--one would automatically use its positive-definiteness as one of the criteria for testing any critical point and therefore this issue simply could not arise. This leads me to believe the Wooldridge quotation must concern the Hessian at a putative global minimum, not at a mere critical point.
whuber

1

There's been a lot of beating around the bush in this thread regarding whether the Hessian has to be positive (semi)definite at a local minimum. So I will make a clear statement on that.

Presuming the objective function and all constraint functions are twice continuously differentiable, then at any local minimum, the Hessian of the Lagrangian projected into the null space of the Jacobian of active constraints must be positive semidefinite. I.e., if Z is a basis for the null space of the Jacobian of active constraints, then ZT(Hessian of Lagrangian)Z must be positive semidefinite. This must be positive definite for a strict local minimum.

So the Hessian of the objective function in a constrained problem having active constraint(s) need not be positive semidefinite if there are active constraints.

Notes:

1) Active constraints consist of all equality constraints, plus inequality constraints which are satisfied with equality.

2) See the definition of the Lagrangian at https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) If all constraints are linear, then the Hessian of the Lagrangian = Hessian of the objective function because the 2nd derivatives of linear functions are zero. But you still need to do the projection jazz if any of these constraints are active. Note that lower or upper bound constraints are particular cases of linear inequality constraints. If the only constraints which are active are bound constraints, the projection of the Hessian into the null space of the Jacobian of active constraints amounts to eliminating the rows and columns of the Hessian corresponding to those components on their bounds.

4) Because Lagrange multipliers of inactive constraints are zero, if there are no active constraints, the Hessian of the Lagrangian = the Hessian of the objective function, and the Identity matrix is a basis for the null space of the Jacobian of active constraints, which results in the simplification of the criterion being the familiar condition that the Hessian of the objective function be positive semidefinite at a local minimum (positive definite if a strict local minimum).


0

The positive answers above are true but they leave out the crucial identification assumption - if your model is not identified (or if it is only set identified) you might indeed, as Wooldridge correctly indicated, find yourself with a non-PSD empirical Hessian. Just run some non-toy psychometric / econometric model and see for yourself.


Because this does not seem mathematically possible, could you offer a simple, clear example to demonstrate how the Hessian of a continuously twice-differentiable objective function could possibly fail to be PSD at a global minimum?
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.