Quan điểm thống nhất về độ co ngót: mối quan hệ (nếu có) giữa nghịch lý của Stein, hồi quy sườn và hiệu ứng ngẫu nhiên trong các mô hình hỗn hợp là gì?


64

Hãy xem xét ba hiện tượng sau đây.

  1. Nghịch lý của Stein: đưa ra một số dữ liệu từ phân phối chuẩn nhiều biến số trong Rn,n3 , mẫu trung bình không phải là một ước lượng rất tốt của giá trị trung bình thật sự. Người ta có thể có được ước tính với sai số bình phương trung bình thấp hơn nếu người ta thu nhỏ tất cả các tọa độ của giá trị trung bình mẫu về 0 [hoặc đối với giá trị trung bình của chúng hoặc thực sự đối với bất kỳ giá trị nào, nếu tôi hiểu chính xác].

    Lưu ý: thường thì nghịch lý của Stein được hình thành thông qua việc chỉ xem xét một điểm dữ liệu duy nhất từ ; xin vui lòng sửa cho tôi nếu điều này là quan trọng và công thức của tôi ở trên là không chính xác.Rn

  2. Hồi quy độ dốc: đưa ra một số biến phụ thuộc và một số biến độc lập , hồi quy chuẩn có xu hướng để phù hợp với dữ liệu và dẫn đến hiệu suất ngoài mẫu kém. Người ta thường có thể giảm quá mức bằng cách thu nhỏ về 0: .yXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. Hiệu ứng ngẫu nhiên trong các mô hình đa cấp / hỗn hợp: được đưa ra một số biến phụ thuộc (ví dụ: chiều cao của học sinh) phụ thuộc vào một số dự đoán phân loại (ví dụ: id trường và giới tính của học sinh), người ta thường khuyên nên coi một số dự đoán là 'ngẫu nhiên', nghĩa là giả sử rằng chiều cao của học sinh trung bình ở mỗi trường đến từ một số phân phối bình thường cơ bản. Điều này dẫn đến việc thu hẹp các ước tính về chiều cao trung bình của mỗi trường đối với giá trị trung bình toàn cầu.y

Tôi có cảm giác rằng tất cả những điều này là các khía cạnh khác nhau của cùng một hiện tượng "co rút", nhưng tôi không chắc chắn và chắc chắn thiếu một trực giác tốt về nó. Vì vậy, câu hỏi chính của tôi là: thực sự có một sự tương đồng sâu sắc giữa ba điều này, hay nó chỉ là một ngữ nghĩa bề ngoài? Chủ đề phổ biến ở đây là gì? Trực giác chính xác về nó là gì?

Ngoài ra, đây là một số phần của câu đố này không thực sự phù hợp với tôi:

  • Trong hồi quy sườn, không được thu hẹp đồng đều; co rút sườn núi thực sự liên quan đến phân rã giá trị số ít của , với các hướng phương sai thấp được thu hẹp hơn (xem ví dụ: Các yếu tố của học thống kê 3.4.1). Nhưng công cụ ước tính James-Stein chỉ đơn giản lấy trung bình mẫu và nhân nó với một hệ số tỷ lệ. Làm thế nào mà phù hợp với nhau?βX

    Cập nhật: xem Công cụ ước tính James-Stein với phương sai không bằng nhauví dụ ở đây liên quan đến phương sai của các hệ số .β

  • Giá trị trung bình mẫu là tối ưu trong các kích thước dưới 3. Điều đó có nghĩa là khi chỉ có một hoặc hai yếu tố dự báo trong mô hình hồi quy, hồi quy sườn sẽ luôn tệ hơn bình phương tối thiểu thông thường? Trên thực tế, khi nghĩ về nó, tôi không thể tưởng tượng được một tình huống trong 1D (nghĩa là hồi quy đơn giản, không bội số) trong đó co rút sườn núi sẽ có lợi ...

    Cập nhật: Không. Xem Dưới chính xác những điều kiện nào là hồi quy sườn có thể cung cấp một cải tiến so với hồi quy bình phương nhỏ nhất bình thường?

  • Mặt khác, giá trị trung bình mẫu luôn không tối ưu ở các kích thước trên 3. Điều đó có nghĩa là với hơn 3 yếu tố hồi quy sườn luôn luôn tốt hơn OLS, ngay cả khi tất cả các yếu tố dự đoán không tương quan (trực giao)? Thông thường hồi quy sườn núi được thúc đẩy bởi tính đa hình và nhu cầu "ổn định" thuật ngữ.(XX)1

    Cập nhật: Có! Xem chủ đề tương tự như trên.

  • Thường có một số cuộc thảo luận sôi nổi về việc liệu các yếu tố khác nhau trong ANOVA nên được đưa vào dưới dạng hiệu ứng cố định hay ngẫu nhiên. Không phải chúng ta, theo cùng một logic, luôn luôn coi một yếu tố là ngẫu nhiên nếu nó có nhiều hơn hai cấp độ (hoặc nếu có nhiều hơn hai yếu tố? Bây giờ tôi có nhầm lẫn không)?

    Cập nhật : ?


Cập nhật: Tôi đã nhận được một số câu trả lời xuất sắc, nhưng không có câu trả lời nào đủ cho một bức tranh lớn, vì vậy tôi sẽ để câu hỏi "mở". Tôi có thể hứa sẽ trao phần thưởng ít nhất 100 điểm cho câu trả lời mới sẽ vượt qua câu trả lời hiện có. Tôi chủ yếu tìm kiếm một quan điểm thống nhất có thể giải thích hiện tượng chung của sự co ngót thể hiện như thế nào trong các bối cảnh khác nhau và chỉ ra những khác biệt chính giữa chúng.


Hiểu biết của tôi là hồi quy sườn (và các anh em họ của nó như Lasso và lưới đàn hồi) thu nhỏ các hệ số cho các biến tương quan được chia sẻ bởi tất cả các quan sát trong hồi quy (ví dụ, tình trạng kinh tế xã hội của học sinh và GPA) trong khi mô hình hiệu ứng ngẫu nhiên thực hiện co lại theo hệ số mức độ loại trừ lẫn nhau hoặc các nhóm quan sát tương quan (như tình trạng kinh tế xã hội của học sinh được nhóm theo id trường).
RobertF

3
Tôi nghĩ rằng nơi tốt nhất để nhận được câu trả lời thống nhất là xem từ khóa BLUP (dành cho Dự đoán không thiên vị tuyến tính tốt nhất). trong tài liệu chăn nuôi. Xem ví dụ khảo sát của Robinson trong Khoa học thống kê. Hoặc cuốn sách của
Tây An

2
@ Xi'an: Cảm ơn rất nhiều, tôi đã tự mình tìm thấy cuốn sách của Gruber và mặc dù anh ấy chắc chắn đã thảo luận về cả James-Stein và hồi quy sườn núi rất nhiều, tôi đã không tìm thấy bất kỳ so sánh trực tiếp nào giữa hai cuốn sách này (đọc toàn bộ cuốn sách là không phải là một lựa chọn cho tôi ngay bây giờ ...). Cảm ơn đã liên kết đến khảo sát của Robinson, tôi sẽ xem xét; chăn nuôi ! ai có thể nghĩ Nhân tiện, tôi đã thấy ý kiến ​​của bạn về các chủ đề liên quan, và đoán rằng bạn có thể là một trong những người thực sự có thể cung cấp một câu trả lời thỏa đáng ở đây! Điều này sẽ rất tuyệt vời; cho đến nay không có câu trả lời làm cho tôi nội dung.
amip nói rằng Phục hồi lại

2
@ Xi'an: Chà, những bình luận hữu ích của bạn dưới đây làm tôi nhớ một câu trả lời từ bạn ở đây. Dù sao, tôi bắt đầu đọc Robinson và nhận ra rằng "Dự đoán không thiên vị tuyến tính tốt nhất" là một công cụ ước tính thiên vị (rõ ràng, vì nó thực hiện thu nhỏ)! Thật là một thuật ngữ tốt đẹp.
amip nói rằng Phục hồi lại

4
Họ rất giỏi trong việc nhân giống động vật: sau khi Casella & George 1992 "Gibbs for children" phải đổi tên để được xuất bản, Wang & Gianola đã viết một bài giới thiệu "Gibbs cho lợn" vào năm 1993 tại một cuộc họp của Hiệp hội sản xuất động vật châu Âu!
Tây An

Câu trả lời:


30

Kết nối giữa công cụ ước tính JamesTHER Stein và hồi quy sườn

yθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
Dễ dàng thấy rằng hai công cụ ước tính có dạng giống nhau, nhưng chúng ta cần ước tính trong công cụ ước tính James-Stein và xác định trong hồi quy sườn qua xác thực chéo.σ2λ

Kết nối giữa công cụ ước tính James lấy Stein và các mô hình hiệu ứng ngẫu nhiên

Trước tiên chúng ta hãy thảo luận về các mô hình hiệu ứng hỗn hợp / ngẫu nhiên trong di truyền học. Mô hình là Nếu không có hiệu ứng cố định và , mô hình sẽ trở thành tương đương với cài đặt của công cụ ước tính James-Stein, với một số Ý tưởng Bayes.

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Kết nối giữa các mô hình hiệu ứng ngẫu nhiên và hồi quy sườn

Nếu chúng tôi tập trung vào các mô hình hiệu ứng ngẫu nhiên ở trên, Ước tính tương đương để giải quyết vấn đề khi . Bằng chứng có thể được tìm thấy trong Chương 3 của Nhận dạng mẫu và học máy .

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

Kết nối giữa các mô hình hiệu ứng ngẫu nhiên (đa cấp) và mô hình di truyền

Trong mô hình hiệu ứng ngẫu nhiên ở trên, thứ nguyên của là và của là . Nếu chúng ta vector hóa là và lặp lại , thì chúng ta có cấu trúc phân cấp / cụm, cụm và mỗi cụm có đơn vị. Nếu chúng ta hồi quy trên lặp lại , thì chúng ta có thể thu được hiệu ứng ngẫu nhiên của trên cho mỗi cụm, mặc dù nó giống như hồi quy ngược.ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Lời cảm ơn : ba điểm đầu tiên phần lớn được học từ hai bài báo tiếng Trung này, 1 , 2 .


(+1) Cảm ơn rất nhiều! Điều này rất hữu ích, và tôi chắc chắn sẽ xem trong sách giáo khoa của Đức cha mà tôi biết rõ và thường tham khảo. Tôi không mong đợi tìm thấy bất cứ điều gì trên các mô hình hỗn hợp ở đó, nhưng có vẻ như Phần 3.3 "Hồi quy tuyến tính Bayes" thực sự là về điều đó, chỉ sử dụng các thuật ngữ khác nhau. Rất tốt để biết! Nhưng những gì bạn có về câu hỏi đạn của tôi?
amip nói rằng Phục hồi lại

Bạn có quá nhiều câu hỏi trong một bài. :) 1) Như tôi đã trả lời ở trên, ước lượng James-Stein và hồi quy sườn là tương đương khi không có đồng biến , hoặc chỉ là một ma trận danh tính. 2,3,4) như @James đã đề cập, số lượng dự đoán ( ở trên) không nhất thiết phải bằng kích thước phản hồi . Xpm
Randel

BTW, tôi không thể thấy trung bình mẫu / trung bình mẫu được sử dụng trong công cụ ước tính James-Stein, nó thực sự lấy công cụ ước tính và sau đó thu nhỏ nó thành . y0
Randel

2
Công cụ ước tính JS và hồi quy sườn là khác biệt. Ước tính hồi quy sườn của vị trí -chiều của vectơ p tương ứng với ma trận thiết kế , điều này sẽ dẫn đến ước tính , thiếu cụm từ (phi tuyến tính!) trong mẫu số của công cụ ước tính JSpIp(1+λ)1Ipyy2
Andrew M

3
Tôi nghĩ rằng tất cả phụ thuộc vào những gì bạn gọi ước tính sườn núi. Theo nghĩa đầu của Hoerl và Kennard (1970), thực sự không có sự phụ thuộc của vào dữ liệu. Theo nghĩa sau này của luận án tiến sĩ của Casella (1978), việc xác định thủ công được thay thế bằng một hàm của tổng bình phương còn lại. λλ
Tây An

6

Tôi sẽ để nó như một bài tập cho cộng đồng để đưa ra câu trả lời này, nhưng nói chung lý do tại sao các công cụ ước tính co rút sẽ * chiếm ưu thế * cụ ước lượng không thiên vị trong các mẫu hữu hạn là bởi vì công cụ ước tính Bayes không thể bị chi phối , và nhiều công cụ ước tính co ngót có thể được coi là Bayes. 1234

Tất cả những điều này thuộc về aegis của Lý thuyết quyết định. Một tài liệu tham khảo đầy đủ, nhưng khá không thân thiện là "Lý thuyết ước tính điểm" của Lehmann và Casella. Có lẽ những người khác có thể kêu vang với các tài liệu tham khảo thân thiện hơn?


1 Một ước lượng của tham số trên dữ liệu được thống trị bởi một ước lượng nếu với mọi rủi ro (ví dụ, bình Lỗi Square) của bằng hoặc lớn hơn và nhịp cho ít nhất một . Nói cách khác, bạn có hiệu suất tương đương hoặc tốt hơn cho ở mọi nơi trong không gian tham số.δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 cụ ước tính là Bayes (dưới mọi trường hợp mất lỗi bình phương) nếu đó là kỳ vọng sau của , được cung cấp dữ liệu, theo một số trước , ví dụ: , nơi kỳ vọng được thực hiện với hậu thế. Đương nhiên, các linh mục khác nhau dẫn đến những rủi ro khác nhau cho các tập hợp con khác nhau của . Một ví dụ về đồ chơi quan trọng là đặt tất cả trước khối lượng về điểm . Sau đó, bạn có thể chỉ ra rằng công cụ ước tính Bayes là hàm hằngθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0, tất nhiên có hiệu suất cực kỳ tốt tại và gần , và hiệu suất rất tệ ở nơi khác. Nhưng dù sao, nó không thể bị chi phối, bởi vì chỉ có công cụ ước tính đó mới dẫn đến rủi ro bằng 0 tại .θ0θ0

3 Một câu hỏi tự nhiên là nếu bất kỳ công cụ ước tính nào không thể bị chi phối (được gọi là chấp nhận được , mặc dù sẽ không thể bất khuất được?) Có cần Bayes không? Câu trả lời là gần như. Xem "định lý lớp hoàn chỉnh."

4 Ví dụ, hồi quy sườn núi phát sinh như một thủ tục Bayesian khi bạn đặt một bình thường (0, ) trước khi vào , và ngẫu nhiên mô hình hiệu quả phát sinh như một thủ tục Bayes thực nghiệm trong một khuôn khổ tương tự . Những lập luận này rất phức tạp bởi thực tế là phiên bản vanilla của các định lý chấp nhận Bayes cho rằng mọi tham số đều được đặt trước thích hợp. Ngay cả trong hồi quy sườn, điều đó không đúng, bởi vì "trước" được đặt trên phương sai1/λ2βσ2của thuật ngữ lỗi là hàm hằng (số đo Lebesgue), không phải là phân phối xác suất (có thể tích hợp) thích hợp. Tuy nhiên, nhiều công cụ ước tính Bayes "một phần" như vậy có thể được hiển thị để được chấp nhận bằng cách chứng minh rằng chúng là "giới hạn" của một chuỗi các công cụ ước tính là Bayes thích hợp. Nhưng bằng chứng ở đây trở nên khá phức tạp và tinh tế. Xem "công cụ ước tính vịnh tổng quát".


1
Cảm ơn rất nhiều, rất thú vị (+1). Tôi chỉ có thể muốn câu trả lời của bạn chi tiết hơn ... Re chú thích của bạn (3): bạn có nói rằng tất cả những người ước tính Bayes đều được chấp nhận / bất khuất (tôi thích từ này), độc lập với trước không? Nhưng công cụ ước tính James-Stein có thể được lấy từ Bayes theo kinh nghiệm; Tại sao nó không được chấp nhận? Ngoài ra, điều đó có nghĩa là ví dụ: trong hồi quy sườn, tôi có thể lấy một tập trung trước không phải bằng 0, nhưng xung quanh một số giá trị khác: , và nó vẫn sẽ một chiến lược chính quy hóa hợp lý? βN(β0,1/λ2)
amip nói rằng Phục hồi lại

2
Vì lý do tại sao công cụ ước tính James-Stein không được chấp nhận, bạn có thể tìm thấy câu trả lời ở đây . Ngoài ra còn có một cuộc thảo luận chi tiết và thú vị trong Lehmann & Casella (1998), Lý thuyết ước tính điểm .
Randel

@Randel: vâng, tôi biết rằng điều đó là không thể chấp nhận được và đã thấy lý do đó, tôi chỉ tự hỏi làm thế nào nó phù hợp với tuyên bố của Andrew (cho tôi hiểu chính xác) rằng tất cả những người ước tính Bayes đều được chấp nhận, vì James-Stein có thể được hiểu Bayes ...
amip nói rằng Phục hồi lại

2
@Amoeba: có, bất kỳ công cụ ước tính Bayes nào là hậu thế dưới bất kỳ sự dẫn trước thích hợp nào dẫn đến một công cụ ước tính được chấp nhận. Theo như Bayes theo kinh nghiệm, các quy trình như vậy trên thực tế không phải là bonafide Bayes, bởi vì việc phụ thuộc trước vào dữ liệu có thể dẫn đến các bệnh lý. Đôi khi chúng có thể được hiển thị để được chấp nhận, đôi khi chúng không được - thông thường bạn phải làm việc theo từng trường hợp. Tôi đã chỉnh sửa câu trả lời của mình để cẩn thận hơn một chút về điểm này, vì thực tế tôi không biết liệu các mô hình hỗn hợp tuyến tính cổ điển có được chấp nhận hay không!
Andrew M

3
Chỉ cần chỉ ra rằng các công cụ ước tính Bayes chính hãng hiếm khi hoạt động như công cụ ước tính James-Stein vì chúng không phải là minimax. Chẳng hạn, Bill Strawderman đã chỉ ra (năm 1975) rằng không tồn tại công cụ ước tính Bayes thích hợp minimax ở các kích thước nhỏ hơn 5 đối với bài toán trung bình thông thường đã đặt ra tất cả.
Tây An

2
  • James-Stein giả định rằng kích thước của phản hồi ít nhất là 3. Trong hồi quy sườn tiêu chuẩn, phản hồi là một chiều. Bạn đang nhầm lẫn số lượng dự đoán với kích thước phản hồi.

  • Điều đó đang được nói, tôi thấy sự tương đồng giữa các tình huống đó, nhưng chính xác phải làm gì, ví dụ liệu một yếu tố nên được cố định hay ngẫu nhiên, áp dụng độ co rút bao nhiêu, nếu hoàn toàn phụ thuộc vào tập dữ liệu cụ thể. Ví dụ, các yếu tố dự đoán càng trực giao thì càng ít có ý nghĩa khi chọn hồi quy Ridge so với hồi quy chuẩn. Số lượng tham số càng lớn, càng có ý nghĩa để trích xuất phần trước từ chính bộ dữ liệu thông qua Empirical Bayes và sau đó sử dụng nó để thu nhỏ các ước tính tham số. Tỷ lệ tín hiệu trên tạp âm càng cao, lợi ích của co ngót càng nhỏ, v.v.


Cảm ơn bạn đã trả lời. Về viên đạn đầu tiên của bạn: nhưng thứ đang bị thu hẹp trong hồi quy sườn là , có nhiều chiều như dự đoán, phải không? β
amip nói rằng Phục hồi Monica

1
Ok, theo lý thuyết, JS sẽ hoạt động tốt hơn, giả sử rằng nó đã được mở rộng cho trường hợp khi MSE được ước tính và ma trận phương sai hiệp phương sai của beta là tùy ý. Trong trường hợp đó, JS sẽ không chỉ lấy ước tính điểm của beta và nhân nó với hệ số tỷ lệ. Similary to Ridge Regression, các thành phần khác nhau của beta sẽ bị thu hẹp khác nhau.
James

Điểm rất hay về ma trận hiệp phương sai của ! Tôi đoán câu trả lời này (ít nhất là bằng trực giác) viên đạn đầu tiên của tôi. β
amip nói phục hồi Monica

2
@James: các mô hình tuyến tính có thể được nghĩ đến khi chiếu mẫu (sống trong ) lên không gian con -chiều (các cột được kéo dài bởi ma trận thiết kế.) Đặc biệt, chúng ta luôn có thể chiếu nó một cách tầm thường lên nhận dạng, mà giống như sử dụng giá trị trung bình mẫu của -vector khi bạn chỉ có một quan sát duy nhất. Rnpn
Andrew M

2

Như những người khác đã nói, kết nối giữa ba người là cách bạn kết hợp thông tin trước đó vào phép đo.

  1. Trong trường hợp nghịch lý Stein, bạn biết rằng mối tương quan thực sự giữa các biến đầu vào phải bằng 0 (và tất cả các biện pháp tương quan có thể có, vì bạn muốn ngụ ý độc lập, không chỉ là không tương quan), do đó bạn có thể xây dựng một biến tốt hơn đơn giản mẫu trung bình và triệt tiêu các biện pháp tương quan khác nhau. Trong khung Bayes, bạn có thể xây dựng một ưu tiên mà theo nghĩa đen là cân nhắc các sự kiện dẫn đến mối tương quan giữa các phương tiện mẫu và lên cân các yếu tố khác.
  2. Trong trường hợp hồi quy sườn, bạn muốn tìm một ước lượng tốt cho giá trị kỳ vọng có điều kiện E (y | x). Về nguyên tắc, đây là một vấn đề vô hạn và không xác định do chúng ta chỉ có số đo hữu hạn. Tuy nhiên, kiến ​​thức trước đó là chúng tôi đang tìm kiếm một hàm continuos mô hình hóa dữ liệu. Điều này vẫn chưa được xác định rõ ràng, vì vẫn còn vô số cách để mô hình hóa các hàm continuos, nhưng tập hợp có phần nhỏ hơn. Hồi quy sườn chỉ là một cách đơn giản để sắp xếp các hàm continuos có thể, kiểm tra chúng và dừng ở mức độ tự do cuối cùng. Giải thích là hình ảnh kích thước VC: trong quá trình hồi quy sườn, bạn kiểm tra xem mô hình af (x, p1, p2 ...) có mức độ tự do nhất định mô tả mức độ không chắc chắn vốn có trong dữ liệu. Trên thực tế, nó đo mức độ f (x, p1, p2 ... ) và P theo kinh nghiệm (p1, p2 ...) có thể xây dựng lại phân phối P (y | x) đầy đủ và không chỉ E (y | x). Bằng cách này, các mô hình có quá nhiều mức độ tự do (thường là quá mức) được cân nhắc, vì thông số nhiều hơn có nghĩa là sau một mức độ tự do nhất định sẽ cho tương quan lớn hơn giữa các tham số và do đó P (f (x, p1, p2) rộng hơn nhiều. ..)) phân phối. Một cách giải thích khác là hàm tổn thất ban đầu cũng là một giá trị đo và đánh giá trên một mẫu nhất định đi kèm với sự không chắc chắn, do đó, nhiệm vụ thực tế không phải là giảm thiểu hàm mất mát mà là tìm mức tối thiểu thấp hơn đáng kể so với một số khác (thực tế thay đổi từ một mức độ tự do sang một mức độ khác là một quyết định của Bayes, do đó, một thay đổi số lượng tham số chỉ khi chúng làm giảm đáng kể chức năng mất). Hồi quy sườn núi có thể được hiểu là gần đúng với hai hình ảnh này (kích thước CV, mất mát dự kiến). Trong một số trường hợp, bạn muốn sử dụng các mức độ tự do cao hơn, ví dụ như trong vật lý hạt bạn nghiên cứu sự va chạm hạt nơi bạn mong đợi số lượng hạt được sản xuất là phân phối Poisson, vì vậy bạn tái tạo lại hạt theo dõi từ trên ảnh (ví dụ như ảnh ) theo cách ưu tiên một số lượng nhất định các bản nhạc và loại bỏ các mô hình có số lần theo dõi số lượng hình ảnh nhỏ hơn hoặc cao hơn.
  3. Trường hợp thứ ba cũng cố gắng triển khai thông tin trước đó vào phép đo, cụ thể là được biết từ các phép đo trước đó rằng chiều cao của học sinh có thể được mô hình hóa rất tốt bằng các phân phối Gaussian chứ không phải bởi Cauchy, chẳng hạn.

Vì vậy, trong ngắn hạn, câu trả lời là bạn có thể thu nhỏ độ không đảm bảo của phép đo nếu bạn biết những gì mong đợi và phân loại dữ liệu với một số dữ liệu trước đó (thông tin trước). Dữ liệu trước đó là những gì ràng buộc chức năng mô hình hóa của bạn mà bạn sử dụng để phù hợp với các phép đo. Trong các trường hợp đơn giản, bạn có thể viết mô hình của mình trong khung Bayes, nhưng đôi khi nó không thực tế, giống như tích hợp trên tất cả các hàm continuos có thể để tìm ra mô hình có giá trị Bayesian Maximal A Posterior.


2

Công cụ ước tính James Stein và hồi quy Ridge

Xem xét

y=Xβ+ϵ

ϵN(0,σ2I)

Dung dịch vuông nhỏ nhất có dạng

β^=S1XyS=XX

β^βσ2S1

β^N(β,σ2S1)β^

James Stein

S=Iβ

βN(0,aI)

aa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^

Hồi quy sườn

XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

βλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^β^

β^(λ)

β^N(β^,σ2S1)

βN(0,σ2λI)

Sau đó, chúng tôi nhận được

E(β|β^)=(S+λI)1Sβ^

β^(λ)S=Ia=σ2λ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.