Lựa chọn tính năng trên mô hình tuyến tính tổng quát phân cấp Bayes


8

Tôi đang tìm cách ước tính một GLM phân cấp nhưng với lựa chọn tính năng để xác định các hiệp phương sai nào có liên quan ở cấp độ dân số.

Giả sử tôi có các nhóm với quan sát và biến có thể có nghĩa là tôi có ma trận thiết kế của covariates \ boldsymbol {x} _ {(N \ cdot G) \ lần K} , kết quả \ boldsymbol {y} _ {(N \ cdot G) \ lần 1} . Các hệ số trên các hiệp phương sai này là \ beta_ {K \ lần 1} .GNKx(NG)×Ky(NG)×1βK×1

Giả sử Y ~ Bernoulli(p(x,β))

Dưới đây là một GLM phân cấp tiêu chuẩn với mô hình lấy mẫu logit và các hệ số nhóm phân phối thông thường.

L(y|x,β1,...βG)g=1Gt=1N(Pr{j=1|pt,βg})yg,t(1Pr{j=1|pt,βg})1yg,t

β1,...βG|μ,ΣiidNd(μ,Σ)

μ|ΣN(μ0,a1Σ)
ΣIW(v0,V01)

Tôi muốn sửa đổi mô hình này (hoặc tìm một bài báo thực hiện hoặc thảo luận về nó) theo cách có một số lựa chọn tính năng sắc nét (như trong LASSO) về tính chiều của β .

(1) Cách trực tiếp đơn giản nhất sẽ là thường xuyên hóa điều này ở cấp độ dân số để về cơ bản chúng tôi hạn chế kích thước của và tất cả có cùng một chiều.μβ

(2) Mô hình nhiều sắc thái hơn sẽ có độ co rút ở cấp độ nhóm, trong đó kích thước của phụ thuộc vào đơn vị chữ tượng hình.β

Tôi quan tâm đến việc giải quyết 1 và 2, nhưng quan trọng hơn nhiều là 1.

Câu trả lời:


1

Cách tôi giải quyết (1) sẽ liên quan đến mô hình cành và phiến giống như:

βg,k=zkmg,k

zkBern(p)

mg,kN(μ,Σ)

μ,ΣNIWv0(μ0,V01)

Điều này:

  • Duy trì tính linh hoạt trên 'từ NIW trước .βμ,Σ
  • Mô hình lựa chọn các biến cho tất cả các nhóm cùng một lúc.
  • Dễ dàng mở rộng bằng cách thêm chỉ mục phụ cho nhóm vào và có bản beta chung trước cho từng vị trí .zg,kk

Tất nhiên, tôi nghĩ rằng đây là loại vấn đề trong đó có một số cách tiếp cận hợp lệ.


2

Lựa chọn tính năng không phải là một mục tiêu tuyệt vời để có trong một phân tích. Trừ khi tất cả các yếu tố dự đoán không tương quan với nhau và kích thước mẫu của bạn là rất lớn, dữ liệu sẽ không thể cho bạn biết câu trả lời một cách đáng tin cậy. Đặc tả mô hình quan trọng hơn lựa chọn mô hình. Thông tin chi tiết có trong Ghi chú khóa học RMS của tôi . Nhưng thu nhỏ, không có lựa chọn tính năng (ví dụ: sườn núi hoặc ước tính khả năng tối đa bị phạt ) có thể là một ý tưởng tốt. Các mô hình Bayes phân cấp thậm chí còn tốt hơn bởi vì chúng cho phép suy luận thống kê trong mô hình thu nhỏ trong khi chúng ta mất hầu hết các công cụ suy luận trong thế giới thường xuyên sau khi thu hẹp.L2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.