Bayesian tăng đột biến và phiến so với phương pháp bị phạt

Tôi đang đọc các slide của Steven Scott về gói BSTS R (Bạn có thể tìm thấy chúng ở đây: các slide ).

Tại một số điểm, khi nói về việc bao gồm nhiều biến hồi quy trong mô hình chuỗi thời gian cấu trúc, ông giới thiệu các linh mục tăng đột biến và hệ số hồi quy và nói rằng chúng tốt hơn so với các phương pháp bị phạt.

Scott nói, đề cập đến một ví dụ về bộ dữ liệu với 100 dự đoán:

Các phương thức được xử phạt đưa ra một quyết định duy nhất về các biến được bao gồm / loại trừ, điều đó có nghĩa là chúng quyết định một tập hợp con của các yếu tố dự đoán, tức là một mô hình trong số có thể. $2^{100}$
"Các linh mục Lasso (và có liên quan) không thưa thớt, họ gây ra sự thưa thớt ở chế độ nhưng không phải trong phân phối sau"

Tại thời điểm này, ông giới thiệu các linh mục Spike và Slab.

Tôi nghĩ rằng tôi đã có trực giác, nhưng tôi muốn chắc chắn về nó:

Có phải họ tốt hơn theo nghĩa là về cơ bản họ sử dụng một phương pháp tiếp cận vũ phu kiểm tra từng tập hợp con của các biến hồi quy có thể bao gồm?
Hạn chế là thời gian tính toán khi làm như vậy?
Bạn nghĩ anh ta có ý gì khi nói "Lasso (và có liên quan) ... nhưng không phải trong bản phân phối sau"?

— Guerrini
nguồn

Tôi sẽ trả lời câu hỏi thứ ba của bạn trước và giải quyết hai câu hỏi khác của bạn sau.

Bạn nghĩ anh ta có ý gì khi nói "Lasso (và có liên quan) ... nhưng không phải trong bản phân phối sau"?

Con số này từ các slide của anh ấy cho thấy những gì anh ấy có nghĩa. Biểu thị bộ thường xuyên Lasso như một bản phân phối trước có nghĩa là bản phân phối trước của bạn sẽ có dạng phân phối theo cấp số nhân Laplacian hoặc theo cấp số nhân . Phân phối này có một đỉnh không mịn đặc trưng tại giá trị trung bình, được đặt thành 0 để đạt được hiệu ứng chính quy thưa thớt. Để trực tiếp có được kết quả thường xuyên của Lasso, bạn nên sử dụng chế độ phân phối sau.

kiểm tra

Trong hình, đường đứt nét màu xanh đại diện cho phân phối trước Laplacian. Phân bố sau, màu đen đặc, có chế độ 0 ở bên trái với khả năng yếu, trong khi chế độ khác không ở bên phải với khả năng mạnh mẽ.

Tuy nhiên, phân phối sau đầy đủ không thưa thớt, bởi vì nếu bạn lấy mẫu từ nó, bạn sẽ hiếm khi nhận được giá trị nào đó gần bằng 0 và thực tế bởi vì đó là phân phối liên tục, bạn sẽ không bao giờ nhận được chính xác 0.

Để đạt được độ thưa thớt với cách tiếp cận Lasso, thông thường bạn cần đặt một số ngưỡng cắt ở chế độ sau. Trường hợp lý tưởng là nếu chế độ sau của bạn bằng 0, nhưng bạn có thể thư giãn điều này và loại bỏ biến của mình nếu chế độ sau của nó nhỏ hơn 0,2 sau khi lấy giá trị tuyệt đối.

Việc thực hiện sự thưa thớt này dưới lasso đưa ra một tập hợp các biến hồi quy bị loại bỏ và giữ lại cụ thể, đó là "quyết định duy nhất" về các biến hồi quy nào được bao gồm hoặc loại trừ.

Một cách tiếp cận Bayes đầy đủ để lựa chọn biến, tăng vọt và phiến trước, vẫn không chắc chắn về các biến nên được bao gồm hoặc loại trừ tất cả các cách thông qua mô hình.

Vì vậy, để giải quyết câu hỏi đầu tiên của bạn:

Có phải họ tốt hơn theo nghĩa là về cơ bản họ sử dụng một phương pháp tiếp cận vũ phu kiểm tra từng tập hợp con của các biến hồi quy có thể bao gồm?

Đây là một sự hiểu lầm, vì cả hai phương pháp đều không kiểm tra tất cả các tập con có thể có của các biến hồi quy.

Hạn chế là thời gian tính toán khi làm như vậy?

Đây cũng là một sự hiểu lầm, vì thời gian tính toán không bị chi phối bởi lực lượng vũ phu kiểm tra từng tập con có thể của hồi quy.

Để làm rõ quan điểm của Scott, được cung cấp một số dữ liệu, nếu bạn sử dụng phương pháp khai thác khả năng bị phạt, bạn sẽ nhận được chính xác một bộ các biến hồi quy được bao gồm và loại trừ. Nhưng nếu bạn sử dụng cách tiếp cận thưa thớt và phiến, bạn có một phân phối hậu nghiệm đầy đủ cho mỗi biến hồi quy, mỗi phương thức có một khả năng riêng biệt được bao gồm hoặc loại trừ. Một số biến hồi quy có thể có 70% cơ hội được đưa vào, số khác có 25% cơ hội. Điều này có thể được ưa thích hơn trong nhiều ứng dụng, bởi vì với một tập dữ liệu duy nhất, chúng ta vẫn không chắc chắn về việc hồi quy nào là quan trọng hay không.

Theo trực giác, một mũi nhọn và tấm trước tốt hơn đại diện cho không gian có thể có của các biến hồi quy được bao gồm / loại trừ so với cách tiếp cận khả năng bị phạt như lasso.

— ghẻ
nguồn

Cảm ơn rât nhiều! Sự hiểu biết của tôi về các slide của Scott rất hời hợt và một phần không đúng, bạn đã nói rõ điều đó!

— Tommaso Guerrini