GLM sau khi lựa chọn mô hình hoặc chính quy


12

Tôi muốn đặt ra câu hỏi này trong hai phần. Cả hai đều xử lý một mô hình tuyến tính tổng quát, nhưng các giao dịch đầu tiên liên quan đến lựa chọn mô hình và các giao dịch khác với chính quy hóa.

Bối cảnh: Tôi sử dụng các mô hình GLM (tuyến tính, logistic, hồi quy gamma) cho cả dự đoán và mô tả. Khi tôi đề cập đến " những điều bình thường người ta làm với hồi quy ", tôi chủ yếu mô tả với (i) khoảng tin cậy xung quanh các hệ số, (ii) khoảng tin cậy xung quanh các dự đoán và (iii) kiểm tra giả thuyết liên quan đến kết hợp tuyến tính của các hệ số như "là Có sự khác biệt giữa điều trị A và điều trị B? ".

Bạn có hợp pháp mất khả năng làm những điều này bằng cách sử dụng lý thuyết bình thường theo từng điều sau đây không? Và nếu vậy, những điều này thực sự chỉ tốt cho các mô hình được sử dụng cho dự đoán thuần túy?

I. Khi GLM đã phù hợp thông qua một số quy trình lựa chọn mô hình (để cụ thể hóa quy trình từng bước dựa trên AIC).

II.Khi GLM đã phù hợp thông qua phương pháp chính quy (giả sử sử dụng glmnet trong R).

Ý thức của tôi là đối với tôi, câu trả lời về mặt kỹ thuật là bạn nên sử dụng bootstrap cho " những điều bình thường người ta làm với hồi quy ", nhưng không ai thực sự tuân theo điều đó.

Thêm:
Sau khi nhận được một vài phản hồi và đọc ở nơi khác, đây là ý kiến ​​của tôi về vấn đề này (cho bất kỳ ai khác có lợi cũng như nhận được sự điều chỉnh).

I.
A) RE: Lỗi tổng quát hóa. Để tổng quát hóa tỷ lệ lỗi trên dữ liệu mới, khi không có thiết lập chờ, xác thực chéo có thể hoạt động nhưng bạn cần lặp lại quy trình hoàn toàn cho mỗi lần - sử dụng các vòng lặp lồng nhau - do đó, phải chọn bất kỳ tính năng, điều chỉnh tham số, v.v. thực hiện độc lập mỗi lần. Ý tưởng này nên giữ cho bất kỳ nỗ lực mô hình hóa nào (bao gồm các phương pháp bị phạt).

B) RE: Kiểm tra giả thuyết và khoảng tin cậy của GLM.Khi sử dụng lựa chọn mô hình (lựa chọn tính năng, điều chỉnh tham số, lựa chọn biến) cho mô hình tuyến tính tổng quát và tồn tại tập hợp giữ, cho phép đào tạo mô hình trên một phân vùng và sau đó khớp với mô hình trên dữ liệu còn lại hoặc tập dữ liệu đầy đủ và sử dụng mô hình / dữ liệu đó để thực hiện các kiểm tra giả thuyết, v.v ... Nếu không tồn tại tập hợp giữ, một bootstrap có thể được sử dụng, miễn là toàn bộ quá trình được lặp lại cho mỗi mẫu bootstrap. Điều này giới hạn các bài kiểm tra giả thuyết có thể được thực hiện mặc dù có lẽ một biến sẽ không luôn luôn được chọn chẳng hạn.

C) RE: Không mang theo dự đoán về các tập dữ liệu trong tương lai , sau đó phù hợp với một mô hình có mục đích được hướng dẫn bởi lý thuyết và một vài thử nghiệm giả thuyết và thậm chí xem xét để lại tất cả các biến trong mô hình (có ý nghĩa hay không) (dọc theo dòng của Hosmer và Lemeshow). Đây là biến nhỏ đặt kiểu mô hình hồi quy cổ điển và sau đó cho phép sử dụng thử nghiệm giả thuyết và giả thuyết của CI.

D) RE: Hồi quy hình phạt. Không có lời khuyên nào, có lẽ xem xét điều này chỉ phù hợp với dự đoán (hoặc là một loại lựa chọn tính năng để áp dụng cho một tập dữ liệu khác như trong B ở trên) vì sự thiên vị được đưa ra làm cho CI và giả thuyết kiểm tra không theo chiều hướng - ngay cả với bootstrap.


1
Mọi người đôi khi làm điều này - vô tình (tức là sử dụng sai Số liệu thống kê, vì họ nhận được kết quả mong muốn) và cố ý (họ đã thực hiện bootstrap và nó không ảnh hưởng đáng kể đến kết quả). Quan điểm của bạn là hợp lệ, và Giáo sư Mitchell đã chỉ ra điều này trong Lời nói đầu của cuốn sách rằng bootstrap có lợi.
suncoolsu

Đây là một cái gì đó như "có" cho quan điểm của bạn (II): arxiv.org/abs/1001.0188
Alex

Câu trả lời:


5

Bạn có thể xem bài viết của David Freedman, " Lưu ý về sàng lọc phương trình hồi quy. " (Vô duyên)

Sử dụng dữ liệu hoàn toàn không tương quan trong một mô phỏng, ông cho thấy rằng, nếu có nhiều yếu tố dự đoán liên quan đến số lượng quan sát, thì một quy trình sàng lọc tiêu chuẩn sẽ tạo ra một hồi quy cuối cùng chứa nhiều dự báo quan trọng (hơn cả tình cờ) và F có ý nghĩa cao thống kê. Mô hình cuối cùng cho thấy rằng nó có hiệu quả trong việc dự đoán kết quả, nhưng thành công này là giả mạo. Ông cũng minh họa những kết quả này bằng cách sử dụng các tính toán tiệm cận. Các giải pháp được đề xuất bao gồm sàng lọc trên một mẫu và đánh giá mô hình trên tập dữ liệu đầy đủ và sử dụng ít nhất một thứ tự quan sát nhiều hơn so với các yếu tố dự đoán.


Lưu ý: Để bootstrap là một giải pháp hiệu quả, bạn phải bootstrap toàn bộ quy trình, bắt đầu trước khi bất kỳ sàng lọc nào xảy ra, sàng lọc mẫu bootstrapping, sau đó tính hệ số. Nhưng bây giờ bạn có các bộ dự đoán khác nhau trong mỗi hồi quy và không còn rõ cách tính phân phối cho bất kỳ một trong số chúng. Tuy nhiên, khoảng tin cậy khởi động cho các giá trị dự đoán của kết quả có thể có hiệu quả, tuy nhiên.
Charlie

@charlie: [Tôi có đọc chính xác bạn rằng bạn chỉ đang nói chuyện với I. (lựa chọn mô hình) chứ không phải II. (bị phạt)] Bạn có nói rằng đối với các khoảng dự đoán, việc sử dụng lựa chọn mô hình và sau đó khởi động lại các dự đoán từ mô hình đó là hợp lệ, nhưng đối với bất kỳ điều gì khác, bạn cần phải khởi động lại toàn bộ quá trình?
B_Miner

@charlie Về giải pháp đề xuất sàng lọc trên một mẫu. Liệu có phải dọc theo các dòng phân vùng dữ liệu, (ab) sử dụng một bộ (lựa chọn mô hình, v.v.) và sau đó áp dụng mô hình đó cho dữ liệu còn lại - và trên dữ liệu đó với mô hình phù hợp bằng lý thuyết truyền thống để kiểm tra giả thuyết, các TCTD Vân vân?
B_Miner

Tôi chỉ nghĩ đến việc lựa chọn mô hình, nhưng phần lớn là vì tôi không biết nhiều về hồi quy bị phạt. Tôi sẽ nói rằng bạn cần phải khởi động lại toàn bộ quá trình để có được suy luận về các dự đoán từ mô hình. Toàn bộ vấn đề là, trong bất kỳ một mẫu nào, bạn có thể tìm thấy các mối tương quan giả được phóng to khi bạn bao gồm một số biến và loại bỏ các biến khác. Cách duy nhất để giải quyết vấn đề này là xem xét nhiều mẫu --- tức là bootstrap. Tất nhiên, không ai thực sự làm điều này.
Charlie

Đúng vậy, bạn sử dụng một phân vùng của mẫu để đưa ra mô hình của mình bằng các quy trình chọn mô hình, sau đó suy luận về phân vùng khác hoặc mẫu đầy đủ.
Charlie

2

Về 1) Có, bạn làm mất điều này. Xem ví dụ: Chiến lược mô hình hồi quy củaellell, một cuốn sách được xuất bản bởi Wiley hoặc một bài báo mà tôi đã trình bày với David Cassell có tên "Dừng bước


Tôi đã thấy bài báo này - rất thú vị. Hai câu hỏi. 1) Hãy thực hiện hồi quy logistic. Nghe có vẻ như cách duy nhất để tiến hành kiểm tra CI hoặc giả thuyết là xây dựng một mô hình theo kiểu hosmer và lemeshow (loại trừ bất kỳ tập dữ liệu nào có p lớn)? Vì vậy, bạn còn lại với "sử dụng" mô hình cho các ước tính điểm? 2) Bài viết của bạn thảo luận về Lasso trong số các lựa chọn thay thế khác. Bạn có nghĩ rằng điều này cho phép kiểm tra giả thuyết sau này hay "đơn giản" được đưa ra như là một lựa chọn tốt hơn của lựa chọn mô hình?
B_Miner
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.