Lựa chọn mô hình và hiệu suất mô hình trong hồi quy logistic

9

Tôi có một câu hỏi về lựa chọn mô hình và hiệu suất mô hình trong hồi quy logistic. Tôi có ba mô hình dựa trên ba giả thuyết khác nhau. Hai mô hình đầu tiên (cho phép đặt tên chúng là z và x) chỉ có một biến giải thích trong mỗi mô hình và mô hình thứ ba (hãy đặt tên cho nó là w) phức tạp hơn. Tôi đang sử dụng AIC để lựa chọn biến cho mô hình w và sau đó là AIC để so sánh mô hình nào trong ba mô hình giải thích biến phụ thuộc tốt nhất. Tôi đã thấy rằng mô hình w có AIC thấp nhất và bây giờ muốn thực hiện một số thống kê hiệu suất trên mô hình đó để có một số ý tưởng về sức mạnh dự đoán của mô hình. Vì tất cả những gì tôi biết là mô hình này tốt hơn hai mô hình kia nhưng không tốt như thế nào.

Vì tôi đã sử dụng tất cả dữ liệu để tìm hiểu mô hình (để có thể so sánh cả ba mô hình), làm thế nào để tôi thực hiện với hiệu suất mô hình? Từ những gì tôi đã thu thập được, tôi không thể thực hiện xác nhận chéo gấp đôi trên mô hình cuối cùng tôi nhận được từ lựa chọn mô hình bằng AIC nhưng cần bắt đầu lại từ đầu với tất cả các biến giải thích được bao gồm, điều này có đúng không? Tôi nghĩ rằng đó là mô hình cuối cùng tôi đã chọn với AIC mà tôi muốn biết nó hoạt động tốt như thế nào, nhưng tôi nhận ra rằng tôi đã đào tạo về tất cả dữ liệu để mô hình có thể bị sai lệch. Vì vậy, nếu tôi nên bắt đầu lại từ đầu với tất cả các biến giải thích trong tất cả các nếp gấp, tôi sẽ nhận được các mô hình cuối cùng khác nhau cho một số nếp gấp, tôi có thể chọn mô hình từ nếp gấp mang lại khả năng dự đoán tốt nhất và áp dụng điều đó cho tập dữ liệu đầy đủ để so sánh AIC với hai mô hình khác (z và x)? Hay nó hoạt động như thế nào?

Phần thứ hai của câu hỏi của tôi là một câu hỏi cơ bản về tham số hóa quá mức. Tôi có 156 điểm dữ liệu, 52 là 1 còn lại là 0. Tôi có 14 biến giải thích để chọn cho mô hình w, tôi nhận ra rằng tôi không thể bao gồm tất cả do tham số hóa quá mức, tôi đã đọc rằng bạn chỉ nên sử dụng 10% của nhóm biến phụ thuộc với ít quan sát nhất chỉ có 5 cho tôi Tôi đang cố gắng trả lời một câu hỏi trong sinh thái học, liệu có ổn không khi chọn các biến bắt đầu mà tôi nghĩ giải thích sự phụ thuộc tốt nhất chỉ đơn giản dựa trên sinh thái học? Hoặc làm thế nào để tôi chọn các biến giải thích bắt đầu? Không cảm thấy đúng để loại trừ hoàn toàn một số biến.

Vì vậy, tôi thực sự có ba câu hỏi:

Có thể kiểm tra hiệu năng trên một mô hình được đào tạo trên bộ dữ liệu đầy đủ với xác thực chéo không?
Nếu không, làm cách nào để chọn mô hình cuối cùng khi thực hiện xác thực chéo?
Làm cách nào để chọn các biến bắt đầu để tôi muốn tham số hóa quá mức?

Xin lỗi vì những câu hỏi lộn xộn và sự thiếu hiểu biết của tôi. Tôi biết rằng những câu hỏi tương tự đã được hỏi nhưng vẫn cảm thấy một chút bối rối. Đánh giá cao bất kỳ suy nghĩ và đề xuất.

logistic model-selection cross-validation

— mael
nguồn

7

Đúng là tốt hơn là sử dụng một bộ dữ liệu thử nghiệm để xác thực mô hình của bạn. Tuy nhiên, bạn vẫn có thể nói mô hình của bạn hoạt động tốt như thế nào trên dữ liệu của bạn, miễn là bạn trung thực về những gì bạn đã làm. Những gì bạn không thể thực sự làm là nói rằng nó sẽ làm tốt điều này trên các dữ liệu khác : Nó có thể sẽ không. Thật không may, rất nhiều bài báo được xuất bản ít nhất là gợi ý về khái niệm không chính xác này.

Bạn hỏi

Có ổn không khi chọn các biến bắt đầu mà tôi nghĩ giải thích sự phụ thuộc tốt nhất chỉ đơn giản dựa trên hệ sinh thái?

Không chỉ là OK, nó còn tốt hơn bất kỳ chương trình tự động nào. Thật vậy, đây cũng có thể là các biến cuối cùng . Nó phụ thuộc, phần nào, vào mức độ kiến thức trong lĩnh vực này. Nếu không biết nhiều về những gì bạn đang nghiên cứu, thì có thể cần một cách tiếp cận khám phá hơn. Nhưng nếu bạn có lý do chính đáng để nghĩ rằng một số biến nhất định phải có trong mô hình, thì bằng mọi cách, hãy đặt chúng vào. Và tôi sẽ tranh luận vì để chúng ở đó, ngay cả khi không đáng kể.

— Peter Flom
nguồn

1

Nếu bạn định thực hiện lựa chọn mô hình thì tôi nghĩ bạn nên thực hiện tìm kiếm toàn diện và cân nhắc từng mô hình thay vì chọn anh đào. Bạn chỉ có 14 biến, điều này chắc chắn khả thi - 16384 mô hình khác nhau không quá lớn, đặc biệt là vì kích thước mẫu nhỏ. Tôi cũng sẽ xem xét trọng lượng chuẩn hóa, được xác định bởi:

w_{m} = {[\sum_{l} \exp (- \frac{1}{2} [A I C_{l} - A I C_{m}])]}^{- 1}

$w_m=\left[\sum_{l}\exp\left(-\frac{1}{2}[AIC_l - AIC_m]\right)\right]^{-1}$

Các trọng số này cho rằng AIC âm gấp đôi khả năng đăng nhập cộng với hai lần số lượng betas. Nếu mô hình tốt nhất có trọng lượng gần bằng thì chỉ cần sử dụng nó. nếu không, bạn nên tính trung bình kết quả của mình trên các mô hình với tổng trọng lượng gần bằng . Điều thường xảy ra là phải bao gồm một nhóm các biến "lõi", với sự không chắc chắn đối với tập hợp "không cốt lõi" và một tập hợp các biến không quan trọng thứ ba không bao giờ xuất hiện trong các mô hình có trọng số cao. $1$ $1$

Bạn cũng có thể thay thế AIC bằng BIC hoặc một số IC dựa trên hình phạt khác để xem mức độ trọng lượng phụ thuộc vào hình phạt phức tạp cụ thể được sử dụng.

— xác suất
nguồn

Sử dụng AIC trên tất cả các mô hình có thể là một quá trình với tính đa dạng cực lớn mà tôi tự hỏi về hiệu suất. Nói một cách khái quát, không phải lúc nào cũng hợp lý khi nghĩ về vấn đề này như là một vấn đề lựa chọn thay đổi mà là vấn đề hình phạt (co rút).

— Frank Harrell

Có một quy trình không có sự đa dạng cực đoan trong lựa chọn mô hình không? Bạn đang đối phó với một không gian riêng biệt đồ sộ - điều này luôn dẫn đến một số lượng lớn các so sánh. Tôi nghĩ rằng câu hỏi nhiều hơn là liệu việc ẩn trước các mô hình có hợp lý hay không.

— xác suất

Vâng đặt. Nhưng tôi nghĩ rằng hầu hết các bài tập lựa chọn mô hình là không cần thiết (ví dụ, phân tích không phải là bạn của bạn) và kết quả của việc không có linh mục nào cả.

— Frank Harrell

Tôi cũng đồng ý, tôi nghĩ Bayes Factors được sử dụng tốt nhất cho các vấn đề về cấu trúc mô hình, chẳng hạn như sử dụng phân phối bình thường hay t chẳng hạn. Chúng không vô dụng đối với lựa chọn đồng biến, nhưng không hiệu quả so với co rút.

— xác suất

Xin lỗi vì nhận xét muộn của tôi, nhưng bạn có biết cách dễ dàng nào để tính toán điều này trong R không? Tôi có AIC: s trong danh sách hoặc ma trận. Tôi còn khá mới với R nên việc xây dựng hàm phức tạp đều khó. Cảm ơn!

— mael

0

Để trả lời "Có thể kiểm tra hiệu suất trên một mô hình được đào tạo trên bộ dữ liệu đầy đủ với xác thực chéo không?" KHÔNG, tôi không nghĩ rằng điều này là ổn. Bạn phải phù hợp với tất cả 3 mô hình cho cùng một tập hợp con của tập dữ liệu của bạn. Sau đó thực hiện xác nhận chéo để xem cái nào tốt hơn.

— Thống kê
nguồn

1

Vì vậy, nếu tôi hiểu bạn đúng, tôi chỉ nên sử dụng một khóa đào tạo và một bộ kiểm tra cho tất cả các mô hình? Tôi vẫn có thể sử dụng 5 biến của mình cho mô hình cuối cùng hay đó có phải là rủi ro cho tham số hóa quá mức không? Và đó không phải là rủi ro chỉ với một tập huấn luyện và kiểm tra - vì nó sẽ phụ thuộc rất nhiều vào việc phân chia sẽ ở đâu với dữ liệu tương đối nhỏ mà tôi có - hay không có gì phải lo lắng? Nếu không, nó cảm thấy như đây sẽ là cách làm đúng nhất.

— mael

0

Có thể kiểm tra hiệu năng trên một mô hình được đào tạo trên bộ dữ liệu đầy đủ với xác thực chéo không?

Tôi nghĩ là không. Có lẽ một phương pháp tốt hơn sẽ là đánh giá từng mô hình trong số ba mô hình bằng cách sử dụng xác nhận chéo lặp đi lặp lại. Cho rằng bạn đã chọn các tính năng của mình dựa trên kiến thức trước đó, bạn không cần phải lo lắng về việc lựa chọn tính năng. Phương pháp này cho phép bạn đánh giá hiệu suất của mô hình.

Nếu không, làm cách nào để chọn mô hình cuối cùng khi thực hiện xác thực chéo?

Khi bạn đã đánh giá hiệu suất của mô hình bằng cách sử dụng xác thực chéo nhiều lần, bạn có thể huấn luyện mô hình cuối cùng bằng cách sử dụng tất cả dữ liệu có sẵn.

Làm cách nào để chọn các biến bắt đầu để tôi muốn tham số hóa quá mức?

Nếu tôi hiểu chính xác: Theo đề xuất của cộng tác viên ở trên, bạn có thể thêm các tính năng của mình dựa trên kiến thức trước đó của khu vực hoặc nếu không bạn cần thực hiện lựa chọn tính năng trong xác thực chéo để tránh bị quá mức. Quy trình lựa chọn tính năng tương tự này sau đó sẽ được áp dụng cho tất cả dữ liệu khi đào tạo mô hình cuối cùng. Bạn không thể sử dụng mô hình này để báo cáo hiệu suất tổng quát của mô hình, điều này phải xuất phát từ ước tính xác thực chéo.

— BGreene
nguồn