Tại sao lựa chọn biến là cần thiết?


31

Các quy trình lựa chọn biến dựa trên dữ liệu phổ biến (ví dụ: tiến, lùi, từng bước, tất cả các tập hợp con) có xu hướng tạo ra các mô hình với các thuộc tính không mong muốn, bao gồm:

  1. Các hệ số sai lệch so với không.
  2. Các lỗi tiêu chuẩn quá nhỏ và khoảng tin cậy quá hẹp.
  3. Kiểm tra thống kê và giá trị p không có ý nghĩa được quảng cáo.
  4. Ước tính phù hợp với mô hình đó là quá lạc quan.
  5. Bao gồm các điều khoản có thể là vô nghĩa (ví dụ: loại trừ các điều khoản theo thứ tự thấp hơn).

Tuy nhiên, thủ tục lựa chọn biến vẫn tồn tại. Với các vấn đề với lựa chọn biến, tại sao các thủ tục này là cần thiết? Điều gì thúc đẩy họ sử dụng?

Một số đề xuất để bắt đầu cuộc thảo luận ....

  • Mong muốn cho hệ số hồi quy có thể giải thích? (Sai lầm trong một mô hình có nhiều IV?)
  • Loại bỏ phương sai được giới thiệu bởi các biến không liên quan?
  • Loại bỏ hiệp phương sai / dự phòng không cần thiết giữa các biến độc lập?
  • Giảm số lượng ước tính tham số (các vấn đề về công suất, cỡ mẫu)

Có những người khác? Là các vấn đề được giải quyết bằng các kỹ thuật lựa chọn biến nhiều hay ít quan trọng hơn các vấn đề quy trình lựa chọn biến được đưa ra? Khi nào nên sử dụng chúng? Khi nào chúng không nên được sử dụng?


Theo tôi, để thảo luận một vấn đề rõ ràng, trước tiên chúng ta cần xác định nó theo một cách tốt và sau đó xây dựng nó dưới dạng toán học thích hợp để chúng ta có thể có một khung mà theo đó vấn đề được thảo luận rõ ràng. Đối với bài toán chọn biến, ví dụ, mô hình hồi quy tuyến tính. Trước tiên có vẻ hợp lý khi sửa một mô hình và nghiên cứu (i) những lợi thế / bất lợi (ví dụ: cải thiện / xấu đi trong ước tính hoặc dự đoán) của lựa chọn biến? (ii) lợi thế của thủ tục lựa chọn biến so với ước tính LS?

Câu trả lời:


17

Lựa chọn biến (không bị phạt) chỉ làm cho mọi thứ tồi tệ hơn. Lựa chọn biến gần như không có cơ hội tìm thấy các biến "đúng" và dẫn đến sự vượt quá lớn về tác động của các biến còn lại và sự thiếu hụt lớn của các lỗi tiêu chuẩn. Thật sai lầm khi tin rằng lựa chọn biến được thực hiện theo cách thông thường giúp người ta giải quyết vấn đề "p lớn n nhỏ n". Điểm mấu chốt là mô hình cuối cùng là sai lệch về mọi mặt. Điều này có liên quan đến một tuyên bố đáng kinh ngạc mà tôi đã đọc trong một bài báo dịch tễ học: "Chúng tôi không có cỡ mẫu phù hợp để phát triển một mô hình đa biến, vì vậy thay vào đó chúng tôi đã thực hiện tất cả các thử nghiệm có thể cho các bảng 2x2."

Bất cứ khi nào bộ dữ liệu trong tay được sử dụng để loại bỏ các biến, trong khi sử dụng Y để đưa ra quyết định, tất cả các đại lượng thống kê sẽ bị biến dạng. Lựa chọn biến điển hình là một ảo ảnh.

Chỉnh sửa : (Sao chép nhận xét từ bên dưới bị ẩn bởi nếp gấp)

Tôi không muốn tự phục vụ nhưng cuốn sách Chiến lược mô hình hóa hồi quy của tôi đi sâu vào vấn đề này. Tài liệu trực tuyến bao gồm cả tài liệu phát có thể được tìm thấy tại trang web của tôi . Một số phương pháp khả dụng là phạt (hồi quy sườn núi), hình phạt (lasso) và cái gọi là lưới đàn hồi (kết hợp và ). Hoặc sử dụng giảm dữ liệu (làm mờ phản hồi ) trước khi thực hiện hồi quy. Cuốn sách của tôi dành nhiều không gian cho việc này hơn là hình phạt.L2L1L1L2Y


6
Tôi nghĩ rằng câu trả lời này sẽ được cải thiện bằng cách cung cấp một số gợi ý về cách tiến hành. Câu trả lời đưa ra những tuyên bố rất rộng rãi và dứt khoát (nhiều trong số đó tôi thường đồng ý) mà không cần tham khảo các tài nguyên sẽ củng cố các yêu sách. Chắc chắn hình phạt cũng không phải là thuốc chữa bách bệnh, và có nhiều lựa chọn được đưa ra nếu một người đi vào con đường đó.
Đức hồng y

3
Xin vui lòng xem ở trên nơi tôi cung cấp thêm thông tin. Cách ngắn gọn nhất để nêu vấn đề là một lý do chính khiến một biến được "chọn" là do hiệu ứng của nó được đánh giá quá cao.
Frank Harrell

2
Vâng, tôi đồng ý rằng cuốn sách của bạn có một số tài liệu tốt về điều này, ví dụ như, ví dụ, ESL. (Điều đó nói rằng, có ít nhất một vài trường hợp trong ESL nơi một số hình thức lựa chọn lạc hậu cũng được sử dụng.) Bạn đề cập đến phạt (còn gọi là hồi quy sườn), nhưng điều này thường không đi quá xa về biến / mô hình lựa chọn mỗi se. Mạng lưới đàn hồi có một số hành vi ổn, nhưng nhược điểm của tôi là dù bạn nhìn nó thế nào, nó cũng không thừa nhận cách giải thích "thống kê" rất hay hoặc tự nhiên, trong khi cả phạt và đều có những ý nghĩa nhất định. L2L1L2
Đức hồng y

2
Điểm tốt mặc dù tôi nghĩ rằng thực sự giải thích tự nhiên bởi vì đó chỉ là một cách khác để ước tính các hệ số mô hình tương tự. Bạn đúng rằng không có sẽ không xóa bất kỳ biến nào. Chúng tôi làm điều đó cho hiệu suất dự đoán vượt trội và để xử lý trường hợp nhỏ . L2L2L1pn
Frank Harrell

2
Có lẽ nhận xét của tôi không hoàn toàn rõ ràng như tôi dự định. Có, tôi đồng ý rằng phạt tự nó có nhiều cách hiểu hay, mặc dù nó không dẫn đến bất kỳ lựa chọn biến nào. Đó là mạng lưới đàn hồi mà tôi không tìm thấy đặc biệt có động lực hoặc tự nhiên từ góc độ thống kê ngoài thực tế là trong một số trường hợp, hiệu suất dự đoán tốt hơn đã đạt được. L2
Đức hồng y

14

Trước hết, những nhược điểm bạn đã đề cập là những ảnh hưởng của việc lựa chọn tính năng được thực hiện sai , tức là quá mức, chưa hoàn thành hoặc quá mức.

FS "lý tưởng" có hai bước; Đầu tiên là loại bỏ tất cả các biến không liên quan đến DV (được gọi là tất cả các vấn đề có liên quan , nhiệm vụ rất khó khăn, không liên quan đến mô hình / phân loại được sử dụng), thứ hai là giới hạn tập hợp chỉ các biến có thể được sử dụng tối ưu bởi mô hình (ví dụ và đều tốt như nhau trong việc giải thích , nhưng mô hình tuyến tính sẽ không sử dụng trong trường hợp chung) - mô hình này được gọi là tối ưu tối thiểu .eYYYeY

Tất cả các cấp có liên quan cung cấp một cái nhìn sâu sắc trong những gì thực sự thúc đẩy quá trình nhất định, do đó, có giá trị giải thích. Mức tối ưu tối thiểu (theo thiết kế) cung cấp cho mô hình không bị quá tải làm việc trên dữ liệu không bị xáo trộn nhất có thể.

FS trong thế giới thực chỉ muốn đạt được một trong những mục tiêu đó (thường là mục tiêu sau).


4
Tôi giả sử bạn đang đề cập đến việc loại bỏ các biến mà không sử dụng dữ liệu trong tay. Bạn không thể sử dụng bộ dữ liệu trong tay để làm điều này. Điều này sẽ không đáng tin cậy và làm sai lệch suy luận thống kê.
Frank Harrell

Như tôi đã viết, đây chỉ là một nền tảng lý thuyết của vấn đề (đến từ lưới Bayes). Cách chính xác để nhận ra điều này rõ ràng là không thể, và tôi chắc chắn đồng ý rằng mô hình thống kê đã phải chịu đựng rất nhiều từ việc sử dụng RFE và những thứ tương tự - nhưng học máy có một số thuật toán heuristic chắc chắn không phải là vô vọng (tức là tạo ra các lựa chọn và mô hình ổn định điều đó chứng tỏ không bị đánh giá quá cao trong các bài kiểm tra công bằng).

RFE là gì ???????
kjetil b halvorsen

@kjetilbhalvorsen Loại bỏ tính năng đệ quy

@mbq Thx cho câu trả lời thú vị của bạn! Bạn có thể cung cấp bất kỳ tài liệu tham khảo (sách, giấy tờ, vv)? Đánh giá cao trả lời của bạn!
Kare

10

Lựa chọn biến là nhất thiết bởi vì hầu hết các mô hình không xử lý tốt với một số lượng lớn các biến không liên quan. Các biến này sẽ chỉ đưa tiếng ồn vào mô hình của bạn, hoặc tệ hơn, khiến bạn quá phù hợp. Đó là một ý tưởng tốt để loại trừ các biến này khỏi phân tích.

Hơn nữa, bạn không thể bao gồm tất cả các biến tồn tại trong mọi phân tích, bởi vì có vô số biến số trong số đó. Tại một số điểm bạn phải vẽ đường thẳng, và thật tốt khi làm điều đó một cách nghiêm ngặt. Do đó tất cả các cuộc thảo luận về lựa chọn biến.

Hầu hết các vấn đề với lựa chọn biến có thể được giải quyết bằng xác nhận chéo hoặc bằng cách sử dụng một mô hình có hình phạt và lựa chọn tính năng tích hợp (như mạng đàn hồi cho mô hình tuyến tính).

Nếu bạn quan tâm đến một số kết quả thực nghiệm liên quan đến nhiều biến số gây ra sự phù hợp quá mức, hãy xem kết quả của cuộc thi Đừng quá sức trên Kaggle.


1
Tôi nghĩ rằng đoạn đầu tiên chứa một sự hiểu lầm đáng kể về vấn đề. Lựa chọn biến không giúp ích gì cho những vấn đề đó theo bất kỳ cách nào, nó chỉ che giấu chúng. Lựa chọn biến dẫn đến các vấn đề quá lớn, mặc dù như bạn đã đề cập sau đây, có một số cách để trung thực phạt chúng ta về thiệt hại do lựa chọn biến.
Frank Harrell

3
@Frank Harrell: làm thế nào để bạn quyết định loại trừ biến nào khỏi mô hình?
Zach

11
(1) Sử dụng kiến ​​thức chủ đề trước khi xem tập dữ liệu; (2) Sử dụng phân tích dự phòng / giảm dữ liệu bị mù với Y; (3) Sử dụng một phương pháp xử phạt thích đáng cho vấn đề so sánh lớn gây ra bởi việc lựa chọn tính năng (xem ở nơi khác trên trang này).
Frank Harrell 11/11/11
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.