Howlers gây ra bằng cách sử dụng hồi quy từng bước


20

Tôi nhận thức rõ các vấn đề của lựa chọn từng bước / tiến / lùi trong các mô hình hồi quy. Có rất nhiều trường hợp các nhà nghiên cứu tố cáo các phương pháp và chỉ ra các lựa chọn thay thế tốt hơn. Tôi tò mò liệu có câu chuyện nào tồn tại khi phân tích thống kê:

  • đã sử dụng hồi quy từng bước;
  • đưa ra một số kết luận quan trọng dựa trên mô hình cuối cùng
  • kết luận là sai, dẫn đến hậu quả tiêu cực cho cá nhân, nghiên cứu của họ hoặc tổ chức của họ

Tôi nghĩ về điều này nếu các phương pháp từng bước là xấu, thì sẽ có hậu quả trong "thế giới thực" khi sử dụng chúng.


2
Nếu bạn không tìm thấy bất kỳ câu chuyện nào như vậy, thì có thể là do hồi quy từng bước chủ yếu được sử dụng trong nghiên cứu cơ bản (hoặc vì vậy tôi nhận thấy). Các nhà nghiên cứu cơ bản thường không gặp rắc rối vì đã sai, miễn là họ không giả mạo dữ liệu hoặc thứ gì đó.
Kodiologist

3
Nó được sử dụng rất nhiều trong ngành công nghiệp và trong phòng học. Trong nghiên cứu các tác giả có thể sẽ không tiết lộ rằng họ đã sử dụng nó. Trong ngành, hai lý do chính là a) những người đang làm việc đó không được đào tạo về nghiên cứu, ví dụ có bằng đại học hoặc b) tốt nghiệp cách đây nhiều thập kỷ.
Aksakal

@Aksakal Không học bắt đầu nhưng lấy da cừu dù sao cũng là vấn đề, không phải là thời gian trôi qua. Ví dụ miễn phí , tôi. Tôi đã tham gia một khóa học thống kê vào khoảng năm 1971 và lần đầu tiên sử dụng số liệu thống kê trong một ấn phẩm vào khoảng năm 2006.
Carl

Câu trả lời:


1

Có nhiều hơn một câu hỏi được hỏi. Câu hỏi hẹp nhất là yêu cầu một ví dụ về thời điểm hồi quy từng bước gây ra tác hại bởi vì nó được thực hiện theo từng bước. Tất nhiên điều này là đúng, nhưng chỉ có thể được thiết lập một cách dứt khoát khi dữ liệu được sử dụng cho hồi quy từng bước cũng được công bố, và ai đó đã đánh giá lại nó và xuất bản một chỉnh sửa được xem xét ngang hàng với rút lại của tác giả chính được xuất bản. Để buộc tội trong bất kỳ bối cảnh nào khác có nguy cơ hành động pháp lý và, nếu chúng tôi sử dụng một bộ dữ liệu khác, chúng tôi có thể nghi ngờ rằng đã có lỗi, nhưng "thống kê không bao giờ chứng minh bất cứ điều gì" và chúng tôi sẽ không thể xác định rằng đó là một lỗi thực hiện; "vượt quá một nghi ngờ hợp lý".

Như một điểm thực tế, người ta thường nhận được các kết quả khác nhau tùy thuộc vào việc người ta thực hiện loại bỏ từng bước hay tích lũy từng bước của phương trình hồi quy, điều này cho chúng ta thấy rằng không có cách tiếp cận nào là đủ chính xác để khuyến nghị sử dụng. Rõ ràng, một cái gì đó khác đang diễn ra, và điều đó đưa chúng ta đến một câu hỏi rộng hơn, cũng được hỏi ở trên, nhưng ở dạng viên đạn, lên tới "Vấn đề gì với hồi quy từng bước, dù sao đi nữa? Đó là câu hỏi hữu ích hơn để trả lời và có thêm lợi ích rằng tôi sẽ không có đơn kiện nào chống lại tôi vì đã trả lời nó.

Thực hiện đúng theo MLR từng bước, có nghĩa là sử dụng 1) đơn vị chính xác vật lý (xem bên dưới) 2) biến đổi biến thích hợp cho các mối tương quan và loại phân phối lỗi tốt nhất (đối với đồng đẳng và vật lý) 3) sử dụng tất cả các hoán vị của các kết hợp biến, không tất cả đều khôn ngoan, và tất cả trong số họ , 4) nếu một người thực hiện chẩn đoán hồi quy toàn diện thì người ta sẽ tránh được các kết hợp biến VIF (collinearity) cao, nếu không sẽ gây hiểu lầm, thì phần thưởng là hồi quy tốt hơn.

Như đã hứa cho # 1 ở trên, tiếp theo chúng ta khám phá các đơn vị chính xác cho một hệ thống vật lý. Vì kết quả tốt từ hồi quy phụ thuộc vào việc xử lý đúng các biến, chúng ta cần lưu ý đến kích thước thông thường của các đơn vị vật lý và cân bằng các phương trình của chúng ta một cách thích hợp. Ngoài ra, đối với các ứng dụng sinh học, cần có một nhận thức và tính toán cho tính chiều của tỷ lệ sinh khối .

GFR=kW1/4V2/3GFRW1=1443+23GFR


2
Điều này dường như để mô tả một vấn đề với hồi quy nói chung, chứ không phải là hồi quy từng bước cụ thể.
Thống kê tình cờ

2
Vâng, đây là những khía cạnh của hồi quy để xem xét nói chung. Tuy nhiên, nếu tôi hiểu chính xác câu hỏi đến từ đâu, thì nó được thúc đẩy bởi hồi quy từng bước thường bị tố cáo là có lợi cho việc sử dụng LASSO, điều này sẽ không giải quyết những lo ngại mà bạn đưa ra ở đây.
Thống kê tình cờ

4
Tôi đánh giá cao sự thẳng thắn và thiện chí của bạn trong vấn đề này, Carl. Tôi sẽ không phủ nhận rằng bỏ phiếu có vấn đề của nó. Cách hiệu quả duy nhất tôi biết để thay đổi cách bỏ phiếu trên một bài đăng là thay đổi câu trả lời - hoặc là cải thiện kỹ thuật, mở rộng trên đó hoặc truyền đạt các ý tưởng khác nhau - và thậm chí sau đó không có gì đảm bảo nó sẽ nhận được phản hồi mong muốn (hoặc thậm chí bất kỳ phản hồi nào cả!). Đôi khi, những nỗ lực tôn trọng được thực hiện để hiểu những người hạ cấp sẽ gợi ra thông tin giúp mọi người đánh giá cao (và nâng cao) những nỗ lực đó trong việc cải thiện bài đăng.
whuber

3
@Carl Tôi nghĩ rằng nếu bạn nhận được thường xuyên, điều đầu tiên cần làm là xem xét cách bạn có thể cải thiện bài đăng của mình (và thường bạn có nhận xét theo chúng đề xuất cải tiến). Nói về bản thân tôi, ngay cả khi tôi không đồng ý với một người bình luận, hóa ra họ thường nêu ra những vấn đề dẫn đến một câu trả lời tốt hơn. Tôi sẽ nói rằng tôi thường xuyên nhận thấy các vấn đề với câu trả lời của bạn gần như sẽ khiến tôi tự hạ thấp nó xuống. Nơi nào tôi có thời gian để làm như vậy, tôi cố gắng để lại nhận xét.
Glen_b -Reinstate Monica

3
Lưu ý rằng nhiều vấn đề của hồi quy từng bước - chẳng hạn như các vấn đề với ước tính sai lệch từ 0, lỗi tiêu chuẩn thiên về 0, tỷ lệ lỗi loại I danh nghĩa thấp hơn nhiều so với thực tế và một loạt các vấn đề khác vẫn xuất hiện với tất cả các tập con - - thực sự, đó là một vấn đề với hầu hết mọi hình thức tối ưu hóa (chương 4 của chiến lược mô hình hồi quy của Frank Harrell là một tài liệu tham khảo hữu ích). Co ngót / chính quy có thể giảm thiểu một số vấn đề này (đặc biệt là xu hướng lựa chọn để ước tính sai lệch ra bên ngoài) và đánh giá ngoài mẫu là một công cụ quan trọng đối với nhiều người trong số họ.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.