Tại sao mô hình hồi quy tuyến tính chặn không dự đoán tốt hơn mô hình có chặn?


8

Nhiều sách giáo khoa và giấy tờ nói rằng không nên ngăn chặn. Gần đây, tôi đã sử dụng một tập dữ liệu huấn luyện để xây dựng mô hình hồi quy tuyến tính có hoặc không có chặn. Tôi đã rất ngạc nhiên khi thấy rằng mô hình không có đánh chặn dự đoán tốt hơn so với mô hình đánh chặn về mặt rmse trong một bộ dữ liệu xác nhận độc lập. Là độ chính xác dự đoán là một trong những lý do mà tôi nên sử dụng các mô hình không chặn?


Làm thế nào lớn là kích thước mẫu đào tạo và xác nhận? Có lẽ mô hình mà không có đánh chặn là tốt hơn chỉ là tình cờ.
đánh dấu

Cỡ mẫu đào tạo là 289 trong khi cỡ mẫu xác nhận là 406. Nhân tiện, làm thế nào để xác định cỡ mẫu đào tạo và xác nhận tốt nhất?
KuJ

Câu trả lời:


3

Hãy xem xét kỹ cách thức rmse hoặc thống kê khác được tính khi so sánh các mô hình không chặn với các mô hình chặn. Đôi khi các giả định và tính toán khác nhau giữa hai mô hình và một mô hình có thể phù hợp hơn, nhưng trông đẹp hơn vì nó được chia cho một cái gì đó lớn hơn nhiều.

Nếu không có một ví dụ tái sản xuất, rất khó để nói những gì có thể đóng góp.


Rmse được tính theo công thức (được sử dụng để so sánh sự khác biệt giữa hai điều có thể khác nhau, không được chấp nhận là "tiêu chuẩn") được đưa ra trong: en.wikipedia.org/wiki/Root-mean-sapes_deviation Vì vậy, các giả định và các tính toán giống nhau giữa 2 công cụ ước tính xuất phát từ mô hình.
KuJ

1
Làm thế nào tương tự là tập huấn luyện và xác nhận của bạn? Bạn có thể xem xét thực hiện xác thực chéo 10 lần: chia dữ liệu thành 10 phần bằng nhau (hoặc bằng nhau như bạn có thể nhận được), sau đó sử dụng 9 phần để đào tạo một mô hình và phần 10 làm phần xác thực, sau đó lặp lại với từng phần 9 mảnh còn lại là bộ xác nhận. Sau đó lặp lại toàn bộ quá trình đó (bắt đầu bằng một phân chia ngẫu nhiên mới) 10 lần hoặc lâu hơn.
Greg Snow

Biến Y và biến X khác nhau (P = 0,01) giữa các tập huấn luyện và xác nhận. Tuy nhiên, rmse vẫn thấp hơn với mô hình không bị chặn khi tôi sử dụng gói R MatchIt để khớp với các bộ huấn luyện và xác nhận hợp lệ. Ngược lại, rmse trở nên tương tự khi tôi sử dụng gói DAAG (cv.lm) để xác thực chéo 10 lần cho tập dữ liệu kết hợp. Điều này có nghĩa là xác nhận chéo 10 lần sẽ tốt hơn so với tập huấn luyện đơn giản và tập xác thực?
KuJ

2
Có xác nhận chéo có xu hướng tốt hơn. Nhìn xem nếu có những cách khác mà mô hình của bạn được chỉ định quá mức, điều rất bất thường đối với một mô hình không chặn để phù hợp hơn.
Greg Snow

1
Trong "Để giải thích hay dự đoán?" projecteuclid.org/ Giáo sư Galit Shmueli nói rằng đôi khi một mô hình ít đúng có thể dự đoán tốt hơn một mô hình xác thực. Tôi nghĩ rằng đây có thể là một trong những lý do của trường hợp này.
KuJ

9

Tôi không nghĩ bạn nên chọn các mô hình đơn giản vì chúng hoạt động tốt hơn trong một mẫu cụ thể, mặc dù thật tốt khi bạn sử dụng một mẫu đào tạo và xác nhận.

Thay vào đó, hãy nhìn vào những gì các người mẫu nói về tình huống của bạn. Trong một số trường hợp, mô hình chặn không có ý nghĩa. Nếu DV phải là 0 khi tất cả các IV đều bằng 0, thì hãy sử dụng mô hình chặn 0. Nếu không, đừng.

Kiến thức thực chất nên hướng dẫn thống kê, không phải cách khác


2
Lý do được đưa ra trong đoạn thứ hai của bạn, trong khi trực quan, thường không đủ mạnh để ngăn chặn việc đánh chặn trong nhiều tình huống như vậy. Điểm này được giải quyết đầy đủ hơn trong một vài câu hỏi khác trên trang web này.
Đức hồng y

4
Trong các nghiên cứu so sánh phương pháp (hoặc dụng cụ) (ví dụ so sánh giữa oxim A và oxim B), DV (mức oxy) phải bằng 0 khi tất cả các IV (mức oxy) bằng 0. Tuy nhiên, không nên bỏ qua việc chặn Tôi muốn hiệu chỉnh (hoặc trao đổi) oxim A với oximter B.
KuJ

5

Một mô hình không đánh chặn có thể có ý nghĩa nếu hai điều kiện được đáp ứng. Đầu tiên, cần có một kỳ vọng kiến ​​thức đối tượng hợp lý để đánh chặn bằng không. Thứ hai, cần có một giải thích kiến ​​thức chủ đề hợp lý để đường hồi quy duy trì một đường thẳng khi bạn tiến gần đến 0. Ngay cả khi cả hai điều kiện đều được thỏa mãn, tốt nhất là nên tiến hành phân tích với một thuật ngữ chặn và xác minh rằng việc chặn không khác biệt đáng kể so với không.

(Tôi giả sử rằng bạn đang nói về một Y liên tục và X liên tục.)


4

Điều này có thể hiểu được nếu việc chặn bạn thu được chỉ là tiếng ồn - không phải là sig. khác với số không. (Tôi có đúng không khi các hệ số hồi quy được tiêu chuẩn hóa gần như giống nhau trong cả hai mô hình?) Nếu vậy tôi không nghĩ bạn nên khái quát hóa từ ví dụ này. Khi chặn là sig. và đáng kể, họ thêm một cái gì đó có ý nghĩa vào độ chính xác dự đoán.


1. Các hệ số hồi quy được tiêu chuẩn hóa không giống nhau (0,91 và 1,02) cho mô hình có và không có chặn). 2. Chặn là 9,5 (se 1,7, p <0,001). 3. Theo như tôi biết, nhiều bài báo đề nghị không ngăn chặn việc đánh chặn ngay cả khi việc đánh chặn không đáng kể từ số không.
KuJ

Nếu có các biến giả trong hồi quy, không phải phần chặn đại diện cho giá trị nếu tất cả các hình nộm đều được mã hóa 0 cho quan sát đó? Không chắc chắn nếu điều này áp dụng ở đây.
Michelle

Không, không có biến giả.
KuJ

2

Trong hồi quy tuyến tính, bạn phù hợp:

y=f(β,X)=β0+β1x1+β2x2+Giáo dục

β(X,Y)β0

ΣTôi(yTôi-f(β,XTôi))2

β0+10000β0

Xβ0β0β0

Lưu ý bên lề: hồi quy logistic của scikit thường xuyên chặn chặn theo mặc định. Bất cứ ai cũng biết tại sao: http://scikit-learn.org/urdy/modules/generated/sklearn.linear_model.LogisticRegression.html ? Tôi không nghĩ đó là một ý tưởng tốt .


Re sklearn thường xuyên hóa việc đánh chặn: đó chỉ là trường hợp nếu sử dụng bộ giải liblinear và họ lưu ý rõ ràng là nó không tốt ( scikit-learn.org/ sóng / mô-đun / lỗi ). Tôi đoán tham số intercept_scaling được bao gồm trong LogisticRegression để giảm thiểu điều này.
erobertc

Chia tỷ lệ không giúp ích gì nếu bạn có kế hoạch diễn giải các tham số dưới dạng tỷ lệ cược.
dùng48956

Tôi rất vui vì họ đã cập nhật các tài liệu. Mất nhiều giờ ở đây.
dùng48956
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.