Khi nào sử dụng hồi quy không tham số?


9

Tôi đang sử dụng PROC GLM trong SAS để phù hợp với phương trình hồi quy có dạng sau

Y=b0+b1X1+b2X2+b3X3+b4t

Biểu đồ QQ của các redsidual kết quả cho thấy độ lệch so với tính chuẩn. Bất kỳ sự biến đổi nào của đều không hữu ích trong việc làm cho phần dư trở lại bình thường.Y

Tại thời điểm này, tôi có thể chuyển sang các phương pháp không tham số một cách an toàn như PROC LOESS không.

Tôi đã sử dụng PROC LOESS, và sự phù hợp có vẻ tốt hơn PROC GLM. Nhưng tôi không có nhiều kiến ​​thức về hồi quy không tham số. Tôi không biết khi nào nên chọn hồi quy không tham số so với hồi quy tham số.

Ai đó có thể giúp tôi với điều này?

Tôi sẽ đi trước và thêm một câu hỏi. Sau đây là mô tả các biến của tôi trong mô hình. Đôi khi tôi nhận được chi phí dự đoán âm. Điều này không có ý nghĩa. Làm thế nào tôi có thể giải quyết vấn đề này?

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=time

2
Tất nhiên, bạn có thể tránh dự đoán chi phí âm bằng cách lập mô hình nhật ký của nó:log(Y)=b0+b1X1+b2X2+b3X3+b4t
Dirk Horsten

Câu trả lời:


10

Trước khi xem QQplots của phần dư, bạn nên đánh giá chất lượng của sự phù hợp, bằng cách vẽ các phần dư so với các yếu tố dự đoán trong mô hình (và có thể, cũng chống lại các biến khác mà bạn không sử dụng). Phi tuyến tính sẽ hiển thị trong lô này. Nếu hiệu ứng của biến thực sự là tuyến tính, bạn dự kiến ​​biểu đồ của phần dư so với là "ngang", không có cấu trúc có thể nhìn thấy:xx

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

Đó là, một "đốm" ngang ngẫu nhiên của các điểm, tập trung quanh đường dư = 0.

Nếu hiệu ứng là phi tuyến tính, bạn sẽ thấy một số độ cong trong cốt truyện này. (và, xin vui lòng, bỏ qua QQplots cho đến khi bạn có các phi tuyến tính được sắp xếp, sử dụng các lô như trên!)

Bạn cũng nên suy nghĩ về các tương tác có thể (được mô hình hóa theo thuật ngữ sản phẩm), nghĩa là, tác động của một biến phụ thuộc vào cấp độ của một biến khác (Nếu cả ba biến của bạn có giá trị cao cùng một lúc, có thể điều đó cho thấy một số khó khăn đặc biệt Nếu bệnh nhân có thể cần tương tác).

Nếu bạn đi cho một số mô hình phi tuyến tính, sau khi đã thử các tương tác và biến đổi (bạn đã thử log(Cost)chưa?) Bạn đã thử một số biến đổi box-cox chưa? Vì bạn có nhiều hồi quy, tôi không nghĩ rằng đó loesslà những gì bạn cần, bạn nên tìm kiếm gam(các mô hình phụ gia tổng quát, SAS nên có điều đó, trong R nó là trong gói mgcv).


1
Cảm ơn về thông tin giá trị. Tôi đã thử nhật ký (chi phí) với hồi quy tuyến tính, nhưng nó không giúp được gì nhiều. Tôi sẽ thêm các hiệu ứng tương tác và quan sát những gì xảy ra. Tôi cũng sẽ thử nghiệm với các biến đổi một lần nữa. Tôi sẽ giữ cho tất cả mọi người được đăng với sự phát triển và phát hiện của tôi.
ann

6

LOESS sẽ luôn cung cấp sự phù hợp tốt hơn so với hồi quy, trừ khi dữ liệu thực sự nằm dọc theo một đường thẳng. LOESS là một xấp xỉ tuyến tính cục bộ được thiết kế để truyền gần dữ liệu. Những phương pháp này về cơ bản là thăm dò. Và trong khi thật nguy hiểm khi ngoại suy một mô hình tuyến tính vượt quá giới hạn của sự phù hợp, phép ngoại suy sẽ là liều lĩnh trong trường hợp LOESS.

Nếu mô hình của bạn cung cấp cho bạn chi phí âm, đó là một dấu hiệu khá tốt cho thấy hồi quy tuyến tính không phù hợp với các biến bạn có. Bạn nói rằng bạn đã thử biến đổi. Bạn đã lấy nhật ký chi phí so với người dự đoán của bạn?

Trong bản chất của sự vật, không chắc có mối quan hệ đơn giản giữa chi phí và các biến bạn đề cập. Đôi khi mục đích của hồi quy tuyến tính chỉ đơn giản là để chứng minh rằng một số loại tương quan tồn tại, và có lẽ để chọn một bộ dự đoán hợp lý.


1
Nó rất có ý nghĩa khi bạn đề cập rằng chi phí âm cho thấy hồi quy tuyến tính có thể không phù hợp. Tôi sẽ tiếp tục phân tích của tôi và thêm một số tương tác. Cảm ơn bạn.
ann

3

Bravo để làm phân tích dư. Đưa bạn đi trước các nhà phân tích điển hình. (Tuy nhiên, mô tả của bạn về mô hình bị thiếu khi không mô tả cấu trúc lỗi.) Bạn nên xem xét các phép biến đổi của X cũng như xem xét các phép biến đổi của chữ Y. Tôi nhận ra rằng SAS đứng sau R trong mô hình hóa với sự phù hợp spline nhưng tôi hiểu rằng các phiên bản gần đây đã cung cấp khả năng đó. Xem xét thêm spline khối bị hạn chế phù hợp cho các điều khoản X. Như một tài liệu tham khảo Văn bản "Chiến lược mô hình hồi quy" của Frank Mitchell rất khó đánh bại. Nó có lập luận thống kê vững chắc cho phương pháp này. Đó là một cách tiếp cận tham số cho phép khám phá cấu trúc trong dữ liệu mà những người khôn ngoan khác sẽ bị bỏ qua.


YX

log(Y)=b0+b1log(X1)+b2log(X2)X1X2
Dirk Horsten

Nhận xét của bạn có vẻ khá tiếp xúc với câu trả lời của tôi (và cho câu hỏi vì phân vùng tiêm bằng tay không bao giờ được đề cập) Tôi hy vọng bạn không nghĩ rằng các hàm spline tương đương với chuyển đổi nhật ký. Chuyển đổi nhật ký của Y tạo ra một mô hình trong đó mô hình được nhân lên trong các yếu tố dự đoán khi được chuyển đổi trở lại thang chi phí. Đó là một thay đổi khá lớn và là vấn đề mà bạn chưa mô tả đầy đủ cho người hỏi.
DWin

2

Tôi nghĩ rằng kjetil đã cho bạn một số gợi ý tốt. Tôi sẽ nói thêm rằng phần dư không bình thường không có nghĩa là bạn phải chuyển từ hồi quy tuyến tính hoặc phi tuyến sang hồi quy không theo tỷ lệ. Bằng cách đi đến hồi quy không đối xứng, bạn từ bỏ cấu trúc của một hình thức chức năng. Có sự hồi quy mạnh mẽ thay thế cho hồi quy OLS mà bạn có thể đi đến đầu tiên. Sau đó, mô hình tuyến tính tổng quát và mô hình phụ gia tổng quát nếu cần các bước tiếp theo. LOESS nên theo quan điểm của tôi là phương sách cuối cùng của bạn. Tôi nghĩ rằng tôi đồng ý với kjetil về điều đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.