Tư vấn về xác định hình dạng đường cong bằng quantreg


10

Tôi đang sử dụng gói quantreg để tạo mô hình hồi quy bằng cách sử dụng phân vị thứ 99 của các giá trị của tôi trong một tập dữ liệu. Dựa trên lời khuyên từ một câu hỏi stackoverflow trước mà tôi đã hỏi, tôi đã sử dụng cấu trúc mã sau đây.

mod <- rq(y ~ log(x), data=df, tau=.99)    
pDF <- data.frame(x = seq(1,10000, length=1000) ) 
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )

mà tôi hiển thị âm mưu trên đầu dữ liệu của tôi. Tôi đã vẽ sơ đồ này bằng ggplot2, với giá trị alpha cho các điểm. Tôi nghĩ rằng phần đuôi phân phối của tôi không được xem xét đầy đủ trong phân tích của tôi. Có lẽ điều này là do thực tế là có những điểm riêng lẻ, đang bị bỏ qua bởi phép đo loại phần trăm.

Một trong những ý kiến ​​cho rằng

Các họa tiết gói bao gồm các phần về hồi quy lượng tử phi tuyến và cả các mô hình với các spline làm mịn, v.v.

Dựa trên câu hỏi trước đây của tôi, tôi đã giả định một mối quan hệ logarit, nhưng tôi không chắc liệu điều đó có đúng không. Tôi nghĩ rằng tôi có thể trích xuất tất cả các điểm ở khoảng phân vị thứ 99 và sau đó kiểm tra chúng một cách riêng biệt, nhưng tôi không chắc làm thế nào để làm điều đó, hoặc nếu đó là một cách tiếp cận tốt. Tôi sẽ đánh giá cao bất kỳ lời khuyên nào về cách cải thiện việc xác định mối quan hệ này.

nhập mô tả hình ảnh ở đây


Có một vài câu hỏi hay trên trang web đã nói về việc chuyển đổi dữ liệu như thế này, xem stats.stackexchange.com/q/1444/1036 hoặc stats.stackexchange.com/q/298/1036
Andy W

Bạn có thể cập nhật cốt truyện để thêm trung vị có điều kiện? đối với tôi nó giống như một vấn đề xuyên qua lượng tử hơn là một vấn đề chuyển đổi dữ liệu ...
user603

@ user603 Ý của trung bình có điều kiện là gì? (Tôi đã tìm kiếm trực tuyến nhưng không chắc cách tính)
celenius

tau = 0,5 trong hàm rq ().
user603

1
Nếu mục tiêu của bạn là đặc biệt để ước tính phân vị thứ 99 có điều kiện, tôi sẽ bỏ phiếu cho hồi quy lượng tử phi tuyến (một số loại - tôi không biết rõ các gói R), vì nó không giống như bạn biết dạng chức năng thực sự . Mặc dù vậy, tôi vẫn chưa rõ với tôi về câu hỏi trước đó của bạn, mục tiêu thực sự là gì, vì vậy tôi sẽ nhắc lại nhận xét về câu hỏi trước đó của bạn từ Spacesman ngày 4 tháng 1 lúc 17:01
David M Kaplan

Câu trả lời:


1

Tất cả các mô hình đều sai, nhưng một số là hữu ích (George Box). Bạn đang buộc một hình dạng logrithmic cho đường cong được trang bị của bạn, và thành thật mà nói nó trông không tệ lắm. Sự phù hợp là kém ở đuôi vì có ít điểm hơn ở đó; hai tham số bạn đã cho phép sẽ phù hợp với phần lớn dữ liệu. Nói cách khác, trên thang đo nhật ký, cái đuôi đó không đủ xa so với phần lớn dữ liệu của bạn để cung cấp đòn bẩy. Nó không liên quan đến bản chất lượng tử của hồi quy; OLS cũng sẽ bỏ qua những điểm đó (đặc biệt là trên thang đo log).

Nó khá dễ dàng để cho phép một số phi tuyến tính hơn. Tôi là một phần của splines tự nhiên, nhưng một lần nữa, tất cả các mô hình đều sai:

library(splines)
mod <- rq(y ~ ns(log(x), df=6), data=df, tau=.99)

Các quantreggói có một số móc đặc biệt cho splines đơn điệu nếu đó là quan tâm đến bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.