Các đường thẳng song song trên phần dư so với cốt truyện được trang bị


8

Tôi có một vấn đề hồi quy bội, tôi đã cố gắng giải quyết bằng cách sử dụng hồi quy bội đơn giản:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Điều này dường như đang giải thích 85% phương sai (theo R-squared) có vẻ khá tốt.

Tuy nhiên, điều khiến tôi lo lắng là cốt truyện kỳ ​​lạ của Residuals vs Fited, xem bên dưới:

nhập mô tả hình ảnh ở đây

Tôi nghi ngờ lý do tại sao chúng ta có các đường song song như vậy là bởi vì giá trị Y chỉ có 10 giá trị duy nhất tương ứng với khoảng 160 giá trị X.

Có lẽ tôi nên sử dụng một loại hồi quy khác trong trường hợp này?

Chỉnh sửa : Tôi đã thấy trong bài báo sau đây một hành vi tương tự. Lưu ý đây chỉ là một trang giấy nên khi bạn xem trước, bạn có thể đọc tất cả. Tôi nghĩ rằng nó giải thích khá tốt tại sao tôi quan sát hành vi này nhưng tôi vẫn không chắc liệu có hồi quy nào khác sẽ hoạt động tốt hơn ở đây không?

Edit2: Ví dụ gần nhất với trường hợp của chúng tôi mà tôi có thể nghĩ đến là sự thay đổi của lãi suất. Fed công bố lãi suất mới cứ sau vài tháng (chúng tôi không biết khi nào và tần suất như thế nào). Trong khi đó, chúng tôi thu thập các biến độc lập trên cơ sở hàng ngày (như tỷ lệ lạm phát hàng ngày, dữ liệu thị trường chứng khoán, v.v.). Kết quả là chúng ta sẽ có một tình huống mà chúng ta có thể có nhiều phép đo cho một mức lãi suất.


1
Bạn gần như chắc chắn cần một số hình thức hồi quy khác. Nếu dữ liệu Y là thứ tự (mà tôi nghi ngờ) thì có lẽ bạn muốn hồi quy logistic thứ tự. Một Rgói thực hiện điều này là ordinal, nhưng cũng có những gói khác
Peter Flom

Trên thực tế, Y là giá chúng tôi cố gắng dự đoán, sẽ thay đổi cứ sau vài tháng. Chúng tôi có các biến số ghi hàng tuần (X) với giá tương ứng (Y) thay đổi cứ sau vài tháng. Hồi quy logistic sẽ hoạt động trong trường hợp này khi chúng ta không biết giá trong tương lai?
Datageek

2
Bạn nói đúng về lời giải thích; tài liệu tham khảo của bạn đóng đinh nó. Nhưng tình huống của bạn có vẻ bất thường: có vẻ như bạn chỉ có mười câu trả lời độc lập (nằm trên thang đo liên tục, không phải là một câu rời rạc) nhưng bạn đang sử dụng nhiều biến giải thích thay đổi theo thời gian. Đây không phải là một tình huống được dự tính bởi hầu hết các kỹ thuật hồi quy. Thông tin thêm về ý nghĩa của các biến này và cách chúng được đo có thể giúp chúng tôi xác định phương pháp phân tích tốt.
whuber

Câu trả lời:


4

Một mô hình có thể là một trong các biến "được làm tròn" hoặc "được kiểm duyệt": hãy để là 10 giá trị được quan sát của bạn. Người ta có thể cho rằng có một biến tiềm ẩn đại diện cho giá "thực" mà bạn không biết đầy đủ. Tuy nhiên, bạn có thể viết (với , nếu bạn tha thứ cho sự lạm dụng ký hiệu này). Nếu bạn sẵn sàng mạo hiểm tuyên bố về việc phân phối Z trong mỗi khoảng thời gian này, hồi quy Bayes trở nên tầm thường; một ước tính khả năng tối đa cần thêm một chút công việc (nhưng không nhiều, như tôi có thể nói). Tương tự của vấn đề này được xử lý bởi Gelman & Hill (2007).y1,y10ZYi=yjyj1Ziyj+1y0=,y11=+


1
Đây là một ý tưởng tốt. Nó quan tâm đến hiện tượng này nhưng tôi tự hỏi liệu nó có thể bỏ lỡ một vấn đề lớn hơn hay không: ngay cả khi giá cả có thể được xem là bị kiểm duyệt, rất có thể chúng có mối tương quan chặt chẽ với nhau.
whuber

Tôi đã thử gói censReg R nhưng không thể làm cho nó hoạt động. Có thể tôi không hiểu ý của bạn. Vấn đề là chúng ta biết tất cả các biến phụ thuộc nên chúng ta không có tình huống Y = 0 (bị kiểm duyệt), chỉ là Y duy trì ổn định trong vài tháng. Tôi vừa thực hiện một chỉnh sửa khác để hy vọng điều này giải thích tốt hơn trường hợp sử dụng của chúng tôi.
Datageek

1
Radek, tôi nghĩ ý tưởng là thế này: giả sử giá phụ thuộc vào thời gian nhưng chỉ thay đổi vào các thời điểm riêng biệt . Chúng tôi quan niệm điều này là biểu hiện của một số biến cơ bản không quan sát được ("giá thực") và chúng tôi hy vọng rằng giữa thời gian và sẽ luôn nằm giữa và . Trong thực tế, sau đó, chúng tôi xem giá quan sát tại bất kỳ thời điểm trong khoảng thời gian này như là như kiểm duyệt cả hai ở bên trái và bên phải của vàY(t)t1,t2,Z(t)titi+1 Z(t)Y(ti)Y(ti+1)tZ(t)Y(ti)Y(ti+1). (Tôi phải nhấn mạnh "hy vọng": đây là "tuyên bố rủi ro" được đề cập đến.)
whuber

1
whuber: bạn đúng Bài viết gốc không ám chỉ đến một chuỗi thời gian, vì vậy tôi đã bỏ qua điều đó. Tôi nghĩ rằng để trả lời câu hỏi, chúng ta phải mạo hiểm với hai câu: một về phân phối trong các khoảng và một về hình dạng của mô hình thời gian , tức là hàm f ràng buộc để . trong một mô hình LỖI, cả hai khía cạnh sẽ được thể hiện trong báo cáo về . Không còn đơn giản nữa ...( y j - 1 , y j + 1 Z ( t ) f ( Z ( 1 ) , Z ( 2 , ... , Z ( t - 1 ) ) ZZ(yj1,yj+1Z(t)f(Z(1),Z(2,,Z(t1))Z
Emmanuel Charpentier
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.