Đường thẳng chéo trong phần dư so với biểu đồ giá trị được trang bị cho hồi quy bội


11

Tôi đang quan sát các mẫu lạ trong phần dư cho dữ liệu của mình: nhập mô tả hình ảnh ở đây

[EDIT] Dưới đây là các biểu đồ hồi quy từng phần cho hai biến:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Đã thêm Lô PP http://i.imgur.com/pCKFA.png

Việc phân phối dường như đang hoạt động tốt (xem bên dưới) nhưng tôi không biết đường thẳng này có thể đến từ đâu. Có ý kiến ​​gì không? nhập mô tả hình ảnh ở đây

[CẬP NHẬT 31,07]

Hóa ra bạn đã hoàn toàn đúng, tôi đã có trường hợp số lượng r tweet thực sự là 0 và những trường hợp này ~ 15 trường hợp dẫn đến những mô hình còn lại kỳ lạ đó.

Phần còn lại trông tốt hơn nhiều: http://i.imgur.com/XGas9.png

Tôi cũng đã bao gồm các hồi quy một phần với một dòng hoàng thổ. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


Bạn có thể thêm dòng trang bị được vẽ trên dữ liệu gốc không?
MånsT

Ngoài ra, phụ đề của các số liệu nói "cộng đồng: anime" và "cộng đồng: chiêm tinh", dường như ngụ ý rằng các lô này đến từ các bộ dữ liệu khác nhau ...
MånsT

Tôi nhớ đã nhìn thấy kiểu mẫu này trong phần dư của mình khi các biến phụ thuộc của tôi là phân loại hoặc 'không đủ liên tục'.
Vua

Tôi đã thêm cốt truyện PP thích hợp và các ô một phần của hai IV
plotti

Câu trả lời:


23

Dường như trên một số thứ tự phụ của nó, biến phụ thuộc của bạn là hằng số hoặc chính xác phụ thuộc tuyến tính vào (các) yếu tố dự đoán. Chúng ta có hai biến tương quan, X và Y (Y phụ thuộc). Scatterplot ở bên trái.

nhập mô tả hình ảnh ở đây

Hãy trở lại, ví dụ, về khả năng đầu tiên ("không đổi"). Mã hóa lại tất cả các giá trị Y từ thấp nhất đến .5 0,5 đến một giá trị -1 (xem hình ở giữa). Hồi quy Y trên X và biểu đồ phân tán dư, nghĩa là xoay hình ảnh trung tâm sao cho đường dự đoán nằm ngang. Nó có giống với hình ảnh của bạn không?


6
Đó là thống kê pháp y tốt nhất của nó! +1 lớn.
Michael R. Chernick

Hóa ra bạn hoàn toàn đúng, tôi đã có những trường hợp trong đó số lượng r tweet thực sự là 0 và những trường hợp này ~ 15 đã dẫn đến những mô hình còn lại kỳ lạ đó. i.imgur.com/XGas9.png
plotti

4

Không có gì đáng ngạc nhiên khi bạn không nhìn thấy mẫu trong biểu đồ, mẫu lẻ kéo dài khá nhiều phạm vi của biểu đồ và chỉ đại diện cho một vài điểm dữ liệu trong mỗi thùng. Bạn thực sự cần phải tìm ra những dữ liệu đó là những điểm nào và nhìn vào chúng. Bạn có thể sử dụng các giá trị dự đoán và phần dư để tìm thấy chúng đủ dễ dàng. Một khi bạn tìm thấy các giá trị bắt đầu điều tra tại sao những giá trị đó có thể đặc biệt.

Phải nói rằng, mẫu đặc biệt này chỉ đặc biệt vì nó dài. Nếu bạn nhìn kỹ vào âm mưu còn lại của bạn và âm mưu lượng tử của bạn, bạn sẽ thấy nó lặp lại nhưng đó là chuỗi nhỏ hơn. Có lẽ nó thực sự chỉ là một sự bất thường. Hoặc có lẽ nó thực sự là một mô hình lặp đi lặp lại. Tuy nhiên, bạn sẽ phải tìm vị trí của dữ liệu thô và kiểm tra nó để có hy vọng hiểu được nó.

Để cung cấp cho bạn một chút trợ giúp, biểu đồ lượng tử lượng tử cho thấy bạn có một loạt các phần dư giống hệt nhau. Có thể đó là một lỗi mã hóa. Tôi có thể tạo một cái gì đó tương tự trong R với ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Lưu ý hai điểm phẳng trong dòng. Tuy nhiên, nó có vẻ phức tạp hơn thế bởi vì có một hàm ý rằng phần dư giống hệt nhau đang đi qua một loạt các dự đoán.


3

Có vẻ như bạn đang sử dụng R. Nếu vậy, lưu ý rằng bạn có thể xác định các điểm trên biểu đồ phân tán bằng cách sử dụng ? Nhận dạng . Tôi nghĩ rằng có một số điều đang xảy ra ở đây. Đầu tiên, bạn có một điểm rất có ảnh hưởng đến cốt truyện của LN_RT_vol_in ~ LN_AT_vol_in(phần được tô sáng) vào khoảng (.2, 1.5). Đây rất có thể là phần dư được chuẩn hóa khoảng -3,7. Tác động của điểm đó sẽ là làm phẳng đường hồi quy, nghiêng nó theo chiều ngang hơn so với đường hướng lên mạnh mà bạn có thể đã nhận được. Một ảnh hưởng của điều đó là tất cả các phần dư của bạn sẽ được quay ngược chiều kim đồng hồ so với vị trí mà chúng có thể nằm trong residual ~ predictedlô (ít nhất là khi nghĩ về điều đó đồng biến và bỏ qua cái khác).

Tuy nhiên, dòng dư rõ ràng mà bạn thấy vẫn còn đó, vì chúng tồn tại ở đâu đó trong đám mây 3 chiều của dữ liệu gốc của bạn. Chúng có thể khó tìm thấy ở một trong các ô bên lề. Bạn có thể sử dụng hàm nhận dạng () để trợ giúp và bạn cũng có thể sử dụng gói rgl để tạo một biểu đồ phân tán 3D động mà bạn có thể xoay tự do bằng chuột. Tuy nhiên, lưu ý rằng phần dư của đường thẳng đều nằm dưới 0 trong giá trị dự đoán của chúng và có phần dư dưới 0 (nghĩa là chúng nằm dưới đường hồi quy được trang bị); cung cấp cho bạn một gợi ý lớn cho nơi để tìm. Nhìn lại cốt truyện của bạnLN_RT_vol_in ~ LN_AT_vol_in, Tôi nghĩ rằng tôi có thể nhìn thấy chúng. Có một cụm điểm khá thẳng chạy theo đường chéo xuống và sang trái từ khoảng (-.01, -1.00) ở cạnh dưới của đám mây điểm trong khu vực đó. Tôi nghi ngờ đó là những điểm trong câu hỏi.

Nói cách khác, phần dư nhìn theo cách đó bởi vì chúng là cách đó ở đâu đó trong không gian dữ liệu. Về bản chất, đây là những gì @ttnphns đang đề xuất, nhưng tôi không nghĩ nó khá bất biến ở bất kỳ kích thước ban đầu nào - đó là một hằng số trong một chiều theo góc so với trục ban đầu của bạn. Tôi cũng đồng ý với @MichaelCécick rằng sự thẳng thắn rõ ràng này trong cốt truyện còn lại có thể là vô hại, nhưng dữ liệu của bạn không thực sự rất bình thường. Tuy nhiên, chúng hơi bình thường và dường như bạn có số lượng dữ liệu khá lớn, vì vậy CLT có thể bao phủ bạn, nhưng bạn có thể muốn bootstrap chỉ trong trường hợp. Cuối cùng, tôi sẽ lo lắng rằng 'ngoại lệ' đang dẫn đến kết quả của bạn; một cách tiếp cận mạnh mẽ có lẽ là công đức.


1
Đây có thể it's a constant in a dimension at an angle to your original axeslà tuyên bố của bạn có thể so sánh với của tôi is exactly linearly dependent on the predictor(s), hoặc bạn có nghĩa là một cái gì đó khác nhau?
ttnphns

@ttnphns, tôi đã bỏ lỡ phần câu trả lời của bạn khi tôi đọc lướt nó; Tôi đã thấy "hằng số" và thấy các điểm trong cốt truyện của bạn, và đó là những gì tôi đã lấy đi. Đúng, "đó là một hằng số trong một chiều ..." đồng nghĩa về mặt logic với w / "hoàn toàn phụ thuộc tuyến tính ...". Bây giờ tôi nhận ra rằng điểm cốt lõi của tôi phần lớn giống với điểm của bạn (+1), mặc dù tôi nghĩ rằng một số điểm khác của tôi (đó là dữ liệu có khả năng là thủ phạm, chiến lược R, cách tiếp cận mạnh mẽ, v.v.) vẫn đóng góp gì đó cho cuộc thảo luận.
gung - Phục hồi Monica

Chắc chắn, câu trả lời của bạn đóng góp rất nhiều, cho tôi.
ttnphns

1

Tôi không nhất thiết phải nói rằng biểu đồ là ổn. Nhìn trực quan việc áp dụng mức phù hợp tốt nhất bình thường trên biểu đồ có thể bị đánh lừa và histogrsm của bạn có thể nhạy cảm với sự lựa chọn chiều rộng của thùng. Biểu đồ xác suất bình thường dường như cho thấy một sự khởi đầu lớn so với bình thường và thậm chí nhìn vào biểu đồ có vẻ như mắt tôi bị lệch nhẹ (tần số cao hơn trong thùng [0, + 0,5] so với thùng [-0,5,0] và kurtosis nghiêm trọng (tần số quá lớn trong các khoảng [-4, -3,5] và [2,5, 3]).

Về mô hình mà bạn thấy nó có thể đến từ việc khám phá có chọn lọc thông qua biểu đồ phân tán. Có vẻ như nếu bạn săn thêm một số bạn có thể tìm thấy hai hoặc ba dòng nữa gần như song song với dòng bạn đã chọn. Tôi nghĩ rằng bạn đang đọc quá nhiều vào điều này. Nhưng sự không dị thường là một mối quan tâm thực sự. Bạn có một ngoại lệ rất lớn với số dư gần -4. Những phần dư này đến từ một hình vuông nhỏ nhất phù hợp? Tôi đồng ý rằng có thể sẽ sáng tỏ khi nhìn vào dòng được trang bị trên một biểu đồ phân tán dữ liệu.


Tôi đã thêm các phần của hai IV để làm sáng tỏ hơn về điều này
plotti

1
Tôi muốn thấy điều cơ bản nhất, dòng được trang bị chạy qua một biểu đồ phân tán dữ liệu.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.