Có vẻ như bạn đang sử dụng R
. Nếu vậy, lưu ý rằng bạn có thể xác định các điểm trên biểu đồ phân tán bằng cách sử dụng ? Nhận dạng . Tôi nghĩ rằng có một số điều đang xảy ra ở đây. Đầu tiên, bạn có một điểm rất có ảnh hưởng đến cốt truyện của LN_RT_vol_in ~ LN_AT_vol_in
(phần được tô sáng) vào khoảng (.2, 1.5). Đây rất có thể là phần dư được chuẩn hóa khoảng -3,7. Tác động của điểm đó sẽ là làm phẳng đường hồi quy, nghiêng nó theo chiều ngang hơn so với đường hướng lên mạnh mà bạn có thể đã nhận được. Một ảnh hưởng của điều đó là tất cả các phần dư của bạn sẽ được quay ngược chiều kim đồng hồ so với vị trí mà chúng có thể nằm trong residual ~ predicted
lô (ít nhất là khi nghĩ về điều đó đồng biến và bỏ qua cái khác).
Tuy nhiên, dòng dư rõ ràng mà bạn thấy vẫn còn đó, vì chúng tồn tại ở đâu đó trong đám mây 3 chiều của dữ liệu gốc của bạn. Chúng có thể khó tìm thấy ở một trong các ô bên lề. Bạn có thể sử dụng hàm nhận dạng () để trợ giúp và bạn cũng có thể sử dụng gói rgl để tạo một biểu đồ phân tán 3D động mà bạn có thể xoay tự do bằng chuột. Tuy nhiên, lưu ý rằng phần dư của đường thẳng đều nằm dưới 0 trong giá trị dự đoán của chúng và có phần dư dưới 0 (nghĩa là chúng nằm dưới đường hồi quy được trang bị); cung cấp cho bạn một gợi ý lớn cho nơi để tìm. Nhìn lại cốt truyện của bạnLN_RT_vol_in ~ LN_AT_vol_in
, Tôi nghĩ rằng tôi có thể nhìn thấy chúng. Có một cụm điểm khá thẳng chạy theo đường chéo xuống và sang trái từ khoảng (-.01, -1.00) ở cạnh dưới của đám mây điểm trong khu vực đó. Tôi nghi ngờ đó là những điểm trong câu hỏi.
Nói cách khác, phần dư nhìn theo cách đó bởi vì chúng là cách đó ở đâu đó trong không gian dữ liệu. Về bản chất, đây là những gì @ttnphns đang đề xuất, nhưng tôi không nghĩ nó khá bất biến ở bất kỳ kích thước ban đầu nào - đó là một hằng số trong một chiều theo góc so với trục ban đầu của bạn. Tôi cũng đồng ý với @MichaelCécick rằng sự thẳng thắn rõ ràng này trong cốt truyện còn lại có thể là vô hại, nhưng dữ liệu của bạn không thực sự rất bình thường. Tuy nhiên, chúng hơi bình thường và dường như bạn có số lượng dữ liệu khá lớn, vì vậy CLT có thể bao phủ bạn, nhưng bạn có thể muốn bootstrap chỉ trong trường hợp. Cuối cùng, tôi sẽ lo lắng rằng 'ngoại lệ' đang dẫn đến kết quả của bạn; một cách tiếp cận mạnh mẽ có lẽ là công đức.