Giải thích biểu đồ giá trị dư so với giá trị được trang bị để xác minh các giả định của mô hình tuyến tính


34

Hãy xem xét hình dưới đây từ Mô hình tuyến tính của Faraway với R (2005, trang 59).

nhập mô tả hình ảnh ở đây

Biểu đồ đầu tiên dường như chỉ ra rằng phần dư và các giá trị được trang bị không tương quan, vì chúng phải nằm trong mô hình tuyến tính homoscedastic với các lỗi phân phối thông thường. Do đó, các ô thứ hai và thứ ba, dường như chỉ ra sự phụ thuộc giữa phần dư và giá trị được trang bị, gợi ý một mô hình khác nhau.

Nhưng tại sao cốt truyện thứ hai lại gợi ý, như Faraway ghi chú, một mô hình tuyến tính không đồng nhất, trong khi âm mưu thứ ba gợi ý một mô hình phi tuyến tính?

Biểu đồ thứ hai dường như chỉ ra rằng giá trị tuyệt đối của phần dư có tương quan dương với các giá trị được trang bị, trong khi không có xu hướng như vậy rõ ràng trong biểu đồ thứ ba. Vì vậy, nếu đó là trường hợp, về mặt lý thuyết, trong một mô hình tuyến tính không đồng nhất với các lỗi phân phối thông thường

Cor(e,y^)=[1111]

(trong đó biểu thức bên trái là ma trận phương sai hiệp phương sai giữa phần dư và giá trị được trang bị) điều này sẽ giải thích tại sao các ô thứ hai và thứ ba đồng ý với các diễn giải của Faraway.

Nhưng đây có phải là trường hợp? Nếu không, làm thế nào khác cách giải thích của Faraway về âm mưu thứ hai và thứ ba? Ngoài ra, tại sao cốt truyện thứ ba nhất thiết chỉ ra phi tuyến tính? Không phải nó có thể là tuyến tính, nhưng các lỗi hoặc không được phân phối bình thường, hoặc nếu không chúng được phân phối bình thường, nhưng không tập trung quanh 0?


3
Không có ô nào trong ba ô thể hiện mối tương quan (ít nhất là không tương quan tuyến tính, đó là ý nghĩa liên quan của 'tương quan' theo nghĩa mà nó đang được sử dụng trong " phần dư và giá trị được trang bị không tương quan ").
Glen_b -Reinstate Monica

1
@Glen_b: Cảm ơn. Tôi đã sửa đoạn bạn đang đề cập bằng cách thay thế "sự phụ thuộc" cho "tương quan".
Evan Aad

Câu trả lời:


46

Dưới đây là các ô dư có giá trị trung bình và độ rộng xấp xỉ của các điểm (giới hạn bao gồm hầu hết các giá trị) tại mỗi giá trị được trang bị (và do đó của ) được đánh dấu trong - đến một xấp xỉ thô cho biết trung bình có điều kiện (màu đỏ) và trung bình có điều kiện ± (khoảng!) Hai lần độ lệch chuẩn có điều kiện (màu tím):x±

sơ đồ chẩn đoán với giá trị trung bình gần đúng và lan truyền tại mỗi giá trị được đánh dấu trong

  • Biểu đồ thứ hai cho thấy phần dư trung bình không thay đổi với các giá trị được trang bị (và do đó không thay đổi với ), nhưng mức độ lan truyền của phần dư (và do đó của y về dòng được trang bị) đang tăng lên khi giá trị được trang bị (hoặc x ) thay đổi. Đó là, sự lây lan không phải là hằng số. Tính không đồng nhất.xyx

  • biểu đồ thứ ba cho thấy phần dư hầu hết là âm khi giá trị được trang bị nhỏ, dương khi giá trị được trang bị ở giữa và âm khi giá trị được trang bị lớn. Nghĩa là, mức chênh lệch xấp xỉ không đổi, nhưng giá trị trung bình có điều kiện thì không - đường được trang bị không mô tả cách hành xử khi x thay đổi, vì mối quan hệ bị cong.yx

Không phải nó có thể là tuyến tính, nhưng các lỗi không được phân phối bình thường, hoặc các lỗi khác được phân phối bình thường, nhưng không tập trung quanh 0?

Không thực sự *, trong những tình huống đó, các ô trông khác với cốt truyện thứ ba.

(i) Nếu lỗi là bình thường nhưng không tập trung ở số không, nhưng tại , nói, sau đó đánh chặn sẽ nhận sai số trung bình, và do đó đánh chặn ước tính sẽ là một ước lượng β 0 + θ (mà có thể được dự kiến của nó giá trị, nhưng nó được ước tính với lỗi). Do đó, phần dư của bạn vẫn có nghĩa là không có điều kiện, và do đó, cốt truyện sẽ trông giống như âm mưu đầu tiên ở trên.θβ0+θ

(ii) Nếu các lỗi không được phân phối bình thường, mẫu chấm có thể dày nhất ở một nơi khác ngoài đường trung tâm (nếu dữ liệu bị lệch), giả sử, nhưng số dư trung bình cục bộ vẫn ở gần 0.

lỗi không bình thường

Ở đây, các đường màu tím vẫn biểu thị khoảng (rất) khoảng 95%, nhưng nó không còn đối xứng nữa. (Tôi đang giải quyết một vài vấn đề để tránh làm lu mờ điểm cơ bản ở đây.)

xyx


1
y^y^x

2
x1x2x1

1
x

σ2IN(0,V)Vσ2IV
Evan Aad

1
(C. nghĩa.
Glen_b -Reinstate Monica

2

Bạn đã viết

Biểu đồ thứ hai dường như chỉ ra rằng giá trị tuyệt đối của phần dư có tương quan dương với các giá trị được trang bị,

Nó không "có vẻ", nó không. Và đó là những gì heteroskedastic có nghĩa.

Sau đó, bạn đưa ra một ma trận của tất cả 1 giây, không liên quan; tương quan có thể tồn tại và nhỏ hơn 1.

Sau đó bạn viết

Ngoài ra, tại sao cốt truyện thứ ba nhất thiết chỉ ra phi tuyến tính? Không phải nó có thể là tuyến tính, nhưng các lỗi không được phân phối bình thường, hoặc các lỗi khác được phân phối bình thường, nhưng không tập trung quanh 0?

Họ làm trung tâm khoảng 0. Một nửa hoặc hơn dưới 0, một nửa trên. Thật khó để biết liệu chúng có được phân phối bình thường từ âm mưu này hay không, nhưng một âm mưu khác thường được đề xuất là một âm mưu bình thường định lượng của phần dư, và điều đó sẽ cho thấy chúng có bình thường hay không.


N(0,V)Vσ2I

1
Một âm mưu bình thường lượng tử chỉ nhìn vào sự bình thường. Bằng chứng cho sự đồng nhất trong cốt truyện đầu tiên là hình ảnh
Peter Flom - Rebstate Monica

@PeterFlom: Xin lỗi vì cần thiết: Tôi hơi bối rối về việc định lượng, theo đó chúng tôi xem xét lỗi tại mỗi điểm (xi, yi): Chúng tôi có xem xét một số phản hồi (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) cho xi đầu vào; i = 1,2, ..., n (số điểm dữ liệu) và sau đó tìm giá trị trung bình và phương sai cho các giá trị yi_j? Tôi chỉ bối rối tại sao trong hồi quy tuyến tính y = ax + b, x, y, a (hoặc đa tuyến một y + a1x1 + a2x2 + ... lo lắng thì ai, xi) là các biến ngẫu nhiên và không cố định .values. Ngoài ra, chúng tôi có thực hiện phân tích này cho từng cặp dự đoán và từng cặp (y, x_i) với y giá trị độc lập không?
gary

Tôi không hiểu bạn đang bối rối về điều gì. Có một giá trị dự đoán của y và giá trị thực của y cho mỗi quan sát. Phần dư là sự khác biệt giữa chúng.
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.