Đã đọc về phần dư sinh viên tôi không hiểu làm thế nào ý tưởng về các phương sai còn lại khác nhau có điều kiện trên các giá trị nhất định của một yếu tố dự đoán (theo ngụ ý của khái niệm dư sinh viên) không phải là xung đột với giả định về tính đồng nhất trong các mô hình hồi quy tuyến tính với một biến dự báo duy nhất.
Nó nói trong sách giáo khoa của tôi rằng giả định về tính đồng nhất có nghĩa là phương sai của (biến phụ thuộc) có điều kiện trên (một nhận thức nhất định của biến dự báo độc lập) không đổi trong phạm vi giá trị của yếu tố dự đoán này. Phương sai điều kiện này, nó nói, cũng bằng phương sai điều kiện của biến dư cho một cho trước . Theo hiểu biết của tôi đây là một tuyên bố ở cấp độ dân số. Cùng nhau đó sẽ là:
Sau đó, cuốn sách đề cập đến việc phát hiện các ngoại lệ trong biến phụ thuộc và đề nghị sử dụng phần dư được chuẩn hóa và học sinh. Phần dư được chuẩn hóa là phần dư riêng lẻ chia cho độ lệch chuẩn ước tính của biến dư trong dân số. Trong trường hợp phần dư được chuẩn hóa, mỗi phần dư được tiêu chuẩn hóa bằng cách sử dụng cùng một giá trị không đổi nếu có thể giả sử tính đồng nhất:
.
Tuy nhiên, trong đoạn tiếp theo, phần dư sinh viên được giới thiệu. Cuốn sách nói: "Có thể chỉ ra rằng độ chính xác của ước lượng phần dư tăng theo khoảng cách so với giá trị trung bình của nó . Trong trường hợp phần dư được học sinh, phần dư không được chia cho sai số chuẩn ước tính chung của chúng nhưng theo độ lệch chuẩn ước tính của phần dư tại vị trí . Độ lệch chuẩn này có thể thu được từ công thức này:
với là điểm số đòn bẩy của một công cụ dự đoán (trong trường hợp đơn giản này: số ít) . Vì vậy, dường như trong trường hợp này, phần dư không được chia cho cùng một giá trị không đổi (giống như trong trường hợp phần dư được chuẩn hóa) mà thay vào đó là sự phân phối các lỗi tiêu chuẩn còn lại phụ thuộc vào các giá trị đòn bẩy. Các giá trị đòn bẩy này lớn hơn ở cuối cực của biến dự đoán như đã được giải thích trong các câu hỏi khác trên trang web này. Trên Wikipedia ( https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions ) có ghi:
Trong phân tích hồi quy, sự khác biệt giữa sai số và phần dư là tinh tế và quan trọng, và dẫn đến khái niệm về phần dư sinh viên. Cho một hàm không quan sát được có liên quan đến biến độc lập với biến phụ thuộc - giả sử, một dòng - độ lệch của các quan sát biến phụ thuộc từ hàm này là các lỗi không quan sát được. Nếu một người chạy hồi quy trên một số dữ liệu, thì độ lệch của các quan sát biến phụ thuộc từ hàm được trang bị là phần dư. [...] Tuy nhiên, do hành vi của quá trình hồi quy, phân phối phần dư tại các điểm dữ liệu khác nhau (của biến đầu vào) có thể khác nhau ngay cả khi chính các lỗi được phân phối giống hệt nhau. Cụ thể, trong một hồi quy tuyến tính, nơi các lỗi được phân phối giống hệt nhau, độ biến thiên của phần dư của đầu vào ở giữa miền sẽ cao hơn độ biến thiên của phần dư ở cuối miền [cần dẫn nguồn]: hồi quy tuyến tính phù hợp với điểm cuối tốt hơn giữa. Điều này cũng được phản ánh trong các hàm ảnh hưởng của các điểm dữ liệu khác nhau trên các hệ số hồi quy: điểm cuối có ảnh hưởng nhiều hơn.
Trong khi điều này có ý nghĩa với tôi bằng trực giác, tôi hoàn toàn không hiểu làm thế nào nó không mâu thuẫn với giả định về tính đồng nhất. Có phải vì ở cấp độ dân số, phương sai lỗi có thể bằng với tất cả các cấp nhưng khi chúng tôi ước tính phương sai lỗi đó bằng cách khớp một đường hồi quy (để sau đó chúng tôi có thể sử dụng phần dư làm ước tính của các lỗi ở cấp độ dân số), chúng tôi sẽ tự động và giả tạo tạo ra một phân phối độ lệch chuẩn còn lại có điều kiện trênthay vì có độ lệch chuẩn còn lại là giá trị số ít bằng nhau cho mỗi phần dư? Vì vậy, điều đó có nghĩa là phần dư được chuẩn hóa chỉ thực sự hữu ích ở cấp độ dân số (không quan sát được), phải không? Bởi vì đối với một mẫu nhất định, phần dư được chuẩn hóa có thể là một công cụ ước tính chính xác cho tất cả các giá trị khác xa đơn giản là do cách mô hình hồi quy được trang bị?
Tuy nhiên, nếu đó là trường hợp tôi không hiểu khuyến nghị mà tôi đã đọc ở rất nhiều nơi để kiểm tra tính đồng nhất bằng cách vẽ các phần dư được học sinh dựa vào biến dự đoán và kiểm tra xem phương sai của phần dư sẽ bằng nhau ở mọi cấp độ . Nếu trong một đường hồi quy được trang bị, phương sai của phần dư có thể khác nhau đối với các mức khác nhau (theo tôi nghĩ khái niệm về phần dư được học sinh và đoạn trích từ Wikipedia ngụ ý) làm thế nào có ý nghĩa rằng mọi người đều khuyên nên kiểm tra sự bằng nhau của phương sai dư bằng cách sử dụng các biểu đồ tán xạ của phần dư sinh viên so với mức của yếu tố dự đoán ? Ai đó có thể vui lòng chỉ ra những sai lầm tôi đang làm ở đây?
Tôi có trộn lẫn các giá trị lỗi và dư hoặc dân số và mức mẫu không? Tôi đã tìm kiếm khắp nơi và không thể tìm thấy câu trả lời thỏa mãn nào thảo luận tại sao đây không phải là một cuộc xung đột (hoặc ít nhất là không có gì tôi hiểu). Cảm ơn trước!