Đâu là phương sai được chia sẻ giữa tất cả các IV trong phương trình hồi quy tuyến tính bội?


10

Trong một phương trình hồi quy tuyến tính, nếu các trọng số beta phản ánh sự đóng góp của từng biến độc lập trên và trên sự đóng góp của tất cả các IV khác, thì trong phương trình hồi quy là phương sai được chia sẻ bởi tất cả các IV dự đoán DV?

Ví dụ: nếu sơ đồ Venn được hiển thị bên dưới (và được lấy từ trang 'about' của CV tại đây: https://stats.stackexchange.com/about ) được gắn nhãn là 3 IV và 1 DV, thì khu vực có dấu hoa thị sẽ vào vào phương trình hồi quy bội?

nhập mô tả hình ảnh ở đây


4
Tôi không thấy cần phải tải xuống ở đây. Tôi nghĩ rằng câu hỏi này có được ở những gì đang diễn ra trong hồi quy bội ở cấp độ cơ bản và cung cấp một cơ hội để giải thích điều gì đó về MR mà nếu không sẽ không bao giờ được thảo luận.
gung - Tái lập Monica

Câu trả lời:


8

WikiDiggForumBlogWiki đang trả lời cho bạn

Wiki, nhưng hình cũng hiển thị các phương sai trong các yếu tố dự đoán. Có một vài điều cần chú ý về con số của chúng tôi. Đầu tiên, mỗi biến có cùng một lượng phương sai - chúng đều có cùng kích thước (mặc dù không phải ai cũng sẽ sử dụng biểu đồ Venn theo đúng nghĩa đen). Ngoài ra, có cùng số lượng trùng lặp, v.v., v.v ... Một điều quan trọng hơn cần lưu ý là có rất nhiều sự chồng chéo giữa các biến dự đoán. Điều này có nghĩa là chúng có tương quan. Tình huống này rất phổ biến khi xử lý dữ liệu thứ cấp (tức là lưu trữ), nghiên cứu quan sát hoặc các tình huống dự đoán trong thế giới thực. Mặt khác, nếu đây là một thử nghiệm được thiết kế, nó có thể sẽ ngụ ý thiết kế hoặc thực thi kém. Để tiếp tục với ví dụ này lâu hơn một chút, chúng ta có thể thấy rằng khả năng dự đoán của chúng ta sẽ ở mức trung bình; hầu hết các biến đổi trongWikiR2.35DiggBlogForumWiki

Bây giờ, sau khi phù hợp với một mô hình có nhiều yếu tố dự đoán, mọi người thường muốn kiểm tra các dự đoán đó để xem liệu chúng có liên quan đến biến trả lời hay không (mặc dù điều này không rõ ràng như mọi người tin là như vậy). Vấn đề của chúng tôi là để kiểm tra các yếu tố dự đoán này, chúng tôi phải phân vùng Sum of Squares và vì các yếu tố dự đoán của chúng có tương quan với nhau, có SS có thể được quy cho nhiều hơn một yếu tố dự đoán. Trong thực tế, trong khu vực dấu hoa thị, SS có thể được quy cho bất kỳ trong số ba dự đoán. Điều này có nghĩa là không có phân vùng duy nhất của SS và do đó không có thử nghiệm duy nhất. Vấn đề này được xử lý như thế nào tùy thuộc vào loại SS mà nhà nghiên cứu sử dụng vàcác đánh giá khác được thực hiện bởi các nhà nghiên cứu . Do nhiều ứng dụng phần mềm trả về loại III SS theo mặc định, nhiều người vứt bỏ thông tin trong các vùng chồng lấp mà không nhận ra rằng họ đã thực hiện cuộc gọi phán xét . Tôi giải thích những vấn đề này, các loại SS khác nhau và đi vào chi tiết ở đây .

Câu hỏi đặt ra, như đã nêu, đặc biệt là yêu cầu về nơi mà tất cả các chương trình này lên trong beta phương trình / hồi quy. Câu trả lời là không. Một số thông tin về điều đó có trong câu trả lời của tôi ở đây (mặc dù bạn sẽ phải đọc giữa các dòng một chút).


Xin chào Gung, Cảm ơn bạn đã gửi bài của bạn. Nó rất thú vị và mở mắt của tôi trong một số lĩnh vực. Tuy nhiên, tôi gặp khó khăn khi đọc giữa các dòng của bài đăng mà bạn liên kết đến. Vì vậy, câu hỏi của tôi vẫn là: Trong một phương trình hồi quy tuyến tính, nếu các trọng số beta phản ánh sự đóng góp của từng biến độc lập trên và trên sự đóng góp của tất cả các IV khác, trong đó phương trình hồi quy là phương sai được chia sẻ bởi tất cả các IV. dự đoán DV?
Joel W.

WikiDiggForum
gung - Phục hồi Monica

Nếu "Sự trùng lặp xuất hiện ở cái trước không ở cái sau" thì phương trình hồi quy có thể phản ánh phương sai được chia sẻ như thế nào? Nếu Betas chỉ ra sự đóng góp của từng IV khi ảnh hưởng của tất cả các IV khác được loại bỏ theo thống kê, phần nào của công thức hồi quy phản ánh sức mạnh dự đoán của phương sai được chia sẻ? Hoặc, làm thế nào phương trình hồi quy có thể cho thấy điều gì sẽ xảy ra với Y dự đoán nếu bạn tăng một trong các IV lên 1 nếu sự trùng lặp không được phản ánh trong Betas? Câu hỏi thứ ba: trong phân tích MR về dữ liệu nằm dưới sơ đồ Venn, Diễn đàn beta = 0?
Joel W.

βF=0

1
@MarkWhite, câu trả lời của sinh viên chủ yếu là OK. Tuyên bố rằng khi X1 & X2 có mối tương quan hoàn hảo thì betas của họ là một nửa là không chính xác; khi r = 1 mô hình không xác định được (cf, ở đây ). Khi r tiến gần hơn đến 1, các betas ước tính sẽ phụ thuộc vào các mối quan hệ trong dữ liệu mẫu & có thể thay đổi từ mẫu này sang mẫu khác.
gung - Phục hồi Monica

5

Peter Kennedy có một mô tả hay về sơ đồ Ballentine / Venn cho hồi quy trong cuốn sáchbài báo JSE của ông , bao gồm cả những trường hợp chúng có thể khiến bạn lạc lối.

R2


R2

Thật vậy và đã làm.
Dimitriy V. Masterov

Là khu vực được đánh dấu sao được sử dụng để tính toán dự đoán y? Nếu vậy, khu vực dự đoán nào trong khu vực được đánh dấu đóng góp cho y dự đoán? Nói cách khác, thuật ngữ hoặc thuật ngữ nào trong công thức dự đoán phản ánh khu vực được gắn dấu sao?
Joel W.

3

Tôi nhận ra đây là một chủ đề (rất) ngày, nhưng vì một trong những đồng nghiệp của tôi đã hỏi tôi câu hỏi tương tự trong tuần này và không tìm thấy gì trên Web mà tôi có thể chỉ cho anh ấy, tôi nghĩ rằng tôi sẽ thêm hai xu của mình "cho hậu thế" đây. Tôi không tin rằng các câu trả lời được cung cấp cho đến nay trả lời câu hỏi của OP.

Tôi sẽ đơn giản hóa vấn đề chỉ liên quan đến hai biến độc lập; nó rất đơn giản để mở rộng nó đến hơn hai. Hãy xem xét kịch bản sau: hai biến độc lập (X1 và X2), biến phụ thuộc (Y), 1000 quan sát, hai biến độc lập có mối tương quan cao với nhau (r = 0,99) và mỗi biến độc lập có tương quan với phụ thuộc biến (r = .60). Không mất tính tổng quát, tiêu chuẩn hóa tất cả các biến thành trung bình bằng 0 và độ lệch chuẩn là một, vì vậy thuật ngữ chặn sẽ bằng 0 trong mỗi hồi quy.

Chạy hồi quy tuyến tính đơn giản của Y trên X1 sẽ tạo ra bình phương r là 0,36 và giá trị b1 là 0,6. Tương tự, chạy hồi quy tuyến tính đơn giản của Y trên X2 sẽ tạo ra bình phương r là 0,36 và giá trị b1 là 0,6.

Chạy hồi quy bội của Y trên X1 và X2 sẽ tạo ra bình phương r chỉ cao hơn một chút so với .36 và cả b1 và b2 đều có giá trị 0,3. Do đó, biến thể được chia sẻ trong Y được ghi lại trong BOTH b1 và b2 (bằng nhau).

Tôi nghĩ rằng OP có thể đã đưa ra một giả định sai (nhưng hoàn toàn dễ hiểu): cụ thể là khi X1 và X2 tiến gần hơn và gần hơn với mối tương quan hoàn hảo, các giá trị b của chúng trong phương trình hồi quy bội tiến gần hơn và gần hơn với ZERO. Đó không phải là tình huống. Trong thực tế, khi X1 và X2 tiến gần hơn và gần hơn với mối tương quan hoàn hảo, các giá trị b của chúng trong hồi quy bội sẽ tiến gần hơn và gần hơn với HALF của giá trị b trong hồi quy tuyến tính đơn giản của một trong số chúng. Tuy nhiên, khi X1 và X2 tiến gần hơn và gần hơn với mối tương quan hoàn hảo, L ERI TIÊU CHUẨN của b1 và b2 di chuyển ngày càng gần với vô cực, do đó các giá trị t hội tụ về 0. Vì vậy, các giá trị t sẽ hội tụ về 0 (nghĩa là không có mối quan hệ tuyến tính ĐỘC ĐÁO giữa X1 và Y hoặc X2 và Y),

Vì vậy, câu trả lời cho câu hỏi của OP là, vì mối tương quan giữa X1 và X2 tiếp cận sự thống nhất, EACH của các hệ số độ dốc một phần đóng góp như nhau vào dự đoán của giá trị Y, mặc dù không có biến độc lập nào đưa ra bất kỳ lời giải thích UNIITE nào về sự phụ thuộc Biến đổi.

Nếu bạn muốn kiểm tra điều này theo kinh nghiệm, hãy tạo một bộ dữ liệu được chế tạo (... Tôi đã sử dụng macro SAS có tên Corr2Data.sas ...) có các đặc điểm được mô tả ở trên. Kiểm tra các giá trị b, các lỗi tiêu chuẩn và các giá trị t: bạn sẽ thấy rằng chúng chính xác như được mô tả ở đây.

HTH // Phil


1
Đây là một lời giải thích tuyệt vời, cảm ơn bạn. Tôi đã cố gắng mô phỏng các tình huống khác nhau trong R và tôi đã đi đến kết luận rằng bạn không thể thoát khỏi biến thiên được chia sẻ nếu n quá lớn hoặc nếu tương quan giữa đầu ra (Y) và thành phần chung (X1 và X2 ) là quá cao. Nhưng tại sao các giá trị t sẽ phản ánh bất cứ điều gì không phải là đóng góp duy nhất của X1 và X2, bắt đầu bằng? Nếu các giá trị t hồi quy phản ánh các đóng góp duy nhất của các yếu tố dự đoán, chúng ta không nên thấy variabiltiy được chia sẻ ảnh hưởng đến các giá trị t, nhưng chúng ta làm. Tại sao vậy?
Galit
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.