Tại sao chúng ta cần hồi quy đa biến (trái ngược với một loạt các hồi quy đơn biến)?


28

Tôi vừa duyệt qua cuốn sách tuyệt vời này: Phân tích thống kê đa biến được áp dụng bởi Johnson và Wicotta . Điều trớ trêu là, tôi vẫn không thể hiểu được động lực của việc sử dụng các mô hình đa biến (hồi quy) thay vì các mô hình đơn biến (hồi quy) riêng biệt. Tôi đã xem qua các số liệu thống kê.statexchange 12 giải thích (a) sự khác biệt giữa hồi quy đa biến và đa biến và (b) giải thích kết quả hồi quy đa biến, nhưng tôi không thể điều chỉnh việc sử dụng các mô hình thống kê đa biến từ tất cả các thông tin tôi trực tuyến về họ.

Câu hỏi của tôi là:

  1. Tại sao chúng ta cần hồi quy đa biến? Lợi thế của việc xem xét kết quả đồng thời hơn là cá nhân, để rút ra các kết luận.
  2. Khi nào nên sử dụng các mô hình đa biến và khi nào nên sử dụng nhiều mô hình đơn biến (cho nhiều kết quả).
  3. Lấy một ví dụ được đưa ra trong trang web UCLA với ba kết quả: quỹ kiểm soát, khái niệm bản thân và động lực. Đối với 1. và 2., chúng ta có thể so sánh phân tích khi chúng ta thực hiện ba hồi quy bội đơn biến so với một hồi quy bội đa biến không? Làm thế nào để biện minh cho nhau?
  4. Tôi đã không bắt gặp nhiều bài báo học thuật sử dụng các mô hình thống kê đa biến. Đây có phải là do giả định quy tắc đa biến, sự phức tạp của sự phù hợp / giải thích mô hình hoặc bất kỳ lý do cụ thể nào khác không?

18
Các mô hình đơn biến riêng biệt bỏ qua các mối tương quan.
jwimberley

3
Vâng, có nhiều hiện tượng trên thế giới không thể được mô hình hóa bằng các biến ngẫu nhiên độc lập.
Michael R. Chernick

2
@jwimberley Bạn có thể mở rộng về hậu quả của việc bỏ qua các mối tương quan này trong một câu trả lời?
Jake Westfall

2
Chỉ cần một lưu ý về tiêu đề: giảm kích thước (PCA, phân tích nhân tố, bất kỳ phương pháp phi tuyến, v.v.) và phân cụm thường được coi là phương pháp "đa biến". Có vẻ như câu hỏi của bạn đang tập trung đặc biệt vào hồi quy đa biến (so với một loạt các hồi quy đơn biến), vì vậy tôi khuyên bạn nên đặt nó trực tiếp vào tiêu đề của mình. +1 btw.
amip nói rằng Phục hồi Monica

2
Một ví dụ đơn giản về cách MANOVA có thể có lợi so với ANOVAs: stats.stackexchange.com/questions/129123 . Một tình huống ngược lại khi MANOVA vẫn có lợi nhưng vì một lý do khác: stats.stackexchange.com/questions/61921 . Vì vậy MANOVA có thể: (i) cung cấp thêm năng lượng, (ii) kiểm soát tỷ lệ lỗi chung.
amip nói rằng Phục hồi lại

Câu trả lời:


22

Bạn đã đọc ví dụ đầy đủ trên trang web UCLA mà bạn đã liên kết chưa?

Về 1:
Sử dụng mô hình đa biến giúp bạn (chính thức, suy ra) so sánh các hệ số trên các kết quả.
Trong ví dụ được liên kết đó, họ sử dụng mô hình đa biến để kiểm tra xem writehệ số có khác biệt đáng kể đối với locus_of_controlkết quả so với self_conceptkết quả hay không. Tôi không phải là nhà tâm lý học, nhưng có lẽ thật thú vị khi hỏi liệu khả năng viết của bạn có ảnh hưởng / dự đoán hai biến tâm lý khác nhau theo cùng một cách hay không. (Hoặc, nếu chúng ta không tin rằng null, nó vẫn còn thú vị để hỏi xem bạn đã thu thập đủ dữ liệu để chứng minh một cách thuyết phục rằng những tác động thực sự khác nhau.)
Nếu bạn chạy phân tích đơn biến riêng biệt, nó sẽ là khó khăn hơn để so sánhwritehệ số trên hai mô hình. Cả hai ước tính sẽ đến từ cùng một bộ dữ liệu, vì vậy chúng sẽ tương quan với nhau. Mô hình đa biến chiếm tỷ lệ tương quan này.

Ngoài ra, liên quan đến 4:
một số mô hình đa biến rất thường được sử dụng, chẳng hạn như biện pháp lặp đi lặp lại ANOVA . Với một thiết kế nghiên cứu phù hợp, hãy tưởng tượng rằng bạn cung cấp cho mỗi loại thuốc cho mỗi bệnh nhân và đo lường sức khỏe của từng bệnh nhân sau mỗi loại thuốc. Hoặc tưởng tượng bạn đo lường kết quả tương tự theo thời gian, như với dữ liệu theo chiều dọc, cho biết chiều cao của trẻ em theo thời gian. Sau đó, bạn có nhiều kết quả cho mỗi đơn vị (ngay cả khi chúng chỉ lặp lại kiểu đo lường "giống nhau"). Có lẽ bạn sẽ muốn thực hiện ít nhất một số tương phản đơn giản: so sánh tác dụng của thuốc A với thuốc B hoặc tác dụng trung bình của thuốc A và B so với giả dược. Đối với điều này, các biện pháp lặp lại ANOVA là một mô hình / phân tích thống kê đa biến thích hợp.


1
Bạn đã đưa ra một câu trả lời tuyệt vời. Tôi chắc chắn nhận thức được rằng có một thế giới của những ví dụ và lập luận khác có thể được đưa ra. Tôi thích rằng bạn đã lấy thông tin từ liên kết UCLA để hiển thị OP. Thành thật mà nói ban đầu tôi bị xúc phạm bởi câu hỏi nhưng tôi quyết định đưa ra câu trả lời khi tôi nhận ra rằng OP thực sự muốn ở đây những lý lẽ tốt và không thúc đẩy ý tưởng bỏ qua các phương pháp đa biến. Sự lựa chọn của tôi là đưa ra các ví dụ trong đó bỏ qua mối tương quan có kết quả tàn khốc và gây tử vong thực sự.
Michael R. Chernick

1
Tôi hoan nghênh câu trả lời của bạn và hy vọng những câu trả lời được suy nghĩ kỹ hơn sẽ làm cho điều này trở thành một chủ đề có giá trị.
Michael R. Chernick

Cảm ơn câu trả lời tuyệt vời, @civ Whileat. Trong điểm 1, nếu chúng tôi chạy hai mô hình đơn biến độc lập, bạn đã đề cập rằng hệ số biến đầu vào ( writeví dụ: hệ số) sẽ tương quan và mô hình đa biến giống nhau. Đây là nơi tôi muốn có được sự hiểu biết nhiều hơn. locus_of_control và self_concept có thể được hợp nhất thành một biện pháp duy nhất bằng cách sử dụng phân tích nhân tố hoặc các kỹ thuật khác và biện pháp kết quả có thể được mô hình hóa, nếu có động lực phù hợp. Nếu cả hai đo hai psyc khác nhau. hiện tượng, chúng ta đạt được gì bằng cách mô hình hóa chúng đồng thời?
KarthikS

2
@ManuelFazio Xem câu tiếp theo trên trang web UCLA: "Vậy tại sao lại tiến hành hồi quy đa biến? Như chúng tôi đã đề cập trước đó, một trong những lợi thế của việc sử dụng mvreg là bạn có thể tiến hành kiểm tra các hệ số qua các biến kết quả khác nhau." Nếu bạn chạy hồi quy riêng, bạn sẽ có cùng hệ số và SE cho từng kết quả , nhưng bạn sẽ không có được ước tính về mối tương quan giữa các hệ số giữa các kết quả . Bạn sẽ cần mối tương quan này, ví dụ, nếu bạn muốn nhận được một CI cho sự khác biệt về hệ số đọc cho kết quả động lực so với kết quả tự nhận.
Civilstat

1
@civ Whileat Ah, xấu hổ với tôi, giả định độc lập đã ăn sâu vào tâm trí tôi đến nỗi nó không nhấp ngay cả khi tôi đọc câu đó. Cảm ơn đã giải thích mở rộng!
zipzapboing

11

Hãy suy nghĩ về tất cả các kết luận sai lầm và đôi khi nguy hiểm đến từ việc nhân lên xác suất đơn giản, các sự kiện suy nghĩ là độc lập. Do tất cả các biện pháp bảo vệ dự phòng được xây dựng, chúng tôi đưa vào các chuyên gia nhà máy điện hạt nhân của chúng tôi bằng cách sử dụng giả định độc lập nói với chúng tôi rằng khả năng xảy ra tai nạn hạt nhân lớn là vô cùng lớn. Nhưng như chúng ta đã thấy ở đảo Three Mile, con người mắc phải các lỗi tương quan, đặc biệt là khi họ đang hoảng loạn vì một lỗi ban đầu có thể nhanh chóng tự kết hợp. Có thể khó xây dựng một mô hình đa biến thực tế đặc trưng cho hành vi của con người nhưng nhận ra hiệu quả của một mô hình khủng khiếp (lỗi độc lập) là rõ ràng.

Có nhiều ví dụ khác có thể. Tôi sẽ lấy thảm họa tàu con thoi Challenger làm ví dụ khác. Câu hỏi là có hay không phóng trong điều kiện nhiệt độ thấp. Có một số dữ liệu cho thấy rằng các vòng chữ o có thể bị hỏng ở nhiệt độ thấp. Nhưng không có nhiều dữ liệu từ các nhiệm vụ được thông qua để làm rõ rủi ro cao đến mức nào. NASA luôn quan tâm đến sự an toàn của các phi hành gia và nhiều dự phòng đã được thiết kế vào tàu vũ trụ và phóng các phương tiện để thực hiện các nhiệm vụ an toàn.

Tuy nhiên, trước năm 1986, có một số lỗi hệ thống và lỗi gần như có thể do không xác định được tất cả các chế độ lỗi có thể xảy ra (một nhiệm vụ khó khăn). Mô hình độ tin cậy là một doanh nghiệp khó khăn. Nhưng đó là một câu truyện khác. Trong trường hợp tàu con thoi, nhà sản xuất vòng chữ o (Morton Thiokol) đã thực hiện một số thử nghiệm về vòng chữ o cho thấy khả năng thất bại ở nhiệt độ thấp.

Nhưng dữ liệu về một số nhiệm vụ hạn chế đã cho thấy một số mối quan hệ giữa nhiệt độ và thất bại nhưng vì sự dư thừa khiến một số quản trị viên nghĩ rằng nhiều thất bại trong vòng o sẽ không xảy ra, họ đã gây áp lực lên NASA.

Tất nhiên có nhiều yếu tố khác dẫn đến quyết định. Ghi như thế nào Tổng thống Reagan rất lo lắng đi đưa một giáo viên trong không gian như vậy là để chứng minh rằng nó bây giờ đã đủ an toàn mà những người bình thường những người không phi hành gia có thể an toàn du lịch trên tàu con thoi. Vì vậy, áp lực chính trị là một yếu tố lớn khác ảnh hưởng đến quyết định. Trong trường hợp này với đủ dữ liệu và mô hình đa biến, rủi ro có thể được chứng minh tốt hơn. NASA sử dụng để cố gắng sai lầm ở phía thận trọng. Trong trường hợp này, việc khởi động trong vài ngày cho đến khi thời tiết ấm lên ở Florida sẽ rất thận trọng.

Hoa hồng sau thảm họa, các kỹ sư, nhà khoa học và nhà thống kê đã làm rất nhiều phân tích và các bài báo đã được xuất bản. Quan điểm của họ có thể khác với tôi. Edward Tufte đã cho thấy trong một trong những cuốn sách về đồ họa của mình rằng đồ họa tốt có thể đã thuyết phục hơn. Nhưng cuối cùng, mặc dù những phân tích này đều có giá trị, tôi nghĩ rằng chính trị vẫn sẽ thắng.

Đạo đức của những câu chuyện này không phải là những thảm họa này thúc đẩy việc sử dụng các phương pháp đa biến mà là những phân tích nghèo nàn mà bỏ qua sự phụ thuộc đôi khi dẫn đến việc đánh giá thấp rủi ro. Điều này có thể dẫn đến sự tự tin thái quá có thể nguy hiểm. Như jwimberley đã chỉ ra trong bình luận đầu tiên cho chủ đề này "Các mô hình đơn biến riêng biệt bỏ qua các mối tương quan."


Cảm ơn ví dụ tuyệt vời của bạn, @MichaelCécick. Giả định về sự độc lập là mối quan tâm, tôi hiểu. Tôi tò mò hơn về mối quan hệ giữa các kết quả và nhu cầu mô hình hóa chúng đồng thời.
KarthikS

Hãy để chúng tôi lấy ví dụ về thảm họa tàu con thoi Challenger. Ở đây, kết quả đơn biến là nhị phân - cho dù có an toàn hay không để khởi động tàu con thoi. Xem xét mô hình cố gắng làm nhiều việc, chẳng hạn như dự đoán an toàn, đo độ lệch quỹ đạo và dự đoán áp suất trong nhà cho tàu con thoi. Một cách tiếp cận có thể là xây dựng các mô hình riêng biệt cho từng mô hình và cách khác có thể là xem xét mô hình một cho tất cả, không chỉ cố gắng nắm bắt các hiệu ứng của đầu vào (nhiệt độ, độ ẩm, v.v.), mà còn kiểm tra đồng thời ảnh hưởng đến kết quả.
KarthikS

1
Cảm ơn @MichaelCécick. Tôi không chắc chắn liệu tôi có hiểu hoàn toàn lập luận của bạn không. Tôi hiểu rằng nhiều người trong chúng ta sử dụng hồi quy đơn biến và đa biến cho hồi quy tuyến tính đơn giản với một đầu vào và nhiều hơn một biến đầu vào (trong đó kiểm tra hiệu ứng đồng thời của nhiều đầu vào trong trường hợp này). Nhưng tôi đã đóng khung câu hỏi này cho các mô hình có một kết quả (không biến đổi) hoặc nhiều hơn một kết quả (đa biến). Nếu trường hợp Challenger không ám chỉ trường hợp sử dụng kết quả đa biến, bạn có thể ám chỉ trường hợp hợp lệ không. Cảm ơn bạn đã tiếp tục thảo luận.
KarthikS

Tôi ngạc nhiên rằng bạn đã đặt tiền thưởng cho câu hỏi này. Tiền thưởng thường được thực hiện khi nó không nhận được một vài bình luận nào và nếu nó chứa câu trả lời thì chúng không bao gồm một số khía cạnh quan trọng của các câu hỏi. Chủ đề này đã có ba câu trả lời hay và rất nhiều bình luận (những câu trả lời thực sự tốt giống như câu trả lời đầu tiên từ jwimberley.
Michael R. Chernick

Tôi không chắc chắn những gì bạn muốn. Câu hỏi rất rộng và dường như là một cuộc thảo luận nhiều hơn là một câu hỏi kỹ thuật. Nó gần như đối với tôi giống như bạn đang cố gắng khiến ai đó nói phân tích đơn biến là ổn trong các tình huống phức tạp. Tôi sẽ không cố gắng để nhận tiền thưởng và sẽ rất thú vị để xem trong bảy ngày tới bất cứ ai cố gắng cho nó và nếu họ làm, bạn sẽ chấp nhận nó. Thảm họa Challenger có thể được xem là một kết quả đơn biến nhưng tôi không nghĩ rằng bất kỳ sự tưởng tượng nào có thể được trả lời triệt để chỉ bằng các phương pháp đơn biến.
Michael R. Chernick

7

Hãy xem xét trích dẫn này từ p. 36 cuốn sách của Darcy Olsen Quyền được thử [1]:

Nhưng khoảng mười sáu tuần sau khi truyền dịch [eteplirsen] bắt đầu, Jenn bắt đầu nhận thấy những thay đổi ở [con trai cô] Max. "Đứa trẻ ngừng muốn sử dụng xe lăn của mình," cô nói. Vài tuần sau, anh ta yêu cầu được chơi bên ngoài - điều mà anh ta đã không làm trong nhiều năm. Sau đó, Max bắt đầu lấy lại các kỹ năng vận động tinh của mình. Anh ta đã có thể mở container một lần nữa - một kỹ năng anh ta đã mất khi chứng loạn dưỡng cơ Duchenne của anh ta đã tiến triển.

Mẹ của Max, Jenn đang xây dựng một bức tranh mạch lạc về sự cải thiện của mình, bằng cách thu thập bằng chứng từ nhiều kết quả mà cá nhân có thể bị coi là "tiếng ồn", nhưng điều đó lại rất hấp dẫn. ( Nguyên tắc tổng hợp bằng chứng này là một phần lý do tại sao các bác sĩ nhi khoa không bao giờ bác bỏ những suy luận theo bản năng của cha mẹ rằng "có gì đó không ổn với con tôi". phân tích cắt ngang có thể tiếp cận được với bác sĩ lâm sàng trong một lần gặp lâm sàng đơn, ngắn.)

p>0,05

Đạt được tổng hợp bằng chứng như vậy là lý do cốt lõi để phân tích kết quả đa biến trong các thử nghiệm lâm sàng. Phương pháp thống kê trong nghiên cứu y học đã có một vấn đề đặc biệt vài năm trước [2] dành cho 'Mô hình chung' về kết quả đa biến.

  1. Olsen, Darcy. Quyền được thử: Làm thế nào Chính phủ Liên bang ngăn người Mỹ khỏi các phương pháp điều trị cứu sống mà họ cần. Ấn bản đầu tiên. New York, NY: Harper, một dấu ấn của Nhà xuất bản HarperCollins, 2015.
  2. Rizopoulos, Dimitris và Emmanuel Lesaffre. Giới thiệu về vấn đề đặc biệt về kỹ thuật mô hình hóa chung. Phương pháp thống kê trong nghiên cứu y học 23, không. 1 (ngày 1 tháng 2 năm 2014): 3 trận10. doi: 10.1177 / 0962280212445800.

6

Hãy làm một sự tương tự đơn giản, vì đó là tất cả những gì tôi thực sự có thể cố gắng đóng góp. Thay vì hồi quy đơn biến so với đa biến, chúng ta hãy xem xét phân phối đơn biến (cận biên) so với phân phối đa biến (khớp). Nói rằng tôi có dữ liệu sau đây và tôi muốn tìm "ngoại lệ". Như một cách tiếp cận đầu tiên, tôi có thể sử dụng hai phân phối biên ("đơn biến") và vẽ các đường ở mức thấp hơn 2,5% và trên 2,5% của mỗi phân phối một cách độc lập. Các điểm rơi bên ngoài các đường kết quả được coi là ngoại lệ.

Nhưng hai điều: 1) chúng ta nghĩ gì về các điểm nằm ngoài các đường cho một trục nhưng bên trong các đường cho trục kia? Họ là "ngoại lệ một phần" hay cái gì đó? Và 2) hộp kết quả không giống như nó thực sự làm những gì chúng ta muốn. Lý do là, tất nhiên, hai biến tương quan với nhau, và điều chúng ta muốn theo trực giác là tìm ra các ngoại lệ khác thường khi xem xét các biến kết hợp.

Trong trường hợp này, chúng tôi xem xét phân phối chung và tôi đã mã hóa màu các điểm bằng cách khoảng cách Mahalanobis của chúng từ trung tâm có nằm trong 5% trên hay không. Các điểm đen trông giống như các ngoại lệ, mặc dù một số ngoại lệ nằm trong cả hai đường màu xanh lá cây và một số điểm không ngoại lệ (màu đỏ) nằm bên ngoài cả hai đường màu xanh lục.

Trong cả hai trường hợp, chúng tôi phân định 95% so với 5%, nhưng kỹ thuật thứ hai chiếm phần phân phối chung. Tôi tin rằng hồi quy đa biến là như thế này, nơi bạn thay thế "hồi quy" cho "phân phối". Tôi hoàn toàn không hiểu và không có nhu cầu (mà tôi hiểu) để tự mình thực hiện hồi quy đa biến, nhưng đây là cách tôi nghĩ về nó.

[Sự tương tự có vấn đề: khoảng cách Mahalanobis giảm hai biến thành một số duy nhất - giống như cách một phép hồi quy đơn biến lấy một tập hợp các biến độc lập và, với các kỹ thuật phù hợp, có tính đến hiệp phương sai giữa các biến độc lập và kết quả trong một biến phụ thuộc duy nhất - trong khi hồi quy đa biến dẫn đến nhiều biến phụ thuộc. Vì vậy, nó là loại ngược, nhưng hy vọng về phía trước - đủ để cung cấp một số trực giác.]

nhập mô tả hình ảnh ở đây


1
Tôi thích điều này. Tôi sẽ sử dụng các hình elip bên ngoài để xác định các ngoại lệ. Như tôi thấy minh họa của bạn, một điểm có thể khác xa so với giá trị trung bình theo hướng x hoặc y nhưng vẫn nằm trong một hình elip không xa đường hồi quy.
Michael R. Chernick

3

1) Thiên nhiên không phải lúc nào cũng đơn giản. Trong thực tế, hầu hết các hiện tượng (kết quả) chúng ta nghiên cứu phụ thuộc vào nhiều biến số, và theo một cách phức tạp. Một mô hình suy luận dựa trên một biến tại một thời điểm rất có thể sẽ có độ lệch cao.

2) Các mô hình đơn biến là mô hình đơn giản nhất bạn có thể xây dựng, theo định nghĩa. Sẽ tốt thôi nếu bạn đang điều tra một vấn đề lần đầu tiên và bạn muốn nắm được tính năng quan trọng nhất, duy nhất của nó. Nhưng nếu bạn muốn hiểu sâu hơn về nó, một sự hiểu biết bạn thực sự có thể tận dụng bởi vì bạn tin tưởng những gì bạn đang làm, bạn sẽ sử dụng các phân tích đa biến. Và trong số những người đa biến, bạn nên thích những người hiểu các mẫu tương quan, nếu bạn quan tâm đến độ chính xác của mô hình.

3) Xin lỗi không có thời gian để đọc cái này.

4) Giấy tờ sử dụng các kỹ thuật đa biến rất phổ biến ngày nay - thậm chí cực kỳ phổ biến trong một số lĩnh vực. Tại các thí nghiệm Cern sử dụng dữ liệu Máy va chạm Hadron lớn (lấy ví dụ từ vật lý hạt), hơn một nửa hàng trăm bài báo được xuất bản mỗi năm sử dụng các kỹ thuật đa biến theo cách này hay cách khác

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earpereddate&so=d&rm=&rg=25&sc=0


Tôi nghĩ bạn muốn nói, mô hình đơn biến là một mô hình chỉ có đầu vào và đa biến là mô hình có nhiều đầu vào. Câu hỏi của tôi là về nhiều kết quả được phân tích đồng thời trong một mô hình.
KarthikS

1
Bạn đã kết hợp hồi quy đa biến / đơn biến với hồi quy bội / đơn.
Firebug

1

Câu trả lời của tôi phụ thuộc vào những gì bạn muốn làm với hồi quy. Nếu bạn đang cố gắng so sánh ảnh hưởng của các hệ số khác nhau, thì hồi quy có thể không phải là công cụ phù hợp với bạn. Nếu bạn đang cố gắng đưa ra dự đoán bằng các hệ số khác nhau mà bạn đã chứng minh là độc lập, thì có thể nhiều hồi quy là những gì bạn nên sử dụng.

Là các yếu tố tương quan? Nếu vậy, hồi quy đa biến có thể cung cấp cho bạn một mô hình xấu và bạn nên sử dụng một phương pháp như VIF hoặc hồi quy sườn để cắt các mối tương quan chéo. Bạn không nên so sánh các hệ số cho đến khi các yếu tố tương quan chéo được loại bỏ. Làm như vậy sẽ dẫn đến thảm họa. Nếu chúng không tương quan chéo, thì các hệ số đa biến phải tương đương với các hệ số đơn biến, và điều này không có gì đáng ngạc nhiên.

Kết quả cũng có thể phụ thuộc vào gói phần mềm bạn đang sử dụng. Tôi không nói đùa. Các gói phần mềm khác nhau có các phương pháp khác nhau để tính hồi quy đa biến. (Đừng tin tôi? Hãy xem gói hồi quy R tiêu chuẩn tính toán R 2 có và không buộc nguồn gốc như đánh chặn. Quai hàm của bạn nên giảm sàn.) Bạn cần phải hiểu làm thế nào các gói phần mềm được thực hiện hồi quy. Làm thế nào là nó bù đắp cho mối tương quan chéo? Là nó thực hiện một giải pháp tuần tự hoặc ma trận? Tôi đã từng thất vọng với điều này trong quá khứ. Tôi đề nghị thực hiện nhiều hồi quy của bạn trên các gói phần mềm khác nhau và xem những gì bạn nhận được.

Một ví dụ điển hình khác ở đây:

Lưu ý rằng trong phương trình này, các hệ số hồi quy (hoặc hệ số B) đại diện cho các đóng góp độc lập của từng biến độc lập để dự đoán biến phụ thuộc. Một cách khác để diễn đạt thực tế này là nói rằng, ví dụ, biến X1 có tương quan với biến Y, sau khi kiểm soát tất cả các biến độc lập khác. Loại tương quan này cũng được gọi là tương quan một phần (thuật ngữ này lần đầu tiên được sử dụng bởi Yule, 1907). Có lẽ ví dụ sau đây sẽ làm rõ vấn đề này. Bạn có thể sẽ tìm thấy một mối tương quan tiêu cực đáng kể giữa chiều dài và chiều cao tóc trong dân số (ví dụ, người ngắn có mái tóc dài hơn). Lúc đầu điều này có vẻ kỳ lạ; tuy nhiên, nếu chúng ta thêm Giới tính biến vào phương trình hồi quy bội, mối tương quan này có thể sẽ biến mất. Điều này là do phụ nữ, trung bình, có mái tóc dài hơn nam giới; họ cũng ngắn hơn trung bình so với nam giới. Do đó, sau khi chúng tôi loại bỏ sự khác biệt giới tính này bằng cách đưa Giới tính vào phương trình, mối quan hệ giữa chiều dài và chiều cao của tóc sẽ biến mất vì chiều dài tóc không có đóng góp duy nhất nào cho dự đoán về chiều cao, trên và vượt xa những gì nó chia sẻ trong dự đoán với Giới tính thay đổi . Nói cách khác, sau khi kiểm soát giới tính thay đổi, mối tương quan một phần giữa chiều dài và chiều cao tóc bằng không. mối quan hệ giữa chiều dài và chiều cao tóc biến mất vì chiều dài tóc không có đóng góp độc đáo nào cho dự đoán về chiều cao, trên và vượt xa những gì nó chia sẻ trong dự đoán với Giới tính thay đổi. Nói cách khác, sau khi kiểm soát giới tính thay đổi, mối tương quan một phần giữa chiều dài và chiều cao tóc bằng không. mối quan hệ giữa chiều dài và chiều cao tóc biến mất vì chiều dài tóc không có đóng góp độc đáo nào cho dự đoán về chiều cao, trên và vượt xa những gì nó chia sẻ trong dự đoán với Giới tính thay đổi. Nói cách khác, sau khi kiểm soát giới tính thay đổi, mối tương quan một phần giữa chiều dài và chiều cao tóc bằng không. http://www.statsoft.com/Textbook/Multipl-Regression

Có rất nhiều cạm bẫy khi sử dụng nhiều hồi quy mà tôi cố gắng tránh sử dụng nó. Nếu bạn đã sử dụng nó, hãy rất cẩn thận với kết quả và kiểm tra lại chúng. Bạn phải luôn luôn vẽ dữ liệu trực quan để xác minh mối tương quan. (Chỉ vì chương trình phần mềm của bạn cho biết không có mối tương quan, không có nghĩa là không có. Tương quan thú vị ) Luôn kiểm tra kết quả của bạn theo lẽ thường. Nếu một yếu tố cho thấy mối tương quan mạnh mẽ trong hồi quy đơn biến, nhưng không có yếu tố nào trong đa biến, bạn cần hiểu lý do tại sao trước khi chia sẻ kết quả (yếu tố giới tính ở trên là một ví dụ điển hình).


" Kiểm tra xem gói hồi quy R tiêu chuẩn tính toán R2 có và không buộc nguồn gốc là chặn. " Trong khi nó có thể gây nhầm lẫn cho những người không mong đợi nó, thì R làm gì trong tình huống đó là cách tiếp cận tiêu chuẩn được thực hiện trong mọi phần mềm thống kê gói nơi tôi đã kiểm tra này.
Jake Westfall

Hấp dẫn. Tôi đã thấy các bài báo được công bố từ các nhà phân tích không hiểu sự khác biệt này. Bạn đã thấy một cuộc thảo luận trực tuyến tốt về chủ đề này? Tôi có nên gửi một câu hỏi mới cho CV về nó?
Maddenker

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.