Tại sao các biến độc lập tập trung có thể thay đổi các hiệu ứng chính với sự điều độ?


28

Tôi có một câu hỏi liên quan đến hồi quy và tương tác nhiều, lấy cảm hứng từ chuỗi CV này: Thuật ngữ tương tác sử dụng phân tích hồi quy phân cấp phân cấp? Những biến nào chúng ta nên tập trung?

Khi kiểm tra hiệu ứng kiểm duyệt, tôi tập trung vào các biến độc lập của mình và nhân các biến trung tâm để tính toán thời hạn tương tác của tôi. Sau đó, tôi chạy phân tích hồi quy của mình và kiểm tra các hiệu ứng chính và tương tác, có thể hiển thị kiểm duyệt.

Nếu tôi làm lại phân tích mà không cần định tâm, rõ ràng hệ số xác định ( ) không thay đổi nhưng hệ số hồi quy ( s) thì có. Điều đó có vẻ rõ ràng và hợp lý.R2β

Điều tôi không hiểu: Giá trị p của các hiệu ứng chính thay đổi đáng kể theo định tâm, mặc dù tương tác không (điều này đúng). Vì vậy, cách giải thích của tôi về các hiệu ứng chính có thể thay đổi đáng kể - chỉ cần xác định bằng cách định tâm hay không. (Đây vẫn là cùng một dữ liệu, trong cả hai phân tích!)

Ai đó có thể làm rõ? - Bởi vì điều đó có nghĩa là tùy chọn tập trung vào các biến của tôi sẽ là bắt buộc và mọi người nên làm điều đó để có được kết quả tương tự với cùng một dữ liệu.


Cảm ơn rất nhiều vì đã phân phối cho vấn đề đó và giải thích toàn diện của bạn. Hãy yên tâm rằng sự giúp đỡ của bạn được đánh giá rất cao!

Đối với tôi, lợi thế lớn nhất của việc định tâm là tránh đa hình. Vẫn còn khá khó hiểu để thiết lập một quy tắc, cho dù là trung tâm hay không. Ấn tượng của tôi là, hầu hết các tài nguyên gợi ý cho trung tâm, mặc dù có một số "rủi ro" khi thực hiện nó. Một lần nữa tôi muốn đưa ra một thực tế rằng, 2 nhà nghiên cứu xử lý cùng một tài liệu và dữ liệu có thể kết luận các kết quả khác nhau, bởi vì một người làm trung tâm còn người kia thì không. Tôi mới đọc một phần của cuốn sách của Bortz (anh ấy là Giáo sư và là một Ngôi sao Thống kê ở Đức và Châu Âu), và anh ấy thậm chí không đề cập đến kỹ thuật đó; chỉ cần cẩn thận trong việc diễn giải các tác động chính của các biến khi chúng có liên quan đến tương tác.

Rốt cuộc, khi bạn tiến hành hồi quy với một IV, một người điều hành (hoặc IV thứ hai) và DV, bạn có đề nghị trung tâm hay không?


5
Tôi gần như không bao giờ sử dụng định tâm, thấy nó hoàn toàn không cần thiết và khó hiểu.
Frank Harrell

3
Đọc lại câu trả lời một cách cẩn thận. Kết luận của bạn không thay đổi khi bạn căn giữa các biến độc lập hoặc áp dụng bất kỳ phép biến đổi tuyến tính nào - nếu chúng được rút ra chính xác. Multicollinearity do không tập trung là một vấn đề hoàn toàn bằng số & được xử lý tự động bởi bất kỳ phần mềm tử tế nào.
Scortchi - Phục hồi Monica

1
Hiện tượng này (thay đổi giá trị p) có thể được hiểu là hệ quả của tính chất bậc hai của các tương tác, như được giải thích tại stats.stackexchange.com/questions/28730/ .
whuber

Câu trả lời:


23

Trong các mô hình không có thuật ngữ tương tác (nghĩa là không có thuật ngữ nào được xây dựng như sản phẩm của các thuật ngữ khác), mỗi hệ số hồi quy của mỗi biến là độ dốc của bề mặt hồi quy theo hướng của biến đó. Nó là hằng số, bất kể giá trị của các biến và do đó có thể nói là đo lường hiệu quả tổng thể của biến đó.

Trong các mô hình có tương tác, việc giải thích này có thể được thực hiện mà không cần chứng nhận thêm cho các biến không liên quan đến bất kỳ tương tác nào. Đối với một biến có liên quan đến tương tác, hệ số hồi quy "hiệu ứng chính" - nghĩa là, chính hệ số hồi quy của biến đó - là độ dốc của bề mặt hồi quy theo hướng của biến đó khi tất cả các biến khác tương tác với biến đó có các giá trị bằng 0 và phép thử quan trọng của hệ số chỉ độ dốc của bề mặt hồi quy chỉ trong vùng đó của không gian dự đoán. Do không có yêu cầu thực sự có dữ liệu trong vùng không gian đó, nên hệ số hiệu ứng chính có thể có chút tương đồng với độ dốc của bề mặt hồi quy trong vùng không gian dự đoán nơi dữ liệu được quan sát thực sự.

Trong thuật ngữ anova, hệ số hiệu ứng chính tương tự như hiệu ứng chính đơn giản, không phải là hiệu ứng chính tổng thể. Hơn nữa, nó có thể đề cập đến những gì trong thiết kế anova sẽ là các ô trống trong đó dữ liệu được cung cấp bằng cách ngoại suy từ các ô có dữ liệu.

Để đo lường hiệu ứng tổng thể của biến tương tự với hiệu ứng chính tổng thể trong anova và không ngoại suy ngoài vùng mà dữ liệu được quan sát, chúng ta phải xem độ dốc trung bình của bề mặt hồi quy theo hướng của biến , trong đó trung bình là trên N trường hợp thực sự được quan sát. Độ dốc trung bình này có thể được biểu thị dưới dạng tổng trọng số của các hệ số hồi quy của tất cả các thuật ngữ trong mô hình liên quan đến biến trong câu hỏi.

Các trọng lượng là khó khăn để mô tả nhưng dễ dàng để có được. Hệ số hiệu ứng chính của một biến luôn có trọng số là 1. Đối với mỗi hệ số khác của một thuật ngữ liên quan đến biến đó, trọng số là giá trị trung bình của sản phẩm của các biến khác trong thuật ngữ đó. Ví dụ: nếu chúng ta có năm biến "thô" x1, x2, x3, x4, x5, cộng với bốn tương tác hai chiều (x1,x2), (x1,x3), (x2,x3), (x4,x5)và một tương tác ba chiều (x1,x2,x3), thì mô hình là

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

và các hiệu ứng chính tổng thể là

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

Trong đó M [.] biểu thị giá trị trung bình mẫu của đại lượng trong ngoặc. Tất cả các điều khoản sản phẩm trong dấu ngoặc nằm trong số các thuật ngữ được xây dựng để thực hiện hồi quy, do đó, một chương trình hồi quy nên biết về chúng và có thể in phương tiện của chúng theo yêu cầu.

Trong các mô hình chỉ có hiệu ứng chính và tương tác hai chiều, có một cách đơn giản hơn để có được các hiệu ứng tổng thể: centre [1] các biến thô theo phương tiện của chúng. Điều này được thực hiện trước khi tính toán các điều khoản của sản phẩm và không được thực hiện đối với các sản phẩm. Sau đó, tất cả các biểu thức M [.] Sẽ trở thành 0 và các hệ số hồi quy sẽ được hiểu là các hiệu ứng tổng thể. Các giá trị của b's sẽ thay đổi; các giá trị của B sẽ không. Chỉ các biến có liên quan đến tương tác cần phải được căn giữa, nhưng thường không có hại trong việc định tâm các biến đo khác. Tác động chung của việc định tâm một biến là ngoài việc thay đổi phần chặn, nó chỉ thay đổi các hệ số của các biến khác tương tác với biến trung tâm. Đặc biệt, nó không thay đổi hệ số của bất kỳ thuật ngữ nào liên quan đến biến trung tâm. Trong ví dụ đã nêu ở trên, định tâm x1 sẽ thay đổi b0, b2, b3 và b23.

[1 - "Định tâm" được sử dụng bởi những người khác nhau theo những cách khác nhau vừa đủ để gây nhầm lẫn. Như được sử dụng ở đây, "căn giữa một biến tại #" có nghĩa là trừ # khỏi tất cả các điểm trên biến, chuyển đổi điểm ban đầu thành độ lệch từ #.]

Vậy tại sao không phải luôn luôn trung tâm tại các phương tiện, thường xuyên? Ba lý do. Đầu tiên, các hệ số hiệu ứng chính của các biến không được kiểm duyệt có thể được quan tâm. Việc định tâm trong các trường hợp như vậy sẽ phản tác dụng, vì nó thay đổi các hệ số hiệu ứng chính của các biến khác.

Thứ hai, định tâm sẽ làm cho tất cả các biểu thức M [.] 0, và do đó chuyển đổi các hiệu ứng đơn giản thành hiệu ứng tổng thể, chỉ trong các mô hình không có tương tác ba chiều hoặc cao hơn . Nếu mô hình chứa các tương tác như vậy thì việc tính toán b -> B vẫn phải được thực hiện, ngay cả khi tất cả các biến được tập trung tại phương tiện của chúng.

Thứ ba, tập trung vào một giá trị như giá trị trung bình, được xác định bởi phân phối của các yếu tố dự đoán trái ngược với việc được chọn một cách hợp lý, có nghĩa là tất cả các hệ số bị ảnh hưởng bởi định tâm sẽ đặc trưng cho mẫu cụ thể của bạn. Nếu bạn tập trung vào trung bình thì ai đó cố gắng sao chép nghiên cứu của bạn phải tập trung vào ý nghĩa của bạn, chứ không phải trung bình của họ, nếu họ muốn có được các hệ số tương tự mà bạn có. Giải pháp cho vấn đề này là tập trung vào từng biến ở giá trị trung tâm được chọn hợp lý của biến đó phụ thuộc vào ý nghĩa của điểm số và không phụ thuộc vào phân phối điểm. Tuy nhiên, các tính toán b -> B vẫn cần thiết.

Tầm quan trọng của các hiệu ứng tổng thể có thể được kiểm tra bằng các thủ tục thông thường để kiểm tra các tổ hợp tuyến tính của các hệ số hồi quy. Tuy nhiên, các kết quả phải được giải thích một cách cẩn thận vì các hiệu ứng tổng thể không phải là các tham số cấu trúc mà phụ thuộc vào thiết kế. Các tham số cấu trúc - các hệ số hồi quy (không tập trung hoặc có định tâm hợp lý) và phương sai lỗi - có thể được dự kiến ​​sẽ duy trì bất biến dưới sự thay đổi trong phân phối của các yếu tố dự báo, nhưng nhìn chung các hiệu ứng sẽ thay đổi. Các hiệu ứng tổng thể là đặc trưng cho mẫu cụ thể và không được dự kiến ​​sẽ chuyển sang các mẫu khác với các phân phối khác nhau trên các yếu tố dự đoán. Nếu một hiệu ứng tổng thể có ý nghĩa trong một nghiên cứu và không phải trong một nghiên cứu khác, nó có thể phản ánh không có gì khác hơn là sự khác biệt trong phân phối của các yếu tố dự đoán.


10

β

y=β1x1+β2x2+β3x1x2+ϵβ1x1β3x1x2x1x1x2β

ββ1yx1 x2=0x1yx2β1x2

βx1yx2yx1x2


-1

Tôi đã phát điên với cùng một câu hỏi, nhưng cuối cùng tôi đã tìm ra giải pháp cho vấn đề của bạn và tôi. NÓ LÀ TẤT CẢ VỀ CÁCH BẠN TÍNH TOÁN BIẾN ĐỔI TRUNG TÂM CỦA BẠN. Có sẵn hai tùy chọn:
1. BIỂU TƯỢNG ĐỘC LẬP CÁ NHÂN 2. BIỂU TƯỢNG ĐỘC LẬP - PHƯƠNG TIỆN
Bạn có thể đã tính các biến trung tâm của mình là (biến cá nhân - giá trị trung bình) , do đó, những người có giá trị thấp sẽ có điểm âm và những người có giá trị cao sẽ có kết quả âm điểm số.
Tôi sẽ giải thích với một ví dụ để dễ hiểu hơn. Tôi muốn xem sức mạnh cơ bắp, ảnh hưởng đến khối lượng xương và tôi muốn tính đến giới tính để xem liệu nó có ảnh hưởng khác nhau ở các cô gái và chàng trai. Ý tưởng là sức mạnh cơ bắp càng cao thì khối xương càng cao. Do đó tôi có:

Biến phụ thuộc: Khối lượng xương Biến độc lập: Giới tính, sức mạnh cơ bắp, tương tác_SEX_MUSCLE cường độ.

Như tôi đã tìm thấy tính đa hướng (bạn thường làm khi bạn có một thuật ngữ tương tác), tôi đã tập trung vào cơ bắp (MEAN - INDIVIDUAL VARIABLE) và tạo ra thuật ngữ tương tác mới với biến trung tâm mới. Hệ số của tôi là

0.902
-0.010
-0.023
0.0002

0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

Nhìn vào điều này bạn có thể nghĩ rằng cơ bắp đang ảnh hưởng tiêu cực đến xương, nhưng bạn phải nghĩ về các biến trung tâm của bạn chứ không phải các biến ban đầu của bạn. Hãy nói rằng sức mạnh cơ bắp trung bình của nhóm là 30 KG. Và bạn muốn ước tính khối lượng xương của một cậu bé (WEAKBOY) đã thực hiện 20 KGvà một người khác đã thực hiện 40KG(STRONGBOY). Các giá trị trung tâm của WEAKBOY sẽ là (GIÁ TRỊ NHÓM MEAN - GIÁ TRỊ ĐỘC LẬP; 30 - 20 = 10) và đối với STRONGBOY sẽ là -10. Áp dụng các giá trị này cho phương trình:

WEAKBOY Khối lượng xương = 0,902 - 0 - (0,023 * 10) + .... = 0,672

CHIẾN LƯỢC Khối lượng xương = 0,902 - (0,023 * (- 10)) + ... = 1.132

Như bạn có thể thấy, STRONGBOY thực sự sẽ có xương chắc khỏe hơn. Nếu bạn đã căn giữa các biến của mình theo cách khác: (ĐỘC LẬP - Ý NGH) A), tất cả các hệ số sẽ giống nhau nhưng các ký hiệu sẽ khác nhau. Điều này là do khi bạn áp dụng biến trung tâm WEAKBOY sẽ là (-10) và STRONGBOY sẽ là (+10). Do đó, kết quả cuối cùng sẽ giống hệt nhau.

Tất cả đều có ý nghĩa khi bạn hiểu nó.

Hy vọng ví dụ là đủ rõ ràng.


Lỗi này sẽ không giải thích được những thay đổi trong giá trị p. BTW, tùy chọn của bạn (1) không tập trung, bởi vì nó bao gồm nhân các giá trị với một hằng số. (Hằng số là -1.)
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.