Liệu nó có ý nghĩa để thêm một thuật ngữ bậc hai nhưng không phải là thuật ngữ tuyến tính cho một mô hình?


57

Tôi có một mô hình (hỗn hợp) trong đó một trong những dự đoán của tôi nên một tiên nghiệm chỉ liên quan đến phương trình bậc hai với dự đoán (do thao tác thử nghiệm). Do đó, tôi chỉ muốn thêm thuật ngữ bậc hai vào mô hình. Hai điều khiến tôi không làm như vậy:

  1. Tôi nghĩ rằng tôi đã đọc một số thông tin rằng bạn nên luôn luôn bao gồm đa thức bậc thấp hơn khi phù hợp với đa thức bậc cao hơn. Tôi đã quên nơi tôi tìm thấy nó và trong tài liệu tôi đã xem (ví dụ, Faraway, 2002; Fox, 2002) tôi không thể tìm thấy một lời giải thích tốt.
  2. Khi tôi thêm cả hai, thuật ngữ tuyến tính và bậc hai, cả hai đều có ý nghĩa. Khi tôi chỉ thêm một trong số họ, chúng không đáng kể. Tuy nhiên, không thể giải thích được mối quan hệ tuyến tính của yếu tố dự đoán và dữ liệu.

Bối cảnh câu hỏi của tôi cụ thể là một mô hình hỗn hợp sử dụng lme4, nhưng tôi muốn nhận được câu trả lời có thể giải thích tại sao nó lại hoặc tại sao không bao gồm một đa thức bậc cao hơn và không phải là đa thức bậc thấp.

Nếu cần tôi có thể cung cấp dữ liệu.


5
Tôi nghĩ rằng câu trả lời cho câu hỏi này có thể hữu ích.

6
Có, tôi đồng ý với Procrastinator và các câu hỏi tương tác về cơ bản là giống nhau. Chúng tôi có một vài câu hỏi được bình chọn cao về chủ đề này. Ngoài đề xuất của Pro, xem thêm Có phải tất cả các thuật ngữ tương tác đều cần các thuật ngữ riêng lẻ trong mô hình hồi quy không? Điều gì xảy ra nếu tương tác xóa sạch ảnh hưởng trực tiếp của tôi trong hồi quy? .
Andy W

Cảm ơn đã nhắc nhở cho những câu hỏi này. Từ các câu trả lời được đưa ra, có vẻ như đó là một chiến lược ổn nếu bạn có lý do chính đáng để chỉ bao gồm thuật ngữ bậc hai và không sai. Câu hỏi còn lại là câu hỏi về khả năng mở rộng (xem: stats.stackexchange.com/a/27726/442 ). Tôi có nên tập trung vào biến của mình trước khi khớp khi chỉ sử dụng thuật ngữ bậc hai?
Henrik

1
@Henrik - Câu trả lời của tôi trong liên kết bạn đã đăng liên quan đến cách suy luận mô hình phụ thuộc vào sự dịch chuyển tùy ý trong các giá trị dự đoán (chẳng hạn như định tâm) - không mong muốn có kết luận thực tế phụ thuộc vào điều gì đó rất tùy tiện, đó là lý do tại sao câu trả lời của tôi cho bạn câu hỏi là 'không', vì lý do tương tự.
Macro

2
Vấn đề của bậc hai so với tuyến tính là đủ khác biệt về mặt khái niệm với các tương tác mà tôi nghĩ rằng điều này không nên được coi là một bản sao.
gung - Tái lập Monica

Câu trả lời:


66

1. Tại sao bao gồm thuật ngữ tuyến tính?

Nó được chiếu sáng để nhận thấy rằng một mối quan hệ bậc hai có thể được viết theo hai cách:

y=a0+a1x+a2x2=a2(xb)2+c

(trong đó, các hệ số tương đương, chúng ta tìm thấy a 2 b 2 + c = a 0 ). Giá trị x = b tương ứng với một cực trị toàn cầu của mối quan hệ (về mặt hình học, nó định vị đỉnh của một parabol).2a2b=a1a2b2+c=a0x=b

Nếu bạn không bao gồm các hạn tuyến tính , các khả năng được giảm đếna1x

y=a0+a2x2=a2(x0)2+c

(trong đó bây giờ, rõ ràng, và giả sử mô hình chứa một số hạng không đổi a 0 ). Tức là bạn buộc b = 0 .c=a0a0b=0

Trước vấn đề này, câu hỏi số 1 đưa ra liệu bạn có chắc chắn rằng cực trị toàn cầu phải xảy ra ở . Nếu bạn đang có, sau đó bạn một cách an toàn có thể bỏ qua các hạn tuyến tính một 1 x . Nếu không, bạn phải bao gồm nó.x=0a1x

2. Làm thế nào để hiểu những thay đổi có ý nghĩa như các thuật ngữ được bao gồm hoặc loại trừ?

Điều này được thảo luận rất chi tiết trong một chủ đề liên quan tại https://stats.stackexchange.com/a/28493 .

Trong trường hợp hiện tại, tầm quan trọng của chỉ có độ cong trong mối quan hệ và tầm quan trọng của một 1 chỉ ra rằng b là khác không: có vẻ như bạn cần phải bao gồm cả về (cũng như hằng số, tất nhiên).a2a1b


1
Cảm ơn ai. Câu trả lời chính xác. Vì vậy, nếu tôi tập trung vào cực trị lý thuyết về 0 (nó thực sự là tối thiểu) tôi sẽ ổn với việc sử dụng thuật ngữ tuyến tính. Điều này dẫn đến một dự đoán bậc hai có ý nghĩa cao (không có tuyến tính).
Henrik

nếu cả hai thuật ngữ tuyến tính và bậc hai của một biến có tương quan với nhau, tôi có thể bao gồm cả hai thuật ngữ này trong một mô hình hay tôi nên loại trừ một thuật ngữ (mà tôi cho rằng nó phải là bậc hai)?
mtao

@Teresa Không có lý do chung để loại bỏ các thuật ngữ tương quan trong hồi quy. (Nếu đó là trường hợp, phần lớn các mô hình hồi quy từng được tạo ra sẽ gặp rắc rối!) Các thuật ngữ tương quan rất mạnh mà không đóng góp gì có ý nghĩa đối với sự phù hợp của mô hình so với một trong các thuật ngữ đó có thể được giảm xuống thành một tập hợp con của các thuật ngữ đó.
whuber

@whuber, cảm ơn bạn rất nhiều! Ngoài ra, đối với mô hình hồi quy logistic, tôi đã sử dụng tỷ lệ chênh lệch để ước tính kích thước hiệu ứng, nhưng chỉ với các thuật ngữ tuyến tính. Khi tôi có tuyến tính và bậc hai, tôi có thể sử dụng cùng một cách tiếp cận và diễn giải các kết quả theo cùng một cách không?
mtao

Không hẳn. Lý do là bạn không thể thay đổi riêng các thuật ngữ tuyến tính và bậc hai. Bạn phải xem xét phản ứng sẽ thay đổi như thế nào khi bạn thay đổi biến ban đầu một chút.
whuber

22

@whuber đã đưa ra một câu trả lời thực sự xuất sắc ở đây. Tôi chỉ muốn thêm một điểm miễn phí nhỏ. Câu hỏi nói rằng "không thể giải thích được mối quan hệ tuyến tính của yếu tố dự đoán và dữ liệu". Điều này gợi ý về một sự hiểu lầm phổ biến, mặc dù tôi thường nghe nó ở đầu bên kia ('cách giải thích của thuật ngữ bình phương [khối, v.v.] là gì?').


GPA^college=β0+β1GPAhighschool+β2class rank+β3SAT,

(GPA có nghĩa là điểm trung bình;
xếp hạng là thứ tự điểm trung bình của học sinh so với các học sinh khác trong cùng một trường trung học; &
SAT có nghĩa là 'bài kiểm tra năng khiếu học thuật' một bài kiểm tra tiêu chuẩn toàn quốc cho học sinh đi học đại học)

β1

Tuy nhiên, điều quan trọng cần lưu ý là không phải lúc nào cũng được phép diễn giải một mô hình theo cách này. Một trường hợp rõ ràng là khi có sự tương tác giữa một số biến, vì thuật ngữ riêng lẻ sẽ không thể khác biệt và vẫn có tất cả các yếu tố khác - không nhất thiết, thuật ngữ tương tác cũng sẽ thay đổi. Do đó, khi có sự tương tác, chúng ta không diễn giải các hiệu ứng chính mà chỉ hiểu các hiệu ứng đơn giản , như đã được hiểu rõ.


y^=β0+β1x+β2x2
xxx2x2xx17pp1xyy^x
dydx=β1+2β2x
yxy xyxoldxnew. Đây chỉ đơn giản là bản chất của một mối quan hệ curvilinear.

1
Phản ứng tuyệt vời! Điều này nhắc nhở tôi một vài phản hồi xuất sắc mà người dùng chl đã cung cấp về việc diễn giải các hiệu ứng tương tác . Ông đưa ra các tài liệu tham khảo bài viết trong phản hồi này, các thực tiễn tốt nhất trong việc xác định các hiệu ứng tương tác là gì? . Và đưa ra một ví dụ tuyệt vời về hiển thị đồ họa bằng cách sử dụng coplots trong phản hồi này, Có thể tương tác giữa hai biến liên tục không? .
Andy W

1
Đối với câu trả lời của Gung, tôi chỉ muốn nói rằng mô hình thống kê liên quan đến nhiễu có thể ngụy trang các chi tiết trong mô hình hồi quy đa thức. Tôi nghĩ rằng vấn đề trung tâm mà Bill Huber nêu ra là một vấn đề nghiêm trọng bởi vì trong một hình thức, một thuật ngữ tuyến tính bị thiếu và trong trường hợp khác nó xảy ra với thuật ngữ bậc hai. Độ mạnh của độ cong trong tín hiệu cho thấy nhu cầu về thuật ngữ thứ tự cao hơn nhưng thực sự không cho chúng ta biết gì về sự cần thiết của thuật ngữ tuyến tính.
Michael Chernick

7

x=0

Y=b0+b2(xx¯)2x¯xx=x¯

Tuyên bố của bạn rằng cả hai thuật ngữ tuyến tính và bậc hai đều có ý nghĩa khi cả hai được nhập cần một số giải thích rõ ràng. Ví dụ, SAS có thể báo cáo Loại I và / hoặc thử nghiệm Loại III cho ví dụ đó. Loại I kiểm tra tuyến tính trước khi đưa vào bậc hai. Loại III kiểm tra tuyến tính với bậc hai trong mô hình.


2
x2x=0x=x¯xx2xảy ra.
gung - Phục hồi Monica

Trên một lưu ý khác, bạn có thể tham khảo các đóng góp của người dùng bằng cách nêu tên người dùng của họ, có thể bằng biểu tượng 'tại'. Ví dụ: trong trường hợp này, 'câu trả lời của @ whuber là đúng mục tiêu ...' (Một tình cảm mà tôi đồng ý.)
gung - Tái lập Monica

1
Cảm ơn bạn, Emil, vì đã đóng góp những lời nhắc nhở đó: cả hai đều đáng ghi nhớ.
whuber

3

Brambor, Clark và Golder (2006) (đi kèm với phụ lục internet ) có một cách rất rõ ràng về cách hiểu các mô hình tương tác và cách tránh những cạm bẫy phổ biến, bao gồm cả lý do tại sao bạn (hầu như) luôn bao gồm các điều khoản theo thứ tự thấp hơn ( "Các thuật ngữ cấu thành") trong các mô hình tương tác.

Các nhà phân tích nên bao gồm tất cả các thuật ngữ cấu thành khi chỉ định các mô hình tương tác nhân trừ khi trong các trường hợp rất hiếm. Theo các thuật ngữ cấu thành, chúng tôi có nghĩa là từng yếu tố cấu thành thuật ngữ tương tác. [..]

X2XZJXX2XZJXZXJZJXZJ

Không làm như vậy có thể dẫn đến một mô hình chưa được xác định rõ ràng sẽ dẫn đến các ước tính sai lệch. Điều này có thể dẫn đến lỗi vô sinh.

ZXZXZβ0β1β3

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.