Làm thế nào tôi nên mô hình tương tác giữa các biến giải thích khi một trong số chúng có thể có các số hạng bậc hai và bậc ba?


10

Tôi chân thành hy vọng rằng tôi đã đặt câu hỏi này theo cách mà nó có thể được trả lời dứt khoát - nếu không, xin vui lòng cho tôi biết và tôi sẽ thử lại! Tôi cũng nên đoán rằng tôi sẽ sử dụng R cho các phân tích này.

Tôi có một số biện pháp plant performance (Ys)mà tôi nghi ngờ đã bị ảnh hưởng bởi bốn phương pháp điều trị mà tôi áp đặt-- flower thinning (X1), fertilization (X2), leaf clipping (X3)biased flower thinning (X4). Đối với tất cả các Y có thể, N ít nhất là 242, vì vậy cỡ mẫu của tôi lớn. Tất cả các lô đều có thể bị mỏng đi hoặc không, nhưng mỗi lô cũng phải chịu một (và chỉ một) trong ba phương pháp điều trị khác (hoặc không - cũng có các ô kiểm soát). Ý tưởng của thiết kế này là để kiểm tra xem ba phương pháp điều trị khác có khả năng "che lấp" hay "tăng cường" hiệu quả của việc tỉa thưa hay không. Do đó, theo thiết kế, ba phương pháp điều trị sau (X2 - X4) không thể tương tác với nhau vì chúng không giao nhau, nhưng chúng có thể tương tác với tỉa hoa - và chúng có thể làm được.

Giả thuyết rõ ràng của tôi là 1) tỉa hoa sẽ có ý nghĩa và 2) các thuật ngữ tương tác, X1*X2, X1*X3, and X1*X4,giữa tỉa hoa và ba phương pháp điều trị khác cũng sẽ có ý nghĩa. Đó là, tỉa hoa nên có vấn đề, nhưng những cách mà nó quan trọng nên được thay đổi đáng kể bởi những gì ba phương pháp điều trị khác đã làm.

Tôi muốn bao gồm tất cả các thông tin này trong một mô hình hỗn hợp:

Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)

Nhưng có một vấn đề: Tôi có lý do chính đáng để tin rằng ảnh hưởng của việc làm mỏng đối với Y là phi tuyến tính. Chúng có thể là bậc hai nhưng thậm chí có thể là khối trong một số trường hợp. Điều này là do ảnh hưởng của việc làm mỏng đối với hiệu suất rất có khả năng tăng nhanh hơn ở mức độ mỏng hơn. Nếu tôi cố gắng mô hình hóa mối quan hệ phi tuyến tính này thông qua phương trình trên bằng cách thêm các thuật ngữ bậc hai và bậc ba cho X1, thì tôi không chắc làm thế nào để mô hình hóa các thuật ngữ tương tác - tôi có nên bao gồm mọi kết hợp có thể có của X1, (X1) ^ 2 và (X1) ^ 3 * X2, X3 và X4? Bởi vì có vẻ như có rất nhiều tham số để cố gắng ước tính, ngay cả với số điểm dữ liệu tôi có và tôi không chắc làm thế nào để diễn giải kết quả mà tôi sẽ nhận được. Điều đó nói rằng, tôi không có lý do sinh học để nghĩ rằng đây sẽ là một cách thiếu thận trọng để mô hình hóa tình huống.

Vì vậy, tôi có ba suy nghĩ về cách giải quyết vấn đề này:

  1. Trước tiên, điều chỉnh một mô hình nhỏ hơn Y ~ X1 + X1^2 + X^3 + Random effects, với mục đích duy nhất là tìm hiểu xem mối quan hệ giữa pha loãng và Y là tuyến tính, bậc hai hay khối, sau đó chuyển đổi độ mỏng thông qua căn bậc hai hoặc khối vuông để tuyến tính hóa mối quan hệ một cách thích hợp. Từ đó, các thuật ngữ tương tác có thể được mô hình hóa như trên với biến được chuyển đổi.
  2. Giả sử rằng các tương tác quan trọng, nếu chúng xảy ra, chỉ ảnh hưởng đến một trong các thuật ngữ X1 (nghĩa là chỉ các thuật ngữ tuyến tính, bậc hai hoặc khối) và mô hình hóa các tương tác tương ứng. Tôi thậm chí không chắc cách tiếp cận này có ý nghĩa.
  3. Chỉ cần phù hợp với "mô hình đầy đủ" với mọi điều khoản tương tác có thể có giữa các điều khoản tỉa thưa và các phương pháp điều trị khác như đã thảo luận ở trên. Sau đó, cắt tỉa các thuật ngữ tương tác không đáng kể và sử dụng biểu đồ và các kỹ thuật khác để diễn giải kết quả.

Cách tiếp cận nào trong số này, nếu có, có ý nghĩa nhất và tại sao, cho rằng tôi quan tâm đến thử nghiệm giả thuyết và không chọn mô hình? Cụ thể, nếu # 1 ở trên không có ý nghĩa để làm, tại sao vậy? Tôi đã đọc bài viết nàybài viết này và đã cố gắng tiêu hóa những gì chúng có thể có ý nghĩa đối với tôi, nhưng bất kỳ nguồn nào để đọc thêm cũng sẽ được đánh giá cao!

Câu trả lời:


7

Không có cách tiếp cận nào sẽ hoạt động đúng. Cách tiếp cận 3. đã đến gần, nhưng sau đó bạn nói rằng bạn sẽ cắt tỉa những điều khoản không đáng kể. Điều này là có vấn đề bởi vì tính đồng tuyến tính khiến cho không thể tìm ra thuật ngữ nào cần loại bỏ và bởi vì điều này sẽ cung cấp cho bạn mức độ tự do sai trong các bài kiểm tra giả thuyết nếu bạn muốn duy trì lỗi loại I.

rmsY

# Fit a model with splines in x1 and x2 and tensor spline interaction surface
# for the two.  Model is additive and linear in x3.
# Note that splines typically fit better than ordinary polynomials
f <- ols(y ~ rcs(x1, 4) * rcs(x2, 4) + x3)
anova(f)   # get all meaningful hypothesis tests that can be inferred
           # from the model formula
bplot(Predict(f, x1, x2))    # show joint effects
plot(Predict(f, x1, x2=3))   # vary x1 and hold x2 constant

Khi bạn nhìn thấy anovabảng, bạn sẽ thấy các dòng được gắn nhãn All Interactionscho toàn bộ mô hình sẽ kiểm tra ảnh hưởng kết hợp của tất cả các điều khoản tương tác. Đối với một người dự đoán riêng lẻ, điều này chỉ hữu ích khi người dự đoán tương tác với nhiều hơn một biến. Có một tùy chọn trong printphương thức anova.rmsđể hiển thị theo từng dòng trong bảng chính xác những tham số nào đang được kiểm tra so với không. Tất cả điều này hoạt động với hỗn hợp của các yếu tố dự đoán phân loại và liên tục.

Nếu bạn muốn sử dụng đa thức thông thường sử dụng polthay vì rcs.

Thật không may, tôi đã không thực hiện các mô hình hiệu ứng hỗn hợp.


1
Cảm ơn câu trả lời này. Tôi chưa bao giờ sử dụng spline trước đây, nhưng tôi nghĩ rằng tôi hiểu ví dụ của bạn. Tôi có một vài câu hỏi tiếp theo, nếu điều đó ổn chứ? 1. Khi nhìn vào kết quả anova từ ols, như trong ví dụ của bạn, "Tất cả các tương tác" bên dưới một yếu tố có nghĩa là gì? Đó là, tất cả các tương tác với những gì? 2. Một cách tiếp cận tương tự có được phép trong cách tiếp cận mô hình hỗn hợp không? Tôi nghĩ rằng tôi đang bị mắc kẹt với nhu cầu ngẫu nhiên. Ví dụ của bạn có tương thích với, ví dụ, lme4 không? 3. Điều này sẽ làm việc nếu một số phương pháp điều trị tương tác là phân loại? Ví dụ, nếu X2 là nhân tố 2 cấp thì sao?
Bajcz

2

Tôi là một fan hâm mộ của việc sử dụng hồi quy làm mịn không theo tỷ lệ để đánh giá các dạng hàm của mối quan hệ giữa các biến phụ thuộc và các yếu tố dự đoán, ngay cả khi sau đó tôi sẽ ước tính các mô hình hồi quy tham số. Mặc dù tôi thường xuyên tìm thấy các mối quan hệ phi tuyến tính, tôi chưa bao giờ tìm thấy thuật ngữ tương tác phi tuyến tính, ngay cả khi các tác động chính là phi tuyến mạnh mẽ. Tôi mang về nhà: các hiệu ứng tương tác không cần phải bao gồm các dạng chức năng giống như các yếu tố dự đoán mà chúng được tạo thành.


Vì vậy, để làm rõ, nhà của bạn là nếu tôi chọn tùy chọn # 2, tôi có thể chỉ cần bao gồm các thuật ngữ tương tác với thuật ngữ X1 tuyến tính và không lo lắng về "điều khoản tương tác bậc cao", ví dụ X1 ^ 2 * X3, v.v.
Bajcz

1
@Bajcz Chà ... Tôi đoán tôi đang nói hai điều: (1) Tôi đã xoay sở để có được trong các tập dữ liệu mà tôi đã gặp với các tương tác chỉ tuyến tính, nhưng cũng (2) Tôi thích xem (sử dụng hồi quy không theo tỷ lệ) và để dữ liệu cho tôi biết tôi có nên xem xét các phương án phi tuyến hay không. [Lấy một cách tiếp cận kiểm tra giả thuyết hoặc phù hợp với mô hình cho các thuật ngữ phi tuyến là IMO sai cách sử dụng nó, ví dụ, điều đó đòi hỏi phải suy luận dựa trên, ví dụ, một tập hợp các thuật ngữ đa thức tùy ý, thay vì chính dữ liệu.]
Alexis

3
Không có lý do lớn để tin rằng các tương tác có nhiều khả năng là tuyến tính. Tôi đã bắt gặp những ví dụ tuyệt vời về tương tác phi tuyến. Ý tưởng "tìm kiếm" và "để dữ liệu cho bạn biết" được đưa ra với các vấn đề suy luận bao gồm các vấn đề bảo hiểm khoảng tin cậy xấu.
Frank Harrell

1
@FrankHarrell Cảm ơn bạn! Câu đầu tiên của bạn chính xác là điểm mà tôi đã cố gắng vượt qua (2) trong phần bình luận ở trên (kinh nghiệm trong quá khứ của tôi có thể thay đổi đáng kể trong tương lai). OTOH: không để dữ liệu lên tiếng là một chiến lược tuyệt vời để đưa ra những suy luận về sự giả tạo của các giả định mô hình hóa thành các suy luận về dữ liệu thực tế.
Alexis
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.