Giá trị của t liên kết với nlme / lme4


8

Tôi hiểu vấn đề xác định mức độ tự do trong các mô hình đa cấp; do đó, quyết định của Doug Bates et al. không báo cáo các giá trị p như là một phần của gói lme4 trong R. Không đề cập đến rất nhiều vấn đề với, và nói chung tập trung quá mức vào các giá trị p.

Tuy nhiên, tôi muốn làm rõ bản chất của "giá trị t" được báo cáo trong đầu ra tóm tắt của một mô hình đa cấp trong nlme hoặc lme4.

Có phải đó là trường hợp giá trị t được báo cáo trong nlme / lme4 từ một tập dữ liệu bao gồm dữ liệu tương quan thực sự không phải từ phân phối t? (bất kể chúng ta có biết mức độ tự do hay không).

Không phải là "giá trị t" trong lme4 có khả năng gây hiểu nhầm.

Câu trả lời:


10

Về cơ bản chỉ là , trong đó là tham số hồi quy. Không có gì sai lệch trong giá trị này nếu bạn coi nó là tỷ lệ này hoặc là tham số "chuẩn". Nếu bạn nhìn vào lập luận ban đầu Bates' chống lại -values trong lme4 ông viết chủ yếu về mức độ tự do mà có vấn đề chứ không phải là của giá trị bản thân (xem thêm r-sig-hỗn hợp mô hình FAQ ). Lưu ý rằng các phần mềm thống kê khác nhau có thể có quy ước đặt tên khác nhau, ví dụ như SPSS gọi các tham số là và các tham số được định dạng làtβ/SE(β)βptFBβ 's - lme4 tuân theo lmquy ước để gọi họ Estimatet value.

Pinheiro và Bates mô tả việc sử dụng giá trị trong "Mô hình hiệu ứng hỗn hợp trong S và S-PLUS" , vì vậy thật khó để tìm kiếm các lập luận chống lại chúng trong cuốn sách này. Các tỷ lệ cũng được Bates thảo luận trong "lme4: Mô hình hiệu ứng hỗn hợp với R" so với giá trị và cho các mô hình hiệu ứng cố định, ví dụ (trang 70):p tF

Trong mô hình hiệu ứng cố định, dấu vết hồ sơ theo tỷ lệ ban đầu sẽ luôn là các đường thẳng. Đối với các mô hình hỗn hợp, các dấu vết này có thể không phải là tuyến tính, như chúng ta thấy ở đây, trái ngược với niềm tin phổ biến rằng các suy luận về các tham số hiệu ứng cố định trong các mô hình hỗn hợp tuyến tính, dựa trên các phân phối hoặc với mức độ tự do được điều chỉnh phù hợp, sẽ được hoàn toàn chính xác. Các mô hình thực tế của đường viền lệch lạc phức tạp hơn thế.TF

điều gì làm cho chúng giống nhau bằng cách nào đó trong khi không chính xác như chúng ta mong đợi chúng sẽ được thử nghiệm giả thuyết thích hợp.

Cũng lưu ý rằng các tác giả khác không phải lúc nào cũng coi vấn đề df là có vấn đề, ví dụ Gałecki và Bur: 05owski trong "Mô hình hiệu ứng hỗn hợp tuyến tính sử dụng R" chỉ giả sử mức độ tự do của và coi phân phối của họ là xấp xỉ , ví dụ (tr. 84):npt

Phân phối null của thống kê -test là phân phối với bậc tự do .ttnp

và (trang 140):

Khoảng tin cậy cho các thành phần riêng lẻ của vectơ tham số có thể được xây dựng dựa trên phân phối được sử dụng làm phân phối gần đúng cho thống kê kiểm traβt

Vì vậy, có vẻ như lý do chính là trong khi giá trị có thể gây hiểu nhầm do phân phối null không rõ ràng, các giá trị vẫn có thể hữu ích , ít nhất là các tham số được tiêu chuẩn hóa. Bạn cũng có thể sử dụng chúng để kiểm tra giả thuyết nhưng bạn cần đưa ra một số giả định về phân phối của chúng và xác minh chúng bằng cách xem sơ đồ hồ sơ. Điều mà Bates dường như đang nói là bạn tự chịu rủi ro khi sử dụng chúng.pt


6

Chính xác, thống kê Wald (được báo cáo là "thống kê t" lme4), nói chung, tốt nhất là chỉ phân phối xấp xỉ t cho các mô hình hỗn hợp tuyến tính (LMM). Nó chỉ được phân phối chính xác trong một số trường hợp rất đặc biệt, ví dụ ANOVA mô hình hỗn hợp với các yếu tố ngẫu nhiên lồng nhau và dữ liệu cân bằng.

Đối với các mô hình hỗn hợp tuyến tính tổng quát (GLMM) có đáp ứng không bình thường, việc phân phối thống kê Wald thậm chí có thể không giống lắm. Ví dụ, xem chủ đề này về hồi quy logistic, trong đó chúng tôi chỉ ra rằng các đuôi của phân phối lấy mẫu có thể có xu hướng mỏng hơn bình thường hơn là dày hơn bình thường. (Chủ đề đó không tập trung vào các mô hình hỗn hợp, nhưng vấn đề tương tự phát sinh ở đó.)


Cảm ơn đã trả lời Jake. Tôi quan tâm đến nhận xét của bạn rằng giá trị lmd t sẽ được phân phối chính xác theo mô hình ANOVA lồng nhau, cân bằng, hỗn hợp. Nếu dữ liệu của chúng tôi không độc lập, việc phân phối phương sai mẫu sẽ bị ảnh hưởng bởi tương quan nội hàm (ICC). tức là phương sai mẫu sẽ không đến từ bình phương Ch; do đó, thống kê t liên quan sẽ không đến từ phân phối t tiêu chuẩn. Sẽ không cần phải nhân với một hệ số bao gồm ICC.
Rob Casson

@RobCasson Không phải lý lẽ của bạn sẽ khiến chúng tôi kết luận rằng số liệu thống kê t từ bất kỳ thiết kế nào liên quan đến các hiệu ứng ngẫu nhiên (bao gồm, ví dụ, một thử nghiệm đơn giản so với thiết kế sau thử nghiệm được phân tích với thử nghiệm t mẫu thử cặp) không theo một phân phối t? Đó không phải là trường hợp. Bạn có thể thử tham khảo một cuốn sách giáo khoa ANOVA, chẳng hạn như những cuốn sách của Winer hoặc Kirk, trong đó các dẫn xuất được đặt ra cho các trường hợp đặc biệt mà tôi đã đề cập.
Jake Westfall

Đối với các thiết kế thử nghiệm trước và sau khi sử dụng thử nghiệm t ghép đôi, không có vấn đề gì vì sự khác biệt là độc lập và phương sai của chúng xuất phát từ bình phương Chi bình phương, và với điều kiện những khác biệt này thường được phân phối sau đó phân phối t theo sau. Tôi đang nghĩ về một mô hình đa cấp (phân cấp), trong đó không rõ ràng, ngay cả khi thiết kế được cân bằng rằng thương số của ước lượng tham số hồi quy và lỗi tiêu chuẩn của nó xuất phát từ phân phối t. Đối với một mô hình hỗn hợp ANOVA, tôi tự tin rằng bạn đúng.
Rob Casson

Một mô hình đa cấp với dữ liệu cân bằng và các dự đoán phân loại IS là một loại mô hình hỗn hợp ANOVA. Những mô hình như vậy được đề cập trong sách giáo khoa ANOVA giống như những mô hình mà tôi đề xuất. Vì vậy, nếu bạn chấp nhận rằng điều đó đúng với mô hình hỗn hợp ANOVA thì bạn phải chấp nhận rằng điều đó cũng đúng với trường hợp không rõ ràng của bạn.
Jake Westfall
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.