Câu trả lời này không dựa trên kiến thức của tôi mà là trích dẫn những gì Bolker et al. (2009) đã viết trong một bài báo có ảnh hưởng trong tạp chí Xu hướng sinh thái và tiến hóa . Vì bài viết không phải là truy cập mở (mặc dù việc tìm kiếm nó trên học giả Google có thể chứng minh thành công, tôi nghĩ tôi đã trích dẫn những đoạn quan trọng có thể hữu ích để giải quyết các phần của câu hỏi. Vì vậy, một lần nữa, đó không phải là điều tôi nghĩ ra nhưng tôi nghĩ nó đại diện cho thông tin cô đọng tốt nhất về GLMM (chẩn đoán inlcuding) ngoài kia theo phong cách viết rất thẳng và dễ hiểu. Nếu bằng mọi cách, câu trả lời này không phù hợp vì bất kỳ lý do gì, tôi sẽ đơn giản xóa nó đi. hữu ích đối với các câu hỏi liên quan đến chẩn đoán được nêu bật trongđậm .
Trang 127:
Các nhà nghiên cứu phải đối mặt với dữ liệu không bình thường thường thử các phím tắt như chuyển đổi dữ liệu để đạt được tính chuẩn và tính đồng nhất của phương sai, sử dụng các phép thử không theo tỷ lệ hoặc dựa vào độ mạnh của ANOVA cổ điển để không biến dạng cho các thiết kế cân bằng [15]. Họ có thể bỏ qua các hiệu ứng ngẫu nhiên hoàn toàn (do đó cam kết giả hành) hoặc coi chúng là các yếu tố cố định [16]. Tuy nhiên, các phím tắt như vậy có thể thất bại (ví dụ: đếm dữ liệu có nhiều giá trị 0 không thể được thực hiện bình thường bằng cách chuyển đổi). Ngay cả khi họ thành công, họ có thể vi phạm các giả định thống kê (ngay cả các thử nghiệm không tính toán đưa ra các giả định, ví dụ về tính đồng nhất của phương sai giữa các nhóm) hoặc giới hạn phạm vi suy luận (người ta không thể ngoại suy các ước tính về tác động cố định cho các nhóm mới). Thay vì đánh giày dữ liệu của họ vào các khung thống kê cổ điển, các nhà nghiên cứu nên sử dụng phương pháp thống kê phù hợp với dữ liệu của họ. Các mô hình hỗn hợp tuyến tính tổng quát (GLMM) kết hợp các thuộc tính của hai khung thống kê được sử dụng rộng rãi trong sinh thái học và tiến hóa, mô hình hỗn hợp tuyến tính (kết hợp các hiệu ứng ngẫu nhiên) và mô hình tuyến tính tổng quát (xử lý dữ liệu không bình thường bằng cách sử dụng các hàm liên kết và gia đình hàm mũ [vd phân phối bình thường, Poisson hoặc nhị thức]. GLMM là công cụ tốt nhất để phân tích dữ liệu bất thường liên quan đến các hiệu ứng ngẫu nhiên: về nguyên tắc, tất cả mọi người phải làm là chỉ định phân phối, chức năng liên kết và cấu trúc của các hiệu ứng ngẫu nhiên. mô hình hỗn hợp tuyến tính (kết hợp các hiệu ứng ngẫu nhiên) và mô hình tuyến tính tổng quát (xử lý dữ liệu không bình thường bằng cách sử dụng các hàm liên kết và phân phối hàm mũ [ví dụ: bình thường, Poisson hoặc nhị thức]). GLMM là công cụ tốt nhất để phân tích dữ liệu bất thường liên quan đến các hiệu ứng ngẫu nhiên: về nguyên tắc, tất cả mọi người phải làm là chỉ định phân phối, chức năng liên kết và cấu trúc của các hiệu ứng ngẫu nhiên. mô hình hỗn hợp tuyến tính (kết hợp các hiệu ứng ngẫu nhiên) và mô hình tuyến tính tổng quát (xử lý dữ liệu không bình thường bằng cách sử dụng các hàm liên kết và phân phối hàm mũ [ví dụ: bình thường, Poisson hoặc nhị thức]). GLMM là công cụ tốt nhất để phân tích dữ liệu bất thường liên quan đến các hiệu ứng ngẫu nhiên: về nguyên tắc, tất cả mọi người phải làm là chỉ định phân phối, chức năng liên kết và cấu trúc của các hiệu ứng ngẫu nhiên.
Trang 129, Hộp 1:
Phần dư cho thấy sự quá mức , vì vậy chúng tôi đã chỉnh lại dữ liệu bằng mô hình gần đúng Poisson. Mặc dù tham số tỷ lệ ước tính lớn (10.8), các biểu đồ thăm dò không tìm thấy bằng chứng về các ngoại lệ ở cấp độ của các cá thể, kiểu gen hoặc quần thể. Chúng tôi đã sử dụng quasi-AIC (QAIC), sử dụng một bậc tự do cho các hiệu ứng ngẫu nhiên [49], cho randomeffect và sau đó để lựa chọn mô hình hiệu ứng cố định.
Trang 133, Hộp 4:
Ở đây chúng tôi phác thảo một khung chung để xây dựng một mô hình đầy đủ (phức tạp nhất), bước đầu tiên trong phân tích GLMM. Theo quy trình này, người ta có thể đánh giá các tham số và so sánh các mô hình con như được mô tả trong văn bản chính và trong Hình 1.
Chỉ định cố định (phương pháp điều trị hoặc hiệp phương sai) và các hiệu ứng ngẫu nhiên (khối thực nghiệm, không gian hoặc thời gian, cá nhân, v.v.). Chỉ bao gồm các tương tác quan trọng. Hạn chế mô hình tiên nghiệm ở mức độ phức tạp khả thi, dựa trên quy tắc ngón tay cái (> 5 mức6 hiệu ứng ngẫu nhiên trên mỗi hiệu ứng ngẫu nhiên và> 10 mẫu20 trên mỗi cấp độ xử lý hoặc đơn vị thử nghiệm) và kiến thức về kích thước mẫu phù hợp thu được từ nghiên cứu trước đây [64,65].
Chọn một hàm phân phối và liên kết lỗi (ví dụ: phân phối Poisson và liên kết nhật ký cho dữ liệu đếm, phân phối nhị thức và liên kết logit cho dữ liệu tỷ lệ).
Kiểm tra đồ họa : các phương sai của dữ liệu (được biến đổi bởi hàm liên kết) có đồng nhất giữa các loại không? Là phản ứng của dữ liệu biến đổi tuyến tính liên quan đến các yếu tố dự đoán liên tục? Có cá nhân hoặc nhóm ngoại lệ? Các phân phối trong các nhóm có khớp với phân phối giả định không?
Điều chỉnh GLM hiệu ứng cố định cả cho tập dữ liệu đầy đủ (gộp) và trong từng cấp của các yếu tố ngẫu nhiên [28,50]. Các tham số ước tính nên được phân phối bình thường giữa các nhóm (tham số cấp độ nhóm có thể có độ không đảm bảo lớn, đặc biệt đối với các nhóm có cỡ mẫu nhỏ). Điều chỉnh mô hình khi cần thiết (ví dụ: thay đổi chức năng liên kết hoặc thêm hiệp phương sai).
Lắp GLMM đầy đủ. Bộ nhớ máy tính không đủ hoặc quá chậm: giảm độ phức tạp của mô hình. Nếu ước tính thành công trên một tập hợp con của dữ liệu, hãy thử thuật toán ước tính hiệu quả hơn (ví dụ PQL nếu thích hợp). Không hội tụ (cảnh báo hoặc lỗi): giảm độ phức tạp của mô hình hoặc thay đổi cài đặt tối ưu hóa (đảm bảo các câu trả lời có ý nghĩa). Hãy thử các thuật toán ước tính khác. Các thành phần phương sai bằng 0 hoặc điểm kỳ dị (cảnh báo hoặc lỗi): kiểm tra xem mô hình có được xác định đúng và nhận dạng không (nghĩa là tất cả các thành phần về mặt lý thuyết có thể được ước tính). Giảm độ phức tạp của mô hình. Thêm thông tin vào mô hình (hiệp phương sai bổ sung hoặc nhóm mới cho các hiệu ứng ngẫu nhiên) có thể làm giảm bớt các vấn đề, vì sẽ tập trung vào các hiệp phương sai liên tục bằng cách trừ đi giá trị trung bình của chúng [50]. Nếu cần, loại bỏ các hiệu ứng ngẫu nhiên khỏi mô hình đầy đủ, bỏ (i) các điều khoản về lợi ích sinh học nội tại ít hơn, (ii) các điều khoản với phương sai ước tính rất nhỏ và / hoặc độ không chắc chắn lớn, hoặc (iii) các điều khoản tương tác. (Lỗi hội tụ hoặc phương sai bằng 0 có thể chỉ ra dữ liệu không đủ.)
χ2
Các lô dư nên được sử dụng để đánh giá sự quá mức và phương sai biến đổi phải đồng nhất giữa các loại. Không nơi nào trong bài viết được đề cập rằng phần dư được cho là được phân phối bình thường.
Tôi nghĩ lý do tại sao có những tuyên bố tương phản phản ánh rằng GLMM (trang 127-128) ...
... Thật đáng ngạc nhiên khi sử dụng ngay cả đối với các nhà thống kê. Mặc dù một số gói phần mềm có thể xử lý GLMM (Bảng 1), một số nhà sinh thái học và nhà sinh học tiến hóa nhận thức được phạm vi của các tùy chọn hoặc về những cạm bẫy có thể có. Khi xem xét các bài báo về sinh thái học và tiến hóa từ năm 2005 được tìm thấy bởi Google Scholar, có tới 311 trong số 537 phân tích GLMM (58%) đã sử dụng các công cụ này một cách không phù hợp theo cách nào đó (xem tài liệu bổ sung trực tuyến).
Và đây là một vài ví dụ hoạt động đầy đủ bằng cách sử dụng GLMM bao gồm chẩn đoán.
Tôi nhận ra rằng câu trả lời này giống như một bình luận và nên được đối xử như vậy. Nhưng phần bình luận không cho phép tôi thêm một bình luận dài như vậy. Ngoài ra vì tôi tin rằng bài viết này có giá trị cho cuộc thảo luận này (nhưng không may đằng sau một bức tường trả tiền), tôi nghĩ rằng sẽ rất hữu ích khi trích dẫn những đoạn quan trọng ở đây.
Trích dẫn giấy tờ:
[15] - GP Quinn, MJ Keough (2002): Thiết kế thí nghiệm và phân tích dữ liệu cho các nhà sinh học, Nhà xuất bản Đại học Cambridge.
[16] - MJ Crawley (2002): Tính toán thống kê: Giới thiệu về phân tích dữ liệu bằng S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Các mô hình hiệu ứng hỗn hợp trong S và S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Thông tin Akaike có điều kiện cho các mô hình hiệu ứng hỗn hợp. Biometrika, 92, trang 351 trừ370.
[50] - A. Gelman, J. Hill (2006): Phân tích dữ liệu bằng mô hình hồi quy và mô hình đa cấp / phân cấp, Nhà xuất bản Đại học Cambridge.
[64] - NJ Gotelli, AM Ellison (2004): Một chuyên gia thống kê sinh thái học, Sinauer Associates.
[65] - FJ Harrell (2001): Chiến lược mô hình hồi quy, Springer.
[66] - JK Lindsey (1997): Áp dụng mô hình tuyến tính tổng quát, Springer.
[67] - W. Venables, BD Ripley (2002): Thống kê ứng dụng hiện đại với S, Springer.
glm.diag.plots
nói rằng đó là cho jackknifed còn lệch lạc (tôi nghi ngờ phân biệt đó là quan trọng). Ngoài ra, tôi thu thập bạn có dữ liệu đếm ; bạn có thể muốn tập trung vào thực tế đó. Ví dụ, số lượng được cho là (trong một số ý nghĩa) là không đồng nhất. Các sơ đồ chẩn đoán cho hồi quy đếm sẽ hữu ích cho bạn (mặc dù nó không giải quyết được khía cạnh hiệu ứng hỗn hợp).