Các thử nghiệm phân tán quá mức trong GLM có thực sự * hữu ích * không?


15

Hiện tượng 'phân tán quá mức' trong GLM phát sinh bất cứ khi nào chúng ta sử dụng mô hình hạn chế phương sai của biến trả lời và dữ liệu thể hiện phương sai lớn hơn giới hạn mô hình cho phép. Điều này xảy ra phổ biến khi mô hình hóa dữ liệu đếm bằng cách sử dụng Poisson GLM và nó có thể được chẩn đoán bằng các xét nghiệm nổi tiếng. Nếu các thử nghiệm cho thấy có bằng chứng có ý nghĩa thống kê về sự phân tán quá mức thì chúng ta thường khái quát hóa mô hình bằng cách sử dụng một nhóm phân phối rộng hơn giải phóng tham số phương sai khỏi hạn chế xảy ra trong mô hình ban đầu. Trong trường hợp của GLisson Poisson, người ta thường khái quát hóa thành GLM nhị phân hoặc nhị phân.

Tình trạng này là mang thai với một sự phản đối rõ ràng. Tại sao bắt đầu với một Poisson GLM cả? Người ta có thể bắt đầu trực tiếp với các hình thức phân phối rộng hơn, có tham số phương sai tự do (tương đối) và cho phép tham số phương sai phù hợp với dữ liệu, bỏ qua hoàn toàn các thử nghiệm phân tán. Trong các tình huống khác khi chúng tôi thực hiện phân tích dữ liệu, chúng tôi hầu như luôn sử dụng các hình thức phân phối cho phép tự do ít nhất là hai khoảnh khắc đầu tiên, vậy tại sao lại tạo ra ngoại lệ ở đây?

Câu hỏi của tôi: Có bất kỳ lý do chính đáng nào để bắt đầu với một phân phối sửa chữa phương sai (ví dụ: phân phối Poisson) và sau đó thực hiện kiểm tra phân tán quá mức không? Làm thế nào để quy trình này so sánh với việc bỏ qua hoàn toàn bài tập này và đi thẳng vào các mô hình tổng quát hơn (ví dụ: nhị phân âm, quasi-Poisson, v.v.)? Nói cách khác, tại sao không phải luôn luôn sử dụng phân phối với tham số phương sai miễn phí?


1
Tôi đoán là, nếu cơ bản thực sự là poisson, thì kết quả glm của bạn sẽ không thể hiện các tính chất nổi tiếng như ước tính cũng có hiệu quả theo nghĩa phương sai của các ước tính lớn hơn mức cần thiết, nếu đúng mô hình đã được sử dụng. Ước tính có thể thậm chí không thiên vị hoặc MLE. Nhưng đó chỉ là trực giác của tôi và tôi có thể sai. Tôi tò mò không biết câu trả lời hay là gì.
mlofton

3
Theo kinh nghiệm của tôi, việc kiểm tra phân tán quá mức (chủ yếu là nghịch lý) chủ yếu là sử dụng khi bạn biết (từ kiến ​​thức về quy trình tạo dữ liệu) mà phân tán quá mức không thể có mặt. Trong ngữ cảnh này, kiểm tra phân tán quá mức cho bạn biết liệu mô hình tuyến tính có thu được tất cả tín hiệu trong dữ liệu hay không. Nếu không, thì nên xem xét thêm các biến số cho mô hình. Nếu có, thì nhiều đồng biến không thể giúp được.
Gordon Smyth

@GordonSmyth: Tôi nghĩ đó là một câu trả lời hay. Nếu bạn không muốn biến câu trả lời thành câu trả lời của riêng mình, tôi sẽ gấp nó thành của tôi.
Vách đá AB

1
@GordonSmyth nhận được một điều luôn khiến tôi bận tâm về việc phân tích sự sai lệch như một điểm tốt của kiểm tra sự phù hợp: các đồng biến bị thiếu bị nhầm lẫn với sự quá mức. Nó cho thấy một số vấn đề liên quan đến cách tài liệu thường được dạy. Tôi dạy một lớp về phân loại và sách giáo khoa không đưa ra quan điểm này rất mạnh mẽ.
anh chàng

1
@guy Vâng, điều đó đúng, và mọi người có xu hướng cho rằng độ lệch còn lại luôn luôn được phân phối, điều này thường không xảy ra. Chúng tôi đã cố gắng làm tốt hơn những điểm này trong sách giáo khoa gần đây doi.org/10.1007/978-1-4419-0118-7 nhưng thật khó để bao quát mọi thứ trong giới hạn không gian.
Gordon Smyth

Câu trả lời:


14

Về nguyên tắc, tôi thực sự đồng ý rằng 99% thời gian, tốt hơn là chỉ sử dụng mô hình linh hoạt hơn. Như đã nói, đây là hai đối số rưỡi cho lý do tại sao bạn có thể không.

(1) Ít linh hoạt có nghĩa là ước tính hiệu quả hơn. Do các tham số phương sai có xu hướng kém ổn định hơn các tham số trung bình, giả định của bạn về mối quan hệ phương sai trung bình cố định có thể ổn định các lỗi tiêu chuẩn hơn.

(2) Kiểm tra mô hình. Tôi đã làm việc với các nhà vật lý tin rằng các phép đo khác nhau có thể được mô tả bằng các phân phối Poisson do vật lý lý thuyết. Nếu chúng ta bác bỏ giả thuyết có nghĩa là = phương sai, chúng ta có bằng chứng chống lại giả thuyết phân phối Poisson. Như @GordonSmyth đã chỉ ra trong một nhận xét, nếu bạn có lý do để tin rằng một phép đo nhất định phải tuân theo phân phối Poisson, nếu bạn có bằng chứng về sự phân tán quá mức, bạn có bằng chứng cho thấy bạn đang thiếu các yếu tố quan trọng.

Vmộtr[y]= =αE[y]α1


Ngày 2.5: Tất nhiên có nhị thức và GLMM âm với các hiệu ứng ngẫu nhiên không có giới hạn đó.
Bjorn

@ Bjorn: đó là lý do tại sao nó chỉ là một nửa đối số; chỉ áp dụng cho các phương pháp Quasi-Likabilities. Theo như tôi biết, không có phương pháp khả năng dựa cho dưới tán, mặc dù điều này có thể được phân tích với một mô hình Quasi-Khả năng.
Vách đá AB

1
Cũng trên 2.5: sự hiểu biết của tôi là không có họ phân tán theo cấp số nhân thỏa mãn mối quan hệ mong muốn. Có nghĩa là, điểm gần đúng không tương ứng với điểm chính hãng. Điều đó không có nghĩa là không có gia đình phân phối cho dữ liệu đếm thỏa mãn mối quan hệ mong muốn; nên có nhiều gia đình như vậy.
anh chàng

2
@CliffAB cho dữ liệu đếm phân tán dưới mức có mô hình Conway-Maxwell-Poisson: en.m.wikipedia.org/wiki/ Kẻ được triển khai trong một vài gói R.
Dimitris Rizopoulos

Nếu mô hình sẽ được sử dụng để dự đoán, thì một lý do khác để thích mô hình đơn giản hơn là, nếu tất cả những thứ khác đều bằng nhau, mô hình đơn giản hơn sẽ có phẩm chất dự đoán tốt hơn. Tôi đang nghĩ về AIC, BIC, cũng như PAC nói chung.
meh

11

Mặc dù đây là câu hỏi của riêng tôi, tôi cũng sẽ đăng hai xu của mình làm câu trả lời, để chúng tôi thêm vào số lượng quan điểm về câu hỏi này. Vấn đề ở đây là liệu ban đầu có phù hợp với phân phối một tham số cho dữ liệu hay không. Khi bạn sử dụng phân phối một tham số (chẳng hạn như Poisson GLM hoặc nhị phân GLM với tham số thử nghiệm cố định), phương sai không phải là tham số tự do và thay vào đó bị hạn chế là một số hàm của giá trị trung bình. Điều này có nghĩa là không phù hợp để phân phối một tham số cho dữ liệu trong mọi tình huống mà bạn không hoàn toàn chắc chắn rằng phương sai tuân theo cấu trúc của phân phối đó.


Kết hợp phân phối một tham số cho dữ liệu hầu như luôn là một ý tưởng tồi: Dữ liệu thường lộn xộn hơn các mô hình được đề xuất và ngay cả khi có lý do lý thuyết để tin rằng một mô hình một tham số cụ thể có thể thu được, thường là dữ liệu thực sự đến từ hỗn hợp phân phối một tham số đó, với một loạt các giá trị tham số. Điều này thường tương đương với một mô hình rộng hơn, chẳng hạn như phân phối hai tham số cho phép tự do hơn cho phương sai. Như được thảo luận dưới đây, điều này đúng với Poisson GLM trong trường hợp dữ liệu đếm.

Như đã nêu trong câu hỏi, trong hầu hết các ứng dụng thống kê, việc sử dụng các hình thức phân phối ít nhất là cho phép hai khoảnh khắc đầu tiên thay đổi tự do. Điều này đảm bảo rằng mô hình được trang bị cho phép dữ liệu đưa ra giá trị trung bình và phương sai được suy ra, thay vì các mô hình này bị ràng buộc giả tạo. Có tham số thứ hai này chỉ mất một bậc tự do trong mô hình, đây là một mất mát nhỏ so với lợi ích của việc cho phép ước tính phương sai từ dữ liệu. Tất nhiên người ta có thể mở rộng lý do này và thêm một tham số thứ ba để cho phép lắp xiên, thứ tư để cho phép lắp kurtosis, v.v.


Với một số ngoại lệ cực kỳ nhỏ, Poisson GLM là một mô hình tồi: Theo kinh nghiệm của tôi, việc phù hợp với phân phối Poisson để đếm dữ liệu hầu như luôn là một ý tưởng tồi. Đối với dữ liệu đếm, cực kỳ phổ biến đối với phương sai trong dữ liệu là 'phân tán quá mức' so với phân phối Poisson. Ngay cả trong các tình huống mà lý thuyết chỉ ra một phân phối Poisson, thường thì mô hình tốt nhất là hỗn hợp các phân phối Poisson, trong đó phương sai trở thành một tham số tự do. Thật vậy, trong trường hợp dữ liệu đếm, phân phối nhị thức âm là hỗn hợp Poisson với phân phối gamma cho tham số tốc độ, vì vậy ngay cả khi có những lý do lý thuyết để nghĩ rằng số lượng đến theo quy trình phân phối Poisson, thì thường có trường hợp 'phân tán quá mức' và phân phối nhị thức âm phù hợp hơn nhiều.

Việc thực hành lắp PoM GLM để đếm dữ liệu và sau đó thực hiện kiểm tra thống kê để kiểm tra 'phân tán quá mức' là một lỗi thời, và hầu như không phải là một thực hành tốt. Trong các hình thức phân tích thống kê khác, chúng tôi không bắt đầu với phân phối hai tham số, tự ý chọn hạn chế phương sai và sau đó kiểm tra hạn chế này để cố gắng loại bỏ tham số khỏi phân phối. Bằng cách thực hiện theo cách này, chúng tôi thực sự tạo ra một quy trình lai khó xử, bao gồm một thử nghiệm giả thuyết ban đầu được sử dụng để lựa chọn mô hình, và sau đó là mô hình thực tế (hoặc Poisson hoặc phân phối rộng hơn). Nó đã được chỉ ra trong nhiều bối cảnh rằng loại thực hành tạo mô hình lai này từ một thử nghiệm lựa chọn mô hình ban đầu dẫn đến các mô hình tổng thể xấu.

Một tình huống tương tự, trong đó một phương pháp lai tương tự đã được sử dụng, là trong các thử nghiệm T về sự khác biệt trung bình. Trước đây, trường hợp các khóa học thống kê sẽ khuyên bạn nên sử dụng bài kiểm tra của Levene (hoặc thậm chí chỉ là một số "quy tắc ngón tay cái") để kiểm tra sự bằng nhau của hai phương sai, và sau đó nếu dữ liệu "vượt qua" bài kiểm tra này, bạn sẽ sử dụng bài kiểm tra T của sinh viên giả định phương sai bằng nhau và nếu dữ liệu "thất bại" bài kiểm tra thì thay vào đó bạn sẽ sử dụng bài kiểm tra T của Welch. Đây thực sự là một thủ tục thực sự tồi tệ (xem ví dụ, ở đâyđây). Sẽ tốt hơn nhiều nếu chỉ sử dụng thử nghiệm sau, điều này không giả định về phương sai, thay vì tạo ra một thử nghiệm ghép khó xử, kết hợp một thử nghiệm giả thuyết sơ bộ và sau đó sử dụng thử nghiệm này để chọn mô hình.

Đối với dữ liệu đếm, nhìn chung bạn sẽ nhận được kết quả ban đầu tốt bằng cách khớp một mô hình hai tham số, chẳng hạn như mô hình nhị phân âm hoặc quasi-Poisson. (Lưu ý rằng cái sau không phải là một phân phối thực sự, nhưng nó vẫn đưa ra một mô hình hai tham số hợp lý.) Nếu cần thêm bất kỳ khái quát hóa nào nữa, thì đó thường là sự bổ sung của lạm phát bằng không, trong đó có quá nhiều số 0 trong dữ liệu. Hạn chế đối với Poisson GLM là một lựa chọn mô hình nhân tạo và vô nghĩa, và điều này không được thực hiện tốt hơn bằng cách thử nghiệm cho sự phân tán quá mức.


Được rồi, bây giờ đây là các ngoại lệ nhỏ: Ngoại lệ thực sự duy nhất ở trên là hai tình huống:

(1) Bạn có lý do lý thuyết tiên nghiệm cực kỳ mạnh mẽ vì tin rằng các giả định cho phân phối một tham số được thỏa mãn và một phần của phân tích là kiểm tra mô hình lý thuyết này dựa trên dữ liệu; hoặc là

(2) Vì một số lý do (lạ) khác, mục đích phân tích của bạn là tiến hành kiểm tra giả thuyết về phương sai của dữ liệu và do đó bạn thực sự muốn hạn chế phương sai này đối với hạn chế giả định này, sau đó kiểm tra giả thuyết này.

Những tình huống này rất hiếm. Chúng có xu hướng chỉ phát sinh khi có kiến thức lý thuyết tiên nghiệm mạnh mẽ về cơ chế tạo dữ liệu và mục đích của phân tích là kiểm tra lý thuyết cơ bản này. Đây có thể là trường hợp trong một phạm vi ứng dụng cực kỳ hạn chế trong đó dữ liệu được tạo ra trong các điều kiện được kiểm soát chặt chẽ (ví dụ: trong vật lý).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.