Mặc dù đây là câu hỏi của riêng tôi, tôi cũng sẽ đăng hai xu của mình làm câu trả lời, để chúng tôi thêm vào số lượng quan điểm về câu hỏi này. Vấn đề ở đây là liệu ban đầu có phù hợp với phân phối một tham số cho dữ liệu hay không. Khi bạn sử dụng phân phối một tham số (chẳng hạn như Poisson GLM hoặc nhị phân GLM với tham số thử nghiệm cố định), phương sai không phải là tham số tự do và thay vào đó bị hạn chế là một số hàm của giá trị trung bình. Điều này có nghĩa là không phù hợp để phân phối một tham số cho dữ liệu trong mọi tình huống mà bạn không hoàn toàn chắc chắn rằng phương sai tuân theo cấu trúc của phân phối đó.
Kết hợp phân phối một tham số cho dữ liệu hầu như luôn là một ý tưởng tồi: Dữ liệu thường lộn xộn hơn các mô hình được đề xuất và ngay cả khi có lý do lý thuyết để tin rằng một mô hình một tham số cụ thể có thể thu được, thường là dữ liệu thực sự đến từ hỗn hợp phân phối một tham số đó, với một loạt các giá trị tham số. Điều này thường tương đương với một mô hình rộng hơn, chẳng hạn như phân phối hai tham số cho phép tự do hơn cho phương sai. Như được thảo luận dưới đây, điều này đúng với Poisson GLM trong trường hợp dữ liệu đếm.
Như đã nêu trong câu hỏi, trong hầu hết các ứng dụng thống kê, việc sử dụng các hình thức phân phối ít nhất là cho phép hai khoảnh khắc đầu tiên thay đổi tự do. Điều này đảm bảo rằng mô hình được trang bị cho phép dữ liệu đưa ra giá trị trung bình và phương sai được suy ra, thay vì các mô hình này bị ràng buộc giả tạo. Có tham số thứ hai này chỉ mất một bậc tự do trong mô hình, đây là một mất mát nhỏ so với lợi ích của việc cho phép ước tính phương sai từ dữ liệu. Tất nhiên người ta có thể mở rộng lý do này và thêm một tham số thứ ba để cho phép lắp xiên, thứ tư để cho phép lắp kurtosis, v.v.
Với một số ngoại lệ cực kỳ nhỏ, Poisson GLM là một mô hình tồi: Theo kinh nghiệm của tôi, việc phù hợp với phân phối Poisson để đếm dữ liệu hầu như luôn là một ý tưởng tồi. Đối với dữ liệu đếm, cực kỳ phổ biến đối với phương sai trong dữ liệu là 'phân tán quá mức' so với phân phối Poisson. Ngay cả trong các tình huống mà lý thuyết chỉ ra một phân phối Poisson, thường thì mô hình tốt nhất là hỗn hợp các phân phối Poisson, trong đó phương sai trở thành một tham số tự do. Thật vậy, trong trường hợp dữ liệu đếm, phân phối nhị thức âm là hỗn hợp Poisson với phân phối gamma cho tham số tốc độ, vì vậy ngay cả khi có những lý do lý thuyết để nghĩ rằng số lượng đến theo quy trình phân phối Poisson, thì thường có trường hợp 'phân tán quá mức' và phân phối nhị thức âm phù hợp hơn nhiều.
Việc thực hành lắp PoM GLM để đếm dữ liệu và sau đó thực hiện kiểm tra thống kê để kiểm tra 'phân tán quá mức' là một lỗi thời, và hầu như không phải là một thực hành tốt. Trong các hình thức phân tích thống kê khác, chúng tôi không bắt đầu với phân phối hai tham số, tự ý chọn hạn chế phương sai và sau đó kiểm tra hạn chế này để cố gắng loại bỏ tham số khỏi phân phối. Bằng cách thực hiện theo cách này, chúng tôi thực sự tạo ra một quy trình lai khó xử, bao gồm một thử nghiệm giả thuyết ban đầu được sử dụng để lựa chọn mô hình, và sau đó là mô hình thực tế (hoặc Poisson hoặc phân phối rộng hơn). Nó đã được chỉ ra trong nhiều bối cảnh rằng loại thực hành tạo mô hình lai này từ một thử nghiệm lựa chọn mô hình ban đầu dẫn đến các mô hình tổng thể xấu.
Một tình huống tương tự, trong đó một phương pháp lai tương tự đã được sử dụng, là trong các thử nghiệm T về sự khác biệt trung bình. Trước đây, trường hợp các khóa học thống kê sẽ khuyên bạn nên sử dụng bài kiểm tra của Levene (hoặc thậm chí chỉ là một số "quy tắc ngón tay cái") để kiểm tra sự bằng nhau của hai phương sai, và sau đó nếu dữ liệu "vượt qua" bài kiểm tra này, bạn sẽ sử dụng bài kiểm tra T của sinh viên giả định phương sai bằng nhau và nếu dữ liệu "thất bại" bài kiểm tra thì thay vào đó bạn sẽ sử dụng bài kiểm tra T của Welch. Đây thực sự là một thủ tục thực sự tồi tệ (xem ví dụ, ở đây và đây). Sẽ tốt hơn nhiều nếu chỉ sử dụng thử nghiệm sau, điều này không giả định về phương sai, thay vì tạo ra một thử nghiệm ghép khó xử, kết hợp một thử nghiệm giả thuyết sơ bộ và sau đó sử dụng thử nghiệm này để chọn mô hình.
Đối với dữ liệu đếm, nhìn chung bạn sẽ nhận được kết quả ban đầu tốt bằng cách khớp một mô hình hai tham số, chẳng hạn như mô hình nhị phân âm hoặc quasi-Poisson. (Lưu ý rằng cái sau không phải là một phân phối thực sự, nhưng nó vẫn đưa ra một mô hình hai tham số hợp lý.) Nếu cần thêm bất kỳ khái quát hóa nào nữa, thì đó thường là sự bổ sung của lạm phát bằng không, trong đó có quá nhiều số 0 trong dữ liệu. Hạn chế đối với Poisson GLM là một lựa chọn mô hình nhân tạo và vô nghĩa, và điều này không được thực hiện tốt hơn bằng cách thử nghiệm cho sự phân tán quá mức.
Được rồi, bây giờ đây là các ngoại lệ nhỏ: Ngoại lệ thực sự duy nhất ở trên là hai tình huống:
(1) Bạn có lý do lý thuyết tiên nghiệm cực kỳ mạnh mẽ vì tin rằng các giả định cho phân phối một tham số được thỏa mãn và một phần của phân tích là kiểm tra mô hình lý thuyết này dựa trên dữ liệu; hoặc là
(2) Vì một số lý do (lạ) khác, mục đích phân tích của bạn là tiến hành kiểm tra giả thuyết về phương sai của dữ liệu và do đó bạn thực sự muốn hạn chế phương sai này đối với hạn chế giả định này, sau đó kiểm tra giả thuyết này.
Những tình huống này rất hiếm. Chúng có xu hướng chỉ phát sinh khi có kiến thức lý thuyết tiên nghiệm mạnh mẽ về cơ chế tạo dữ liệu và mục đích của phân tích là kiểm tra lý thuyết cơ bản này. Đây có thể là trường hợp trong một phạm vi ứng dụng cực kỳ hạn chế trong đó dữ liệu được tạo ra trong các điều kiện được kiểm soát chặt chẽ (ví dụ: trong vật lý).