Hồi quy tuyến tính không phải là lựa chọn đúng đắn cho kết quả của bạn, được đưa ra:
- Biến kết quả thường không được phân phối
- Biến kết quả bị giới hạn trong các giá trị mà nó có thể đảm nhận (dữ liệu đếm có nghĩa là các giá trị dự đoán không thể âm)
- Điều gì có vẻ là tần suất cao của các trường hợp với 0 lượt truy cập
Mô hình biến phụ thuộc giới hạn cho dữ liệu đếm
Chiến lược ước tính bạn có thể chọn được quyết định bởi "cấu trúc" của biến kết quả. Đó là, nếu biến kết quả của bạn bị giới hạn trong các giá trị mà nó có thể đảm nhận (nghĩa là nếu đó là biến phụ thuộc giới hạn ), bạn cần chọn một mô hình trong đó các giá trị dự đoán sẽ nằm trong phạm vi có thể cho kết quả của bạn. Mặc dù đôi khi hồi quy tuyến tính là một xấp xỉ tốt cho các biến phụ thuộc hạn chế (ví dụ, trong trường hợp logit / probit nhị phân), đôi khi không phải vậy. Nhập mô hình tuyến tính tổng quát . Trong trường hợp của bạn, vì biến kết quả là dữ liệu đếm, bạn có một số lựa chọn:
- Mô hình Poisson
- Mô hình nhị thức âm
- Mô hình Zero Inflated Poisson (ZIP)
- Mô hình nhị phân âm tính không phồng (ZINB)
Sự lựa chọn thường được xác định theo kinh nghiệm. Tôi sẽ thảo luận ngắn gọn về việc lựa chọn giữa các tùy chọn dưới đây.
Poisson so với nhị thức âm
θH0:θ=0H1:θ≠0θ
ZIP so với ZINB
Một sự phức tạp tiềm ẩn là lạm phát bằng không, có thể là một vấn đề ở đây. Đây là nơi mà các mô hình thổi phồng ZIP và ZINB xuất hiện. Sử dụng các mô hình này, bạn cho rằng quy trình tạo các giá trị 0 tách biệt với quy trình tạo ra các giá trị khác không. Cũng như trước đây, ZINB thích hợp khi kết quả có số 0 quá mức và quá mức, trong khi ZIP phù hợp khi kết quả có số 0 quá mức nhưng trung bình có điều kiện = phương sai có điều kiện. Đối với các mô hình có độ phồng bằng 0, ngoài các mô hình đồng biến bạn đã liệt kê ở trên, bạn sẽ cần phải nghĩ đến các biến có thể đã tạo ra các số 0 thừa mà bạn đã thấy trong kết quả. Một lần nữa, có các kiểm tra thống kê đi kèm với đầu ra của các mô hình này (đôi khi bạn có thể phải chỉ định chúng khi thực hiện lệnh) sẽ cho phép bạnθ
θH0:θ=0H1:θ≠0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process
θθ
Cuối cùng, tôi không sử dụng R, nhưng IDRE tại trang ví dụ phân tích dữ liệu UCLA có thể hướng dẫn bạn điều chỉnh các mô hình này.
[Chỉnh sửa bởi một người dùng khác mà không đủ danh tiếng để nhận xét: Bài viết này giải thích lý do tại sao bạn không nên sử dụng thử nghiệm Vương để so sánh mô hình lạm phát bằng không và cung cấp giải pháp thay thế.
P. Wilson, đã sử dụng sai các thử nghiệm Vương cho các mô hình không lồng nhau để kiểm tra lạm phát bằng không. Kinh tế Thư, 2015, tập. 127, số C, 51-53 ]