Làm thế nào có thể Poisson GLM chấp nhận các số không nguyên?


17

Tôi thực sự choáng váng vì thực tế là Poisson GLM chấp nhận các số không nguyên! Nhìn:

Dữ liệu (nội dung của data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

Kịch bản R:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

Chỉ số năm kết quả là "dự kiến", tức là tính 1-2-4bằng năm 2001-2003.

Nhưng làm thế nào có thể Poisson GLM lấy các số không nguyên? Phân phối Poisson luôn luôn là số nguyên!


2
Bạn có thể làm rõ chính xác những gì bạn muốn biết? Làm thế nào các thuật toán phù hợp đối phó với không số nguyên? Hoặc tại sao R không kiểm tra xem phản hồi có phải là số nguyên không? Hoặc liệu có bất cứ điều gì sai trong kết quả khi không cung cấp số nguyên không?
Momo

@Momo, vâng, tất cả những câu hỏi này đều thú vị!
Tò mò

2
Vui lòng chỉnh sửa câu hỏi của bạn để phản ánh điều đó. Bạn có nhiều khả năng để có được một câu trả lời tốt theo cách này.
Momo

8
Không phải điều này thực sự quan trọng, vì nó cũng đúng family="poisson", nhưng lưu ý rằng ví dụ của bạn không phải là Poisson GLM, vì bạn đang sử dụng quasipoissongia đình, điều này chỉ phụ thuộc vào mối quan hệ giữa giá trị trung bình và phương sai, vì vậy, trong đó trong trường hợp này, không có gì ngạc nhiên khi lấy các số không nguyên.
Aaron - Phục hồi lại

1
Dưới đây là một số tài liệu tham khảo về lý do tại sao điều này có thể có ý nghĩa.
Dimitriy V. Masterov

Câu trả lời:


17

Tất nhiên bạn đúng rằng phân phối Poisson về mặt kỹ thuật chỉ được xác định cho các số nguyên. Tuy nhiên, mô hình thống kê là nghệ thuật của các xấp xỉ tốt (" tất cả các mô hình đều sai ") và đôi khi việc xử lý dữ liệu không phải là số nguyên như thể nó là [xấp xỉ] Poisson.

Ví dụ: nếu bạn gửi hai người quan sát để ghi lại cùng một dữ liệu đếm, có thể xảy ra việc hai người quan sát không luôn đồng ý về số đếm - người ta có thể nói rằng điều gì đó đã xảy ra 3 lần trong khi người kia nói rằng điều đó xảy ra 4 lần. Thật tuyệt khi có tùy chọn sử dụng 3,5 khi phù hợp với các hệ số Poisson của bạn, thay vì phải chọn giữa 3 và 4.

Về mặt tính toán, giai thừa trong Poisson có thể gây khó khăn khi làm việc với những người không có số nguyên, nhưng tồn tại sự khái quát hóa liên tục của giai thừa. Hơn nữa, việc thực hiện ước tính khả năng tối đa cho Poisson thậm chí không liên quan đến chức năng giai thừa, một khi bạn đơn giản hóa biểu thức .


15

yx

EYTôi= =điểm kinh nghiệmβTxTôi
VarYTôi= =EYTôi
β
ΣTôinxTôi(yTôi-điểm kinh nghiệmβTxTôi)= =0
Tất nhiên tính nhất quán không ngụ ý tính hợp lệ của bất kỳ bài kiểm tra hoặc khoảng tin cậy nào; khả năng chưa được chỉ định.

Điều này dựa trên phương pháp tiếp cận thời điểm mà chúng ta đã học ở trường, và dẫn đến phương trình ước lượng tổng quát .

@ Aaron's chỉ ra rằng bạn thực sự đang sử dụng một sự phù hợp gần đúng trong mã của bạn. Điều đó có nghĩa là phương sai tỷ lệ với giá trị trung bình

VarYTôi= =φEYTôi

φ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.