Hồi quy Poisson với dữ liệu lớn: việc thay đổi đơn vị đo lường có sai không?


17

Do giai thừa trong phân phối poisson, việc ước tính các mô hình poisson (ví dụ, sử dụng khả năng tối đa) trở nên không thực tế khi các quan sát lớn. Vì vậy, ví dụ, nếu tôi đang cố gắng ước tính một mô hình để giải thích số vụ tự tử trong một năm nhất định (chỉ có sẵn dữ liệu hàng năm), và nói rằng, có hàng ngàn vụ tự tử mỗi năm, có sai không khi thể hiện hàng trăm vụ tự tử , sao cho 2998 sẽ là 29,98 ~ = 30? Nói cách khác, có sai không khi thay đổi đơn vị đo lường để làm cho dữ liệu có thể quản lý được?

Câu trả lời:


15

Khi bạn đang xử lý phân phối Poisson với các giá trị lớn của \ lambda (tham số của nó), thông thường sử dụng xấp xỉ bình thường cho phân phối Poisson.

Như trang web này đề cập, bạn hoàn toàn có quyền sử dụng xấp xỉ bình thường khi \ lambda vượt quá 20 và tính gần đúng được cải thiện khi \ lambda thậm chí còn cao hơn.

Phân phối Poisson chỉ được xác định trên không gian trạng thái bao gồm các số nguyên không âm, do đó, việc thay đổi kích thước và làm tròn sẽ đưa những điều kỳ lạ vào dữ liệu của bạn.

Sử dụng khoảng bình thường. cho số liệu thống kê Poisson lớn là RẤT phổ biến.


6

Trong trường hợp Poisson thì thật tệ, vì số lượng là số đếm - đơn vị của chúng là một thể thống nhất. Mặt khác, nếu bạn sử dụng một số phần mềm tiên tiến như R, các chức năng xử lý Poisson của nó sẽ nhận biết được số lượng lớn như vậy và sẽ sử dụng một số thủ thuật số để xử lý chúng.

Rõ ràng tôi đồng ý rằng xấp xỉ bình thường là một cách tiếp cận tốt khác.


3

Hầu hết các gói thống kê đều có chức năng tính toán logarit tự nhiên của giai thừa (ví dụ hàm lfactorial () trong R, hàm lnfactorial () trong Stata). Điều này cho phép bạn bao gồm thuật ngữ không đổi trong khả năng đăng nhập nếu bạn muốn.


Ngoài ra, n!= Gamma(n+1)for n> = 0. Vì vậy, hãy thử tìm một hàm được gọi Gammanếu bạn cần tính giai thừa (hoặc đăng nhập Gamma nếu bạn đang tính khả năng đăng nhập)
Andre Holzner

3

Tôi sợ bạn không thể làm điều đó. Như @Baltimark tuyên bố, với lambda lớn, phân phối sẽ có hình dạng bình thường hơn (đối xứng) và với việc thu nhỏ nó xuống, nó sẽ không còn bị phân tán nữa. Hãy thử đoạn mã sau trong R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

Kết quả như sau:

nhập mô tả hình ảnh ở đây

Bạn có thể thấy rằng poisson hạ thấp (đường màu đỏ) hoàn toàn khác với phân phối poisson.


1

Bạn chỉ có thể bỏ qua 'giai thừa' khi sử dụng khả năng tối đa. Dưới đây là lý do cho ví dụ tự tử của bạn. Để cho:

: Là số vụ tự tử dự kiến ​​mỗi năm

k i : Hãy là số người tự tử trong năm i.

Sau đó, bạn sẽ tối đa hóa khả năng đăng nhập như:

LL = ∑ (k i đăng nhập (λ) - λ - k i !)

Tối đa hóa những điều trên tương đương với tối đa hóa những điều sau đây như k i ! là một hằng số:

LL ' = ∑ (k i đăng nhập (λ) - λ)

Có thể giải thích tại sao giai thừa là một vấn đề? Tui bỏ lỡ điều gì vậy?


Bạn không thiếu thứ gì nếu tất cả những gì bạn đang cố gắng làm là ước tính tham số từ một tập hợp các quan sát. Đó chắc chắn là ý tưởng chính của câu hỏi của OP. Tuy nhiên, cô cũng đã hỏi chung (nếu không nghiêm túc) "làm thế nào để ước tính các mô hình poisson". Có lẽ cô ấy muốn biết giá trị của pdf tại một điểm cụ thể. Trong trường hợp đó, khoảng bình thường. có lẽ sẽ tốt hơn so với việc nhân rộng tham số, và các quan sát bằng 100, hoặc bất cứ điều gì, nếu các quan sát đủ lớn để làm cho việc tính toán giai thừa là không thực tế.
Baltimark

1
@Srikant, bạn đã đúng, để ước tính các tham số mà giai thừa không phải là vấn đề, nhưng nói chung bạn sẽ muốn giá trị của khả năng cho một mô hình nhất định và bạn sẽ phải sử dụng giai thừa cho điều đó. Ngoài ra, để kiểm tra giả thuyết (ví dụ kiểm tra tỷ lệ khả năng), bạn sẽ cần giá trị của khả năng.
Vivi

@Baltimark: có, tôi muốn biết nói chung, liệu có hợp lệ để thay đổi đơn vị đo lường của Poisson hay không. Tôi đã được hỏi câu hỏi này và tôi không biết phải nói gì.
Vivi

@Vivi: Tôi không chắc tại sao bạn lại muốn tính toán khả năng với k_i! bao gồm như trong hầu hết các ứng dụng (ví dụ, kiểm tra tỷ lệ khả năng, ước lượng bayes) hằng số sẽ không thành vấn đề. Trong mọi trường hợp, tôi không nghĩ bạn có thể mở rộng lại quy mô như bạn đề xuất. Nếu tôi cảm thấy khác tôi sẽ cập nhật câu trả lời của tôi.

@Srikant, tôi thấy quan điểm của bạn, nhưng một số phần mềm (ví dụ: Eview) bao gồm điều này theo mặc định và số lượng lớn có phải là vấn đề bạn thích hay không. Tôi đoán rằng tôi đã thực sự theo một lời giải thích về lý do tại sao bạn có thể hoặc không thể làm điều đó hơn là một cách xung quanh nó, nhưng dù sao cuộc thảo luận cũng thú vị và mang tính hướng dẫn :)
Vivi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.