Làm thế nào để bạn phù hợp với một phân phối Poisson cho dữ liệu bảng?


8

Tôi đã được cấp một bảng và , sao cho số nói với số lượng trẻ em mà tất cả s có.y = ( 3062 , 587 , 284 , 103 , 33 , 4 , 2 ) x i y ix=(0,1,2,3,4,5,6)y=(3062,587,284,103,33,4,2)xiyi

Tôi được yêu cầu để phù hợp với một phân phối Poisson cho điều này.

Nó có nghĩa gì để phù hợp với một phân phối Poisson cho điều này?

Tại đây, tr.8:
http://www.stats.ox.ac.uk/~marchini/teaching/L5/L5.notes.pdf

người ta nói rằng Poisson phù hợp liên quan đến việc tính toán cho mỗi . Nhưng s đi đâu? Có phù hợp về việc tính toán s không?x y P ( X = x )P(X=x)xyP(X=x)


Bạn đang được yêu cầu điều chỉnh mô hình hồi quy Poisson cho dữ liệu này. Điều này sẽ giúp: onlinecferences.science.psu.edu/stat504/node/168 . Ngoài ra, vui lòng thêm thẻ tự học vào câu hỏi bài tập về nhà này.
StatsStudent

Câu trả lời:


11

Bằng cách "phân phối phù hợp với dữ liệu", chúng tôi có nghĩa là một số phân phối (tức là hàm toán học) được sử dụng làm mô hình , có thể được sử dụng để xấp xỉ phân phối theo kinh nghiệm của dữ liệu bạn có. Nếu bạn đang phân phối phù hợp với dữ liệu, bạn cần suy ra các tham số phân phối từ dữ liệu. Bạn có thể làm điều này bằng cách sử dụng một số phần mềm sẽ tự động làm điều này cho bạn (ví dụ: fitdistrplustrong R) hoặc bằng cách tính toán bằng tay từ dữ liệu của bạn, ví dụ: sử dụng khả năng tối đa (xem mục có liên quan trong Wikipedia về phân phối Poisson ).

Trên biểu đồ bên dưới, bạn có thể thấy dữ liệu của mình được vẽ với phân phối Poisson được trang bị. Như bạn có thể thấy, dòng không phù hợp hoàn hảo, vì nó chỉ là một xấp xỉ.

nhập mô tả hình ảnh ở đây

Trong số các phương pháp khác, một trong những cách tiếp cận vấn đề này là sử dụng khả năng tối đa . Hãy nhớ rằng khả năng là một hàm của các tham số cho dữ liệu cố định và bằng cách tối đa hóa chức năng này, chúng ta có thể tìm thấy các tham số "rất có thể" được cung cấp cho dữ liệu chúng ta có, tức là

L(λ|x1,,xn)=if(xi|λ)

trong trường hợp của bạn là hàm khối lượng xác suất Poisson. Cách trực tiếp, bằng số để tìm thích hợp sẽ là sử dụng thuật toán tối ưu hóa. Đầu tiên, bạn xác định hàm khả năng và sau đó yêu cầu thuật toán tìm điểm mà hàm đạt đến mức tối đa:fλ

# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum

Bạn có thể nhận thấy một điều kỳ lạ về mã này: Tôi nhân dpois()với y. Dữ liệu bạn có được cung cấp dưới dạng bảng, trong đó với mỗi giá trị của chúng tôi có số đếm đi kèm , trong khi hàm khả năng được xác định theo dữ liệu thô, thay vì các bảng như vậy. Bạn có thể tái tạo các dữ liệu thô từ các giá trị này bằng cách lặp lại mỗi là chính xác lần (tức là trong R) và sử dụng điều này như đầu vào cho phần mềm thống kê của bạn, nhưng bạn có thể áp dụng cách thông minh hơn. Khả năng là một sản phẩm của . Nhân cho giống hệt 's chính xác lần được giống như lấyxiyixiyirep(x, y)f(xi|λ)f(xi|λ)xiyiyi sức mạnh của nó: . Ở đây chúng tôi đang tối đa hóa khả năng đăng nhập (xem tại đây tại sao chúng tôi lấy nhật ký ), vì vậy trở thành: . Đó là cách chúng tôi thu được hàm khả năng cho dữ liệu dạng bảng.f(xi|λ)yiif(xi|λ)yiilogf(xi|λ)×yi

Tuy nhiên, có nhiều cách đơn giản hơn để đi. Chúng tôi biết rằng giá trị trung bình theo kinh nghiệm của là công cụ ước tính khả năng tối đa của (nghĩa là nó cho phép chúng tôi ước tính giá trị đó của để tối đa hóa khả năng), vì vậy thay vì sử dụng phần mềm tối ưu hóa, chúng tôi chỉ có thể tính toán giá trị trung bình. Vì bạn có dữ liệu dưới dạng bảng có số đếm, cách trực tiếp nhất sẽ chỉ đơn giản là sử dụng giá trị trung bình có trọng số trung bình của trong đó được sử dụng làm trọng số.xλλxiyi

mx <- sum(x*(y/sum(y)))

Điều này dẫn đến kết quả giống hệt như khi bạn tính trung bình số học từ dữ liệu thô. Cả hai đều tối đa hóa khả năng sử dụng thuật toán tối ưu hóa và lấy giá trị trung bình dẫn đến kết quả gần như chính xác:

> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127

Vì vậy, 's không được đề cập bất cứ nơi nào trong các ghi chú của bạn khi họ được tạo ra nhân tạo như một cách để lưu trữ dữ liệu này ở dạng tổng hợp (như một bảng), chứ không phải liệt kê tất cả các nguyên ' s. Như đã trình bày ở trên, bạn có thể tận dụng dữ liệu ở định dạng này.y4075x

Các quy trình trên cho phép bạn tìm "phù hợp nhất" và đây là cách bạn phù hợp với phân phối cho dữ liệu - bằng cách tìm các tham số phân phối như vậy, làm cho nó phù hợp với dữ liệu thực nghiệm.λ


Bạn nhận xét rằng vẫn chưa rõ ràng cho bạn tại sao được coi là trọng lượng. Trung bình số học có thể được coi là một trường hợp đặc biệt của trung bình có trọng số trong đó tất cả các trọng số đều giống nhau và bằng :yi1/N

x1++xnN=1N(x1++xn)=1Nx1++1Nxn

Bây giờ hãy nghĩ về cách dữ liệu của bạn được lưu trữ. và có nghĩa là bạn có bốn số , và có nghĩa là v.v. Khi bạn tính trung bình , trước tiên bạn cần tính tổng chúng, vì vậy: . Điều này dẫn đến việc sử dụng số lượng như trọng số cho trung bình có trọng số cho chính xác giống như trung bình số học với dữ liệu thôx6=5y6=4x6={5,5,5,5}x7=6y7=2x7={6,6}5+5+5+5=5×4=x6×y6

x1y1++xnyny1++yn=x1y1N++xnynN=x1N++x1Ny1 times++xnN++xnNyn times

trong đó . Ý tưởng tương tự đã được áp dụng cho hàm khả năng được tính bằng số đếm. Điều có thể gây hiểu nhầm ở đây là trong một số trường hợp, chúng tôi sử dụng để biểu thị giá trị quan sát thứ của , trong khi trong trường hợp của bạn là giá trị cụ thể của được quan sát lần . Như đã nói trước đây, đây chỉ là một cách khác để lưu trữ cùng một dữ liệu.N=iyixiiXxiXyi


Nhưng làm thế nào để tính toán những người đó? Tôi không hiểu mối liên hệ giữa Poisson, x và y. Tôi đoán là cái mà người ta cắm vào Poisson pmf là , nhưng Poisson pmf có liên quan như thế nào s? xky
mavavilj

Vì vậy, việc phù hợp với một mô hình có nghĩa là tính toán cho mỗi ? x iP(X=xi)xi
mavavilj

@mavavilj không, điều đó có nghĩa là tìm giá trị như vậy của các tham số phân phối (trong trường hợp này là ) làm cho hàm phân phối phù hợp nhất với phân phối theo kinh nghiệm (xem đoạn đầu tiên). Đoạn cuối là về cách lưu trữ dữ liệu của bạn. Nếu một cái gì đó vẫn chưa rõ ràng, xin vui lòng bình luận. λ
Tim

Tính hợp lý của việc suy ra s là trọng số cho trung bình có trọng số (để lấy MLE) là gì? y
mavavilj

Tôi vẫn chưa rõ về lý do dẫn đến việc tính trung bình có trọng số. Tại sao các được coi là trọng lượng? y
mavavilj 22/03/2016

0

Tôi đoán câu trả lời là tìm giá trị trung bình của dữ liệu, đây sẽ là lambda của quá trình Poisson. Với dữ liệu xuất hiện trong bảng tần số, hãy tìm giá trị / trung bình có trọng số dự kiến, như được giải thích ở trên, giống như trung bình số học của dữ liệu thô.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.