Làm thế nào để phù hợp với một phân phối rời rạc để đếm dữ liệu?


17

Tôi có biểu đồ sau của dữ liệu đếm. Và tôi muốn phù hợp với một phân phối rời rạc cho nó. Tôi không chắc làm thế nào tôi nên đi về điều này.nhập mô tả hình ảnh ở đây

Trước tiên tôi có nên áp dụng phân phối rời rạc hay không, giả sử phân phối nhị thức âm, trên biểu đồ để tôi có được các tham số của phân phối rời rạc và sau đó chạy thử nghiệm Kolmogorov Thẻ Smirnov để kiểm tra giá trị p?

Tôi không chắc phương pháp này có đúng hay không.

Có một phương pháp chung để giải quyết một vấn đề như thế này?

Đây là bảng tần số của dữ liệu đếm. Trong vấn đề của tôi, tôi chỉ tập trung vào số lượng khác không.

  Counts:     1    2    3    4    5    6    7    9   10 
 Frequency: 3875 2454  921  192   37   11    1    1    2 

CẬP NHẬT: Tôi muốn hỏi: Tôi đã sử dụng hàm fitdistr trong R để lấy các tham số để khớp dữ liệu.

fitdistr(abc[abc != 0], "Poisson")
     lambda  
  1.68147852 
 (0.01497921)

Sau đó, tôi vẽ đồ thị hàm xác suất của phân phối Poisson trên đỉnh của biểu đồ. nhập mô tả hình ảnh ở đây

Tuy nhiên, có vẻ như phân phối Poisson không thể mô hình hóa dữ liệu đếm. Có bất cứ điều gì tôi có thể làm?


3
Một phương pháp chung là sử dụng khả năng tối đa để phù hợp với phân phối ứng viên. Ý bạn là gì khi áp dụng phân phối để thu được các tham số không rõ ràng, nhưng nếu bạn muốn đoán các giá trị tham số cho đến khi bạn có được sự phù hợp tốt thì đó là một phương pháp tệ hại. Kolmogorov-Smirnov không hữu ích ở đây. Bạn cần phần mềm phù hợp mang lại cho bạn kết quả suy luận, vì vậy bạn cần chỉ ra phần mềm bạn chọn để mọi người sử dụng có thể cố gắng giúp bạn. Biểu đồ của bạn không rõ ràng, nhưng nếu có khoảng trống thì không có phân phối nào có thể phù hợp.
Nick Cox

3
Mặc dù sử dụng thử nghiệm KS theo cách đó là một phương pháp tệ hại (và trong mọi trường hợp, thử nghiệm KS không dành cho các phân phối rời rạc), có thể ước tính các tham số bằng cách giảm thiểu thống kê KS trên tất cả các giá trị tham số có thể; nhưng nếu bạn đang đi theo cách đó (tối ưu hóa một số điểm tốt của sự phù hợp), bình phương tối thiểu sẽ là cách tiếp cận điển hình hơn. Như Nick Cox gợi ý ML sẽ là điều hiển nhiên phải làm, gần như chắc chắn hiệu quả hơn, dễ dàng thoát khỏi các lỗi tiêu chuẩn và dễ dàng được người khác chấp nhận hơn. (Có những khả năng khác, như phương pháp của khoảnh khắc, nhưng ML là điều chính.)
Glen_b -Reinstate Monica

Tôi đang sử dụng R. Khi bạn nói ước tính MLE, có thuật toán nào bạn sẽ đề xuất cho công việc không? Và sau khi tìm thấy ML, tôi nên làm gì tiếp theo?
dùng1769197

Tôi sẽ bắt đầu ở đây ?MASS::fitdistr, vì nó đã có trong bản phân phối R của bạn (xem ví dụ cuối cùng ở phía dưới; xem rnegbin để biết thêm thông tin về tham số hóa của Binomial âm). .... " Và sau khi tìm ML, tôi nên làm gì tiếp theo? " - tại thời điểm đó bạn có ước tính tham số và lỗi tiêu chuẩn. Ngoài ra, bạn muốn đạt được điều gì? - Tôi không thể đoán.
Glen_b -Reinstate Monica

Nó xảy ra với tôi rằng bạn có thể đã cố gắng hỏi 'làm thế nào để tôi đánh giá sự phù hợp của mô hình của tôi?'. Nếu đó là trường hợp, bạn có thể cập nhật câu hỏi của bạn để phản ánh điều đó?
Glen_b -Reinstate Monica

Câu trả lời:


17

Phương pháp lắp phân phối rời rạc

Có ba phương thức chính * được sử dụng để khớp (ước tính các tham số) phân phối rời rạc.

1) Khả năng tối đa

Điều này tìm thấy các giá trị tham số mang lại cơ hội tốt nhất để cung cấp mẫu của bạn (đưa ra các giả định khác, như tính độc lập, tham số không đổi, v.v.)

2) Phương pháp của khoảnh khắc

Điều này tìm thấy các giá trị tham số làm cho một vài khoảnh khắc dân số đầu tiên khớp với các khoảnh khắc mẫu của bạn. Việc này thường khá dễ thực hiện và trong nhiều trường hợp mang lại các công cụ ước tính khá hợp lý. Đôi khi nó cũng được sử dụng để cung cấp các giá trị bắt đầu cho các thói quen ML.

3) Chi bình phương tối thiểu

Điều này giảm thiểu mức độ chi bình phương của thống kê phù hợp so với phân phối rời rạc, mặc dù đôi khi với các tập dữ liệu lớn hơn, các danh mục cuối có thể được kết hợp để thuận tiện. Nó thường hoạt động khá tốt, và thậm chí nó có thể có một số lợi thế so với ML trong các tình huống cụ thể, nhưng nhìn chung nó phải được lặp đi lặp lại để hội tụ, trong trường hợp hầu hết mọi người có xu hướng thích ML.

Hai phương pháp đầu tiên cũng được sử dụng để phân phối liên tục; thứ ba thường không được sử dụng trong trường hợp đó.

Những điều này không có nghĩa là bao gồm một danh sách đầy đủ, và hoàn toàn có thể ước tính các tham số bằng cách giảm thiểu thống kê KS chẳng hạn - và thậm chí (nếu bạn điều chỉnh cho sự không thống nhất), để có được một khu vực phụ âm chung từ nó, nếu bạn là nghiêng như vậy. Vì bạn đang làm việc trong R, ước tính ML khá dễ dàng đạt được cho nhị thức âm. Nếu mẫu của bạn được x, nó đơn giản như library(MASS);fitdistr (x,"negative binomial"):

> library(MASS) 
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
     size         mu    
  3.6200839   6.3701156 
 (0.8033929) (0.4192836)

Đó là các ước tính tham số và các lỗi tiêu chuẩn (tiệm cận) của chúng.

Trong trường hợp phân phối Poisson, MLE và MoM đều ước tính tham số Poisson tại giá trị trung bình mẫu.

Nếu bạn muốn xem các ví dụ, bạn nên đăng một số lượng thực tế. Lưu ý rằng biểu đồ của bạn đã được thực hiện với các thùng được chọn sao cho các loại 0 và 1 được kết hợp và chúng tôi không có số liệu thô.

Gần như tôi có thể đoán, dữ liệu của bạn đại khái như sau:

    Count:  0&1   2   3   4   5   6  >6    
Frequency:  311 197  74  15   3   1   0

Nhưng những con số lớn sẽ không chắc chắn (nó phụ thuộc nhiều vào mức độ chính xác của số lượng thấp được biểu thị bằng số pixel của chiều cao thanh của chúng) và nó có thể là bội số của những con số đó, như hai lần những con số đó (số lượng thô ảnh hưởng các lỗi tiêu chuẩn, do đó, vấn đề là chúng có liên quan đến các giá trị đó hay lớn gấp đôi)

Sự kết hợp của hai nhóm đầu tiên làm cho nó hơi khó xử một chút (có thể thực hiện được, nhưng ít đơn giản hơn nếu bạn kết hợp một số danh mục. Rất nhiều thông tin nằm trong hai nhóm đầu tiên đó vì vậy tốt nhất không nên để biểu đồ mặc định gộp lại. ).


* Tất nhiên, các phương pháp khác của việc phân phối rời rạc đều có thể xảy ra (người ta có thể khớp với lượng tử hoặc giảm thiểu mức độ tốt khác của thống kê phù hợp chẳng hạn). Những cái tôi đề cập dường như là phổ biến nhất.


+1, thông tin tốt đẹp. Vì tò mò, tại sao bạn thường sử dụng 1), thay vì đánh số đánh dấu mà CV hỗ trợ (nghĩa là 1.- điều gì dẫn đến thụt lề)?
gung - Phục hồi Monica

1
@gung Chủ yếu, tôi không nghĩ về điều đó - Tôi thích danh sách của mình hơn là cách tôi gõ chúng; nhưng khi tôi nghĩ về nó, tôi thấy việc chỉnh sửa các con số mà tôi gõ theo những gì nó nghĩ là chúng sẽ gây phiền toái rất nhiều (nếu tôi gõ "36.", tôi thực sự không có nghĩa là "1.") ... nó xảy ra với tôi để sử dụng "1." thay vì "1)", cuối cùng tôi thường gõ "1 \." rõ ràng để ngăn chặn nó nhận ra nó và làm những điều tôi không có ý định. Tôi đã rất hài lòng với hành vi này từ 5 năm qua mà tôi thậm chí không nghĩ về nó - cuối cùng tôi sẽ tự động can thiệp vào nó bằng thói quen.
Glen_b -Reinstate Monica

1
@gung Nếu vết lõm nhỏ hơn nhiều, có lẽ tôi sẽ có xu hướng đưa ra các nguy cơ đánh số lại và sử dụng nó. Khi nó đứng, tôi thường thấy nó mất tập trung khi nhìn thấy nó. Nhưng trong trường hợp cụ thể này, tôi đang tìm cách làm cho chúng trông giống như các tiêu đề phụ hơn, vì vậy tôi có lẽ đã tránh nó ngay cả khi tôi không xử lý hành vi đó. (Mặt khác, vào những dịp mà người khác quyết định chỉnh sửa danh sách của tôi để làm cho nó được thụt lề, tôi thường để chúng tự làm hài lòng. Nếu họ muốn làm cho nó trông theo một cách nhất định, họ có thể miễn là nó không 't thay đổi ý nghĩa.)
Glen_b -Reinstate Monica

Tôi sẽ cố gắng kiềm chế bản thân ;-).
gung - Tái lập Monica

2

Trong một chỉnh sửa, bạn đã đưa ra một số dữ liệu và thêm một câu hỏi mới:

"Đây là bảng tần số của dữ liệu đếm. Trong vấn đề của tôi, tôi chỉ tập trung vào số đếm khác không.

   Counts:     1    2    3    4    5    6    7    9   10 
Frequency:  3875 2454  921  192   37   11    1    1    2 

Ai đó có thể cho tôi một ví dụ về cách bạn sẽ thực hiện kiểm tra mức độ phù hợp của bình phương ở đây không? "

Điều này dẫn đến những bình luận thêm:

  1. Có số không nhưng muốn bỏ qua chúng có thể có ý nghĩa, nhưng nhìn chung mọi người thống kê và chủ đề sẽ muốn thấy một lý do chính đáng tại sao.

  2. Nếu bạn chọn bỏ qua các số không, bạn đang đặt mình vào vùng lãnh thổ khó khăn, vì bạn không thể thực hiện các thói quen ví dụ như Poisson hoặc nhị thức âm nếu bạn bỏ qua các số không. Vâng, bạn có thể, nhưng câu trả lời sẽ sai. Bạn cần các hàm hoặc lệnh có mục đích đặc biệt cho các bản phân phối, chẳng hạn như nhị thức Pounc không bị cắt cụt hoặc nhị phân âm không bị cắt cụt. Đó là thứ thách thức và cần đọc chuyên dụng để rõ ràng về những gì bạn đang làm.

  3. Hỏi cách làm bài kiểm tra chi bình phương gợi ý cho tôi rằng bạn chưa thực sự hiểu những gì tôi nói rất ngắn gọn và @Glen_b nói chi tiết hơn nhiều (và, theo tôi, rất rõ ràng). Chia nó thành hai:

    • Không thể có kiểm tra chi bình phương nếu không có tần số dự kiến ​​và không thể có tần số dự kiến ​​nếu không có ước tính tham số. Có thể là bạn quen thuộc nhất với các thói quen kiểm tra chi bình phương trong đó kiểm tra tính độc lập của các hàng và cột trong bảng hai chiều. Mặc dù đó là bài kiểm tra chi bình phương được đáp ứng nhiều nhất trong các khóa học giới thiệu, nhưng thực sự rất bất thường trong các bài kiểm tra chi bình phương nói chung ở chỗ phần mềm thông thường có hiệu lực thực hiện ước tính tham số cho bạn và do đó có được tần số dự kiến. Ngoài ra, trong hầu hết các vấn đề phức tạp hơn, chẳng hạn như của bạn, bạn phải lấy ước tính tham số trước.

    • Một thử nghiệm chi bình phương không sai, nhưng nếu bạn ước tính các tham số theo khả năng tối đa thì nó không liên quan vì thói quen phù hợp cung cấp cho bạn các ước tính và các lỗi tiêu chuẩn và cho phép các thử nghiệm theo sau. @Glen_b đã đưa ra một ví dụ đã có trong câu trả lời của anh ấy.

Một vấn đề phụ là nó sẽ rõ ràng hơn để điều chỉnh biểu đồ của bạn để tôn trọng sự không thống nhất của biến và hiển thị xác suất, không phải mật độ. Các lỗ hổng rõ ràng chỉ là vật phẩm của sự lựa chọn bin mặc định không tôn trọng sự riêng biệt của biến.

CẬP NHẬT: Câu hỏi bổ sung về kiểm tra chi bình phương hiện đã bị xóa. Hiện tại tôi đang để số 3 ở trên, trong trường hợp người khác đi theo cùng một con đường muốn kiểm tra chi bình phương.


Tôi phải bỏ qua các số không, bởi vì tôi đang cố gắng mô hình hóa số lượng hoạt động. Đếm = 0 được gọi là số lượng không hoạt động.
dùng1769197

Đó là một lựa chọn thực chất. Lưu ý rằng trong nhiều lĩnh vực có cái gọi là mô hình hai phần, trong đó bạn mô hình (theo thuật ngữ của bạn) hoạt động so với không hoạt động và sau đó hoạt động như thế nào.
Nick Cox

Tôi đã cố gắng điều chỉnh biểu đồ bằng cách thực hiện "cốt truyện (bảng (abc), type =" h ")". Nhưng, tôi không chắc làm thế nào tôi có thể khiến nó hiển thị xác suất
dùng1769197

Tôi không sử dụng R, nhưng bạn có thể nhận được lời khuyên về điều đó. Bạn có thể cần phải hỏi riêng.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.