Lắp phân phối nhị thức âm cho dữ liệu đếm lớn


9

Tôi có ~ 1 triệu điểm dữ liệu. Đây là liên kết đến tệp data.txt Mỗi người trong số họ có thể nhận giá trị từ 0 đến 145. Đó là một tập dữ liệu riêng biệt. Dưới đây là biểu đồ của tập dữ liệu. Trên trục x là số đếm (0-145) và trên trục y là mật độ.

nguồn dữ liệu : Tôi có khoảng 20 đối tượng tham chiếu và 1 triệu đối tượng ngẫu nhiên trong không gian. Đối với mỗi 1 triệu đối tượng ngẫu nhiên này, tôi đã tính khoảng cách Manhattan đối với 20 đối tượng tham chiếu này. Tuy nhiên tôi chỉ xem xét khoảng cách ngắn nhất trong số 20 đối tượng tham chiếu này. Vì vậy, tôi có 1 triệu khoảng cách Manhattan (mà bạn có thể tìm thấy trong liên kết đến tệp được đưa ra trong bài)

Tôi đã cố gắng khớp các phân phối nhị thức Poisson và phủ định cho tập dữ liệu này bằng R. Tôi thấy sự phù hợp do phân phối nhị thức âm có vẻ hợp lý. Dưới đây là đường cong được trang bị (màu xanh lam).

Mục tiêu cuối cùng : Một khi tôi đã trang bị phân phối này một cách thích hợp, tôi muốn coi phân phối này là phân phối ngẫu nhiên khoảng cách. Lần tới khi tôi tính khoảng cách (d) của bất kỳ đối tượng nào với 20 đối tượng tham chiếu này, tôi sẽ có thể biết liệu (d) có ý nghĩa hay chỉ là một phần của phân phối ngẫu nhiên.

nhập mô tả hình ảnh ở đây

Để đánh giá mức độ phù hợp của tôi, tôi đã tính toán kiểm tra bình phương bằng R với tần số và xác suất quan sát được tôi nhận được từ sự phù hợp nhị thức âm. Mặc dù đường cong màu xanh rất phù hợp để phân phối, giá trị P trở lại từ phép thử chi bình phương là cực kỳ thấp.

Điều này khiến tôi bối rối một chút. Tôi có hai câu hỏi liên quan:

  1. Sự lựa chọn phân phối nhị thức âm cho tập dữ liệu này có phù hợp không?

  2. Nếu giá trị P bình phương kiểm tra giá trị P quá thấp, tôi có nên xem xét phân phối khác không?

Dưới đây là mã hoàn chỉnh tôi đã sử dụng:

# read the file containing count data
data <- read.csv("data.txt", header=FALSE)

# plot the histogram
hist(data[[1]], prob=TRUE, breaks=145)

# load library
library(fitdistrplus)

# fit the negative binomial distribution
fit <- fitdist(data[[1]], "nbinom")

# get the fitted densities. mu and size from fit.
fitD <- dnbinom(0:145, size=25.05688, mu=31.56127)

# add fitted line (blue) to histogram
lines(fitD, lwd="3", col="blue")

# Goodness of fit with the chi squared test  
# get the frequency table
t <- table(data[[1]])   

# convert to dataframe
df <- as.data.frame(t)

# get frequencies
observed_freq <- df$Freq

# perform the chi-squared test
chisq.test(observed_freq, p=fitD)

Tôi chỉ thấy 2 câu hỏi. Có thứ 3 không? Bạn nói dữ liệu "có thể lấy giá trị từ 0 đến 145". Đây có phải là một số trong tổng số cố định có thể (145) không?
gung - Phục hồi Monica

Ngoại lệ. Bạn thấy một cái đuôi (hoặc, rất có thể, bạn không nhìn thấy nó, bởi vì chỉ có một vài giá trị ở đây) ở bên phải. Đó là lý do tại sao. Và thực sự bạn có thể thấy - dòng trang bị của bạn bị sai lệch vì những kẻ lớn bên phải.
Đức Demidov

@gung: cảm ơn bạn đã trả lời. Tôi gõ sai nó, chỉ có hai câu hỏi. 145: không phải là một tổng số có thể sửa chữa. Một biến ngẫu nhiên giá trị tối đa của nó có thể mất.
dùng1275607

Tại sao nó là giá trị tối đa mà biến có thể lấy?
gung - Phục hồi Monica

@gung: tôi cũng đã tìm thấy nó sau khi lấy mẫu 1 triệu lần (và đó là giá trị tôi tìm thấy).
dùng1275607

Câu trả lời:


8

Thứ nhất, mức độ tốt của các bài kiểm tra thể dục hoặc kiểm tra cho các bản phân phối cụ thể thường sẽ bác bỏ giả thuyết khống được đưa ra với cỡ mẫu đủ lớn, bởi vì chúng tôi hầu như không gặp phải tình huống nào, trong đó dữ liệu phát sinh chính xác từ một phân phối cụ thể và chúng tôi cũng đã tính đến tất cả các liên quan các đồng biến (có thể không được đo lường) giải thích sự khác biệt hơn nữa giữa các chủ đề / đơn vị. Tuy nhiên, trong thực tế, những sai lệch như vậy có thể không liên quan và người ta biết rằng nhiều mô hình có thể được sử dụng, ngay cả khi chúng là một số sai lệch so với các giả định phân phối (nổi tiếng nhất là về tính quy tắc của phần dư trong mô hình hồi quy với các thuật ngữ lỗi thông thường).

Thứ hai, một mô hình nhị thức âm là một lựa chọn mặc định tương đối hợp lý cho dữ liệu đếm (chỉ có thể là 0). Chúng tôi không có nhiều chi tiết mặc dù và có thể có các tính năng rõ ràng của dữ liệu (ví dụ về cách thức phát sinh) sẽ đề xuất một cái gì đó tinh vi hơn. Ví dụ, kế toán cho các đồng biến chính sử dụng hồi quy nhị thức âm có thể được xem xét.


Cảm ơn vì đã trả lời. Vì vậy, tôi sẽ gắn bó với phân phối nhị thức âm.
dùng1275607
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.