Câu trả lời này mô tả ba cách để xử lý các cỡ mẫu khác nhau một cách phù hợp: Mô hình tuyến tính tổng quát và hai hồi quy bình phương tối thiểu bình phương có trọng số. Trong trường hợp này cả ba đều hoạt động tốt. Nói chung, khi một số tỷ lệ gần hoặc 1 , GLM sẽ tốt hơn.01
Bởi vì kích thước mẫu quá nhỏ so với quần thể (ít hơn mười phần trăm trong số chúng), nên gần đúng tuyệt vời sự phân bố kết quả mắt xanh và mắt xanh trong mẫu có kích thước là Binomial (vì các mẫu là ngẫu nhiên). Thông số Binomial khác, p , là tỷ lệ đúng (nhưng chưa biết) của các đối tượng mắt xanh trong dân số. Do đó, cơ hội quan sát k người mắt xanh lànpk
(nk)pk(1−p)n−k.(1)
Mỗi thập kỷ, chúng ta biết và - được cung cấp bởi dữ liệu - nhưng chúng ta không biết . Chúng tôi có thể ước tính nó bằng cách giả sử rằng tỷ lệ cược log tương ứng với thay đổi theo năm tuyến tính (ít nhất là xấp xỉ tốt). Điều này có nghĩa là chúng tôi giả sử có số và sao chok p p β 0 β 1nkppβ0β1
log(p)−log(1−p)=β0+β1×Year.
Tương đương,
p=11+e−β0−β1Year; 1−p=e−β0−β1Year1+e−β0−β1Year.
Cắm này vào (1) cung cấp cho các cơ hội quan sát ra khỏi trong một năm nhất định nhưn tknt
(nk)e−(β0+β1t)(n−k)(1+e−(β0+β1t))n.(2)
Giả sử các mẫu được lấy độc lập ở các năm v.v. và viết các cỡ mẫu và số lượng đối tượng mắt xanh tương ứng là và , xác suất của dữ liệu là sản phẩm của xác suất của các kết quả riêng lẻ. Sản phẩm này là (theo định nghĩa) khả năng của . Chúng tôi có thể ước tính các tham số này dưới dạng các giá trị để tối đa hóa khả năng; tương tự, họ tối đa hóa khả năng đăng nhậpt1,t2, niki(β0,β1)(β^0,β^1)
Λ(β0,β1)=∑tlog((nk)e−(β0+β1t)(n−k)(1+e−(β0+β1t))n)(3)
thu được từ .(2)
(Điều này đơn giản hóa đáng kể, sử dụng quy tắc logarit, đó là một lý do để biểu thị mối quan hệ tỷ lệ thời gian theo tỷ lệ cược log. Khi tất cả các tỷ lệ nằm trong khoảng đến , xấp xỉ, có rất ít sự khác biệt về chất giữa việc sử dụng xác suất hoặc nhật ký của chúng tỷ lệ cược: đường cong được trang bị sẽ tương ứng tuyến tính hoặc gần với tuyến tính.)0.20.8p
(3) là một mô hình tuyến tính tổng quát nhị thức . Nó phải được trang bị bằng cách thu nhỏ số . Quy trình trong (hiển thị ở cuối bài này) đưa ra giải phápΛglm
R
(β^0,β^1)GLM=(31.498711,−0.0163568).

Dữ liệu trong hình này được vẽ với các đĩa có diện tích tỷ lệ với kích thước mẫu. Sự phù hợp GLM là curvilinear. Hiển thị để so sánh, màu xám, là dòng chúng ta sẽ nhận được chỉ bằng cách bỏ dữ liệu được hiển thị trong câu hỏi vào một bộ giải bình phương tối thiểu bình thường. Cả hai phù hợp đều bị ảnh hưởng bởi tỷ lệ lớn hơn trong những năm trước, mặc dù kích thước mẫu nhỏ sau đó. Tuy nhiên, sự phù hợp GLM thực hiện tốt hơn việc xấp xỉ tỷ lệ trong các mẫu lớn nhất thu được vào năm 1970 và 1980. Đường màu xanh chấm được mô tả dưới đây.(Year,Proportion)
Bằng cách thêm một thuật ngữ bậc hai, chúng ta có thể kiểm tra mức độ phù hợp. Nó cải thiện đáng kể sự phù hợp GLM (mặc dù sự khác biệt về mặt trực quan không lớn), cung cấp bằng chứng cho thấy mô hình này không mô tả sự thay đổi trong kết quả tốt. Nhìn vào cốt truyện cho thấy kết quả năm 1990 thấp hơn nhiều so với dự đoán của mô hình.
Một cách tiếp cận khác, nhưng có thể so sánh, là ước tính riêng cho từng năm , có thể là (mặc dù các công cụ ước tính khác là có thể). Hồi quy tuyến tính tỷ lệ cược log của các ước tính này so với năm, được tính theo kích thước mẫu hoặc hồi quy theo bình phương có trọng số , mang lạiptiki/nini
(β^0,β^1)WLS=(36.12744,−0.018706).
Các lỗi tiêu chuẩn của các ước tính này lần lượt là và , cho thấy các ước tính của WLS không khác biệt đáng kể so với GLM của Binomial. (Tuy nhiên, các lỗi tiêu chuẩn của GLM nhỏ hơn đáng kể: mặc dù nó "biết" các kích thước mẫu này khá lớn trong khi hồi quy tuyến tính "không biết" gì về kích thước mẫu cả: nó chỉ có một chuỗi mười quan sát riêng biệt.) Lưu ý rằng điều này thay thế có thể không khả dụng nếu hoặc , trừ khi sử dụng công cụ ước tính khác nhau (không tạo ra các giá trị hoặc ).15.550.00787ki=niki=001
Cuối cùng, chúng ta có thể chỉ cần thực hiện một hồi quy bình phương nhỏ nhất có trọng số của các ước tính xác suất thô so với năm, trọng số nghịch với ước tính phương sai mẫu. Phương sai của một nhị thức biến , tái hiện như là một tỷ lệ là . Điều đó có thể được ước tính từ một mẫu nhưk/n(n,p)XX/np(1−p)/n
p(1−p)n≈knn−kn/n=k(n−k)n3.
Kết quả của nó xuất hiện trong hình dưới dạng một đường màu xanh chấm. Trong trường hợp này, nó có vẻ thỏa hiệp giữa GLM và OLS phù hợp.
Các R
mã sau đây đã thực hiện các phân tích và tạo ra con số.
year <- seq(1910, 2000, by=10)
total <- c(40, 200, 7, 3, 1, 14, 5000, 7000, 150, 500) * 10
blue <- c(250, 1000, 40, 14, 4, 52, 15400, 22000, 80, 800)
X <- data.frame(Year=year, Success=blue, Failure=total-blue,
Proportion=blue/total, Total=total)
#
# GLM
#
fit <- glm(cbind(Success, Failure) ~ Year, X, family="binomial")
summary(fit)
#
# WLS of the log odds (an alternative)
#
fit.WLS <- lm(log(Success/Failure) ~ Year, X, weights=Total)
summary(fit.WLS)
#
# Plot the results.
#
X.more <- data.frame(Year=1901:2010)
X.more$Prediction <- predict(fit, X.more, type="response")
plot(X$Year, X$Proportion, ylim=0:1,
type="p", pch=21, bg="Red", cex=sqrt(X$Total/2000),
xlab="Year", ylab="Proportion",
main="GLM and OLS Fits", sub="GLM: solid line; OLS: dotted line")
lines(X.more, lwd=2)
abline(lm(Proportion ~ Year, X),
lty=3, lwd=3, col="Gray") #The OLS fit
abline(lm(Proportion ~ Year, X, weights=Total^3/(Success*Failure)),
lty=3, lwd=3, col="Blue") #The weighted OLS fit to the proportions