Là dân số của người sao Hỏa mắt xanh giảm?


8

Giả sử rằng chúng tôi muốn kiểm tra giả thuyết rằng tỷ lệ các nhà tử đạo mắt xanh đã giảm trong suốt thế kỷ 20. Thật không may, dân số sao Hỏa biến động mạnh, do đó, mỗi thập kỷ có sự khác biệt lớn trong tổng dân số [cập nhật: coi dân số sao Hỏa là không đổi ở một tỷ người sao Hỏa. Dữ liệu dưới đây là các mẫu ngẫu nhiên mỗi năm]. Tập dữ liệu (được tạo thành khi tôi viết bài này) có thể trông giống như thế này:

Year | Total martian population | Blue-eyed martians | Proportion
1910 | 400                      | 250                | 0.625
1920 | 2000                     | 1000               | 0.500
1930 | 70                       | 40                 | 0.571
1940 | 30                       | 14                 | 0.467
1950 | 10                       | 4                  | 0.400
1960 | 140                      | 52                 | 0.371
1970 | 50 000                   | 15 400             | 0.308
1980 | 70 000                   | 22 000             | 0.314
1990 | 1500                     | 80                 | 0.053
2000 | 5000                     | 800                | 0.160

Phân tích những năm khi dân số sao Hỏa dưới 100 rõ ràng không có ý nghĩa thống kê như khi dân số trên 10 000, vì trong trường hợp sau chúng ta có một bộ dữ liệu lớn hơn. Tuy nhiên, chúng tôi vẫn muốn sử dụng tất cả dữ liệu có sẵn để xác minh giả thuyết của mình với mức ý nghĩa 95% thông thường.

Làm thế nào chúng ta có thể tiến hành? Chúng ta có cân nhắc tầm quan trọng của mỗi năm theo kích thước của mẫu tại thời điểm đó không?

Chỉnh sửa thêm để phù hợp với mối quan tâm: mối quan tâm ở đây là làm thế nào để chúng tôi cân nhắc đầy đủ mỗi bộ dữ liệu lưu ý rằng chúng có kích thước khác nhau như vậy. Không có sai lệch mẫu vì dữ liệu được chọn ngẫu nhiên.


Bạn nên chọn một mô hình theo thời gian như một nhị thức, nơi mà khả năng là màu xanh mắt là một hàm của thời gian, chẳng hạn như một mũ giảm với thời gian liên tục . Sau đó, bằng lý thuyết kiểm định giả thuyết, bạn nên rút ra một tiêu chí để nói ra giả thuyết " T là hữu hạn" chống lại giả thuyết null " T là vô hạn". Bạn cũng có thể lấy được một ước lượng của T . TTTT
Yves Daoust

Đây là một chút khác thường. Tôi (một mod toán học ) đã di chuyển cái này ở đây, nó đã bị từ chối vì quá rộng (vì ban đầu nó có hai câu hỏi). Sự từ chối đưa nó trở lại Toán học , nơi nó được mở lại. OP đã chỉnh sửa nó. Tôi di chuyển nó ở đây một lần nữa. Nếu tôi sai, xin vui lòng cho tôi biết.
davidlowryduda

"Giảm trong suốt thế kỷ 20" là một cụm từ quá mơ hồ để cho phép kiểm tra giả thuyết. Người ta có thể giải thích nó theo nhiều cách khác nhau. 1) vì "mỗi tỷ lệ phải nhỏ hơn tỷ lệ trước", một điều kiện rõ ràng không được đáp ứng ở đây. 2) là "giá trị 2000 phải nhỏ hơn giá trị 1910", được đáp ứng. 3) là "sẽ có một hệ số âm cho biến thời gian trong hồi quy logistic (trong đó có 250 mắt xanh và 150 mắt khác vào năm 1910, 1000 và 1000 vào năm 1920, v.v.)"
rolando2

Câu trả lời:


4

Câu trả lời này mô tả ba cách để xử lý các cỡ mẫu khác nhau một cách phù hợp: Mô hình tuyến tính tổng quát và hai hồi quy bình phương tối thiểu bình phương có trọng số. Trong trường hợp này cả ba đều hoạt động tốt. Nói chung, khi một số tỷ lệ gần hoặc 1 , GLM sẽ tốt hơn.01


Bởi vì kích thước mẫu quá nhỏ so với quần thể (ít hơn mười phần trăm trong số chúng), nên gần đúng tuyệt vời sự phân bố kết quả mắt xanh và mắt xanh trong mẫu có kích thước là Binomial (vì các mẫu là ngẫu nhiên). Thông số Binomial khác, p , là tỷ lệ đúng (nhưng chưa biết) của các đối tượng mắt xanh trong dân số. Do đó, cơ hội quan sát k người mắt xanh lànpk

(1)(nk)pk(1p)nk.

Mỗi thập kỷ, chúng ta biết và - được cung cấp bởi dữ liệu - nhưng chúng ta không biết . Chúng tôi có thể ước tính nó bằng cách giả sử rằng tỷ lệ cược log tương ứng với thay đổi theo năm tuyến tính (ít nhất là xấp xỉ tốt). Điều này có nghĩa là chúng tôi giả sử có số và sao chok p p β 0 β 1nkppβ0β1

log(p)log(1p)=β0+β1×Year.

Tương đương,

p=11+eβ0β1Year; 1p=eβ0β1Year1+eβ0β1Year.

Cắm này vào (1) cung cấp cho các cơ hội quan sát ra khỏi trong một năm nhất định nhưn tknt

(2)(nk)e(β0+β1t)(nk)(1+e(β0+β1t))n.

Giả sử các mẫu được lấy độc lập ở các năm v.v. và viết các cỡ mẫu và số lượng đối tượng mắt xanh tương ứng là và , xác suất của dữ liệu là sản phẩm của xác suất của các kết quả riêng lẻ. Sản phẩm này là (theo định nghĩa) khả năng của . Chúng tôi có thể ước tính các tham số này dưới dạng các giá trị để tối đa hóa khả năng; tương tự, họ tối đa hóa khả năng đăng nhậpt1,t2, niki(β0,β1)(β^0,β^1)

(3)Λ(β0,β1)=tlog((nk)e(β0+β1t)(nk)(1+e(β0+β1t))n)

thu được từ .(2)

(Điều này đơn giản hóa đáng kể, sử dụng quy tắc logarit, đó là một lý do để biểu thị mối quan hệ tỷ lệ thời gian theo tỷ lệ cược log. Khi tất cả các tỷ lệ nằm trong khoảng đến , xấp xỉ, có rất ít sự khác biệt về chất giữa việc sử dụng xác suất hoặc nhật ký của chúng tỷ lệ cược: đường cong được trang bị sẽ tương ứng tuyến tính hoặc gần với tuyến tính.)0.20.8p

(3) là một mô hình tuyến tính tổng quát nhị thức . Nó phải được trang bị bằng cách thu nhỏ số . Quy trình trong (hiển thị ở cuối bài này) đưa ra giải phápΛglmR

(β^0,β^1)GLM=(31.498711,0.0163568).

Hình hiển thị dữ liệu và hai khớp

Dữ liệu trong hình này được vẽ với các đĩa có diện tích tỷ lệ với kích thước mẫu. Sự phù hợp GLM là curvilinear. Hiển thị để so sánh, màu xám, là dòng chúng ta sẽ nhận được chỉ bằng cách bỏ dữ liệu được hiển thị trong câu hỏi vào một bộ giải bình phương tối thiểu bình thường. Cả hai phù hợp đều bị ảnh hưởng bởi tỷ lệ lớn hơn trong những năm trước, mặc dù kích thước mẫu nhỏ sau đó. Tuy nhiên, sự phù hợp GLM thực hiện tốt hơn việc xấp xỉ tỷ lệ trong các mẫu lớn nhất thu được vào năm 1970 và 1980. Đường màu xanh chấm được mô tả dưới đây.(Year,Proportion)

Bằng cách thêm một thuật ngữ bậc hai, chúng ta có thể kiểm tra mức độ phù hợp. Nó cải thiện đáng kể sự phù hợp GLM (mặc dù sự khác biệt về mặt trực quan không lớn), cung cấp bằng chứng cho thấy mô hình này không mô tả sự thay đổi trong kết quả tốt. Nhìn vào cốt truyện cho thấy kết quả năm 1990 thấp hơn nhiều so với dự đoán của mô hình.


Một cách tiếp cận khác, nhưng có thể so sánh, là ước tính riêng cho từng năm , có thể là (mặc dù các công cụ ước tính khác là có thể). Hồi quy tuyến tính tỷ lệ cược log của các ước tính này so với năm, được tính theo kích thước mẫu hoặc hồi quy theo bình phương có trọng số , mang lạiptiki/nini

(β^0,β^1)WLS=(36.12744,0.018706).

Các lỗi tiêu chuẩn của các ước tính này lần lượt là và , cho thấy các ước tính của WLS không khác biệt đáng kể so với GLM của Binomial. (Tuy nhiên, các lỗi tiêu chuẩn của GLM nhỏ hơn đáng kể: mặc dù nó "biết" các kích thước mẫu này khá lớn trong khi hồi quy tuyến tính "không biết" gì về kích thước mẫu cả: nó chỉ có một chuỗi mười quan sát riêng biệt.) Lưu ý rằng điều này thay thế có thể không khả dụng nếu hoặc , trừ khi sử dụng công cụ ước tính khác nhau (không tạo ra các giá trị hoặc ).15.550.00787ki=niki=001

Cuối cùng, chúng ta có thể chỉ cần thực hiện một hồi quy bình phương nhỏ nhất có trọng số của các ước tính xác suất thô so với năm, trọng số nghịch với ước tính phương sai mẫu. Phương sai của một nhị thức biến , tái hiện như là một tỷ lệ là . Điều đó có thể được ước tính từ một mẫu nhưk/n(n,p)XX/np(1p)/n

p(1p)nknnkn/n=k(nk)n3.

Kết quả của nó xuất hiện trong hình dưới dạng một đường màu xanh chấm. Trong trường hợp này, nó có vẻ thỏa hiệp giữa GLM và OLS phù hợp.


Các Rmã sau đây đã thực hiện các phân tích và tạo ra con số.

year <- seq(1910, 2000, by=10)
total <- c(40, 200, 7, 3, 1, 14, 5000, 7000, 150, 500) * 10
blue <- c(250, 1000, 40, 14, 4, 52, 15400, 22000, 80, 800)
X <- data.frame(Year=year, Success=blue, Failure=total-blue,
                Proportion=blue/total, Total=total)
#
# GLM
#
fit <- glm(cbind(Success, Failure) ~ Year, X, family="binomial")
summary(fit)
#
# WLS of the log odds (an alternative)
#
fit.WLS <- lm(log(Success/Failure) ~ Year, X, weights=Total)
summary(fit.WLS)
#
# Plot the results.
#
X.more <- data.frame(Year=1901:2010)
X.more$Prediction <- predict(fit, X.more, type="response")
plot(X$Year, X$Proportion, ylim=0:1,
     type="p", pch=21, bg="Red", cex=sqrt(X$Total/2000),
     xlab="Year", ylab="Proportion",
     main="GLM and OLS Fits", sub="GLM: solid line; OLS: dotted line")
lines(X.more, lwd=2)
abline(lm(Proportion ~ Year, X), 
       lty=3, lwd=3, col="Gray") #The OLS fit
abline(lm(Proportion ~ Year, X, weights=Total^3/(Success*Failure)), 
       lty=3, lwd=3, col="Blue") #The weighted OLS fit to the proportions
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.