Làm thế nào chúng ta có thể biết phương sai dân số?


10

Trong thử nghiệm giả thuyết, một câu hỏi phổ biến là phương sai dân số là gì? Câu hỏi của tôi là làm thế nào chúng ta có thể biết phương sai dân số? Nếu chúng ta biết toàn bộ phân phối, chúng ta cũng có thể biết ý nghĩa của toàn bộ dân số. Vậy thì điểm kiểm định giả thuyết là gì?


Một số tài liệu có liên quan: nber.org/ con / w20325
dv_bn

Người ta có thể biết phương sai mà không biết gì về giá trị trung bình. Ví dụ, phương sai có thể được phục hồi từ bình phương của tất cả các khác biệt về giá trị trong dân số, nhưng những khác biệt đó không cung cấp thông tin về giá trị trung bình. Bất kể, tôi không thấy cách phát biểu và câu hỏi trong bài đăng này dẫn đến câu hỏi về điểm kiểm định giả thuyết.
whuber

Câu trả lời:


10

Tôi không chắc chắn rằng vấn đề này thực sự xuất hiện "thường" bên ngoài Chỉ số 101 (giới thiệu về thống kê). Tôi không chắc chắn tôi đã từng nhìn thấy nó. Mặt khác, chúng tôi trình bày tài liệu theo cách đó khi giảng dạy các khóa học giới thiệu, bởi vì nó cung cấp một tiến trình hợp lý: Bạn bắt đầu với một tình huống đơn giản chỉ có một nhóm và bạn biết phương sai, sau đó tiến tới nơi bạn không biết phương sai, sau đó tiến tới nơi có hai nhóm (nhưng có phương sai bằng nhau), v.v.

Để giải quyết một điểm hơi khác, bạn hỏi tại sao chúng ta sẽ bận tâm với kiểm tra giả thuyết nếu chúng ta biết phương sai, do đó chúng ta cũng phải biết giá trị trung bình. Phần sau là hợp lý, nhưng phần thứ nhất là một sự hiểu lầm: Ý nghĩa mà chúng ta sẽ biết sẽ là giá trị trung bình theo giả thuyết null. Đó là những gì chúng tôi đang thử nghiệm. Hãy xem xét ví dụ về điểm số IQ của @ StephanKolassa. Chúng ta biết giá trị trung bình là 100 và độ lệch chuẩn là 15; những gì chúng tôi đang thử nghiệm là nếu nhóm của chúng tôi (giả sử, những người tóc đỏ thuận tay trái, hoặc có lẽ là sinh viên thống kê giới thiệu) khác với điều đó.


2
(+1) Có lẽ nó xuất hiện nhiều hơn khi "lấy mẫu từ dân số" là một cách suy nghĩ về quá trình tạo dữ liệu, chứ không phải là một cái gì đó được thực hiện theo nghĩa đen. Biết độ chính xác của dụng cụ đo chẳng hạn.
Scortchi - Phục hồi Monica

Gung, là một học viên với sự nghiệp hơn 20 năm, vấn đề này xuất hiện trong kinh nghiệm của tôi thường xuyên hơn bạn ngụ ý. Tôi không gợi ý rằng nó xuất hiện "thường xuyên", chỉ là những cuộc tranh luận đã xảy ra. Tuy nhiên, và theo quan điểm của bạn về Chỉ số 101, nhiều lần hơn cả các cuộc thảo luận không phải là những cuộc thảo luận đỏ giải quyết ít hoặc không có gì liên quan đến các chi tiết của một nghiên cứu hoặc dự án - ai đó chỉ muốn tạo ra sự xuất hiện của trí thông minh khi đặt câu hỏi.
Mike Hunter

1
@DJohnson, tôi cho rằng nó phụ thuộc vào các chủ đề bạn làm việc.
gung - Phục hồi Monica

4

Thông thường chúng ta không biết phương sai dân số là như vậy - nhưng chúng ta có một ước tính rất đáng tin cậy từ một mẫu khác. Ví dụ, đây là một ví dụ về việc đánh giá xem trọng lượng trung bình của chim cánh cụt đã giảm, trong đó chúng tôi sử dụng giá trị trung bình từ một mẫu nhỏ, nhưng phương sai từ một mẫu độc lập lớn hơn. Tất nhiên, điều này giả định rằng phương sai là giống nhau ở cả hai quần thể.

Một ví dụ khác có thể là thang đo IQ cổ điển. Chúng được chuẩn hóa để có giá trị trung bình là 100 và độ lệch chuẩn là 15, sử dụng các mẫu thực sự lớn. Sau đó, chúng tôi có thể lấy một mẫu cụ thể (giả sử, 50 người tóc đỏ thuận tay trái) và hỏi liệu IQ trung bình của họ có lớn hơn đáng kể 100 hay không, sử dụng 15 ^ 2 làm phương sai "đã biết". Tất nhiên, một lần nữa, điều này đặt ra câu hỏi liệu phương sai có thực sự bằng nhau giữa hai mẫu hay không - sau tất cả, chúng tôi đã kiểm tra xem phương tiện có khác nhau không, vậy tại sao phương sai phải bằng nhau?

Điểm mấu chốt: mối quan tâm của bạn là hợp lệ và thường các bài kiểm tra với những khoảnh khắc đã biết chỉ phục vụ mục đích giáo huấn. Trong các khóa học thống kê, họ thường được theo dõi ngay lập tức bằng các bài kiểm tra sử dụng các khoảnh khắc ước tính .


2

Cách duy nhất để biết phương sai dân số là đo toàn bộ dân số.

Tuy nhiên, đo lường toàn bộ dân số thường không khả thi; nó đòi hỏi các nguồn lực bao gồm tiền, công cụ, nhân sự và quyền truy cập. Vì lý do này, chúng tôi lấy mẫu quần thể; đó là đo một tập hợp con của dân số. Quá trình lấy mẫu phải được thiết kế cẩn thận và với mục tiêu tạo ra một quần thể mẫu đại diện cho dân số; đưa ra hai cân nhắc chính - cỡ mẫu và kỹ thuật lấy mẫu.

Ví dụ về đồ chơi: Bạn muốn ước tính phương sai về cân nặng cho dân số trưởng thành của Thụy Điển. Có khoảng 9,5 triệu người Thụy Điển nên không có khả năng bạn có thể ra ngoài và đo lường tất cả. Do đó, bạn cần phải đo dân số mẫu từ đó bạn có thể ước tính mức chênh lệch trong dân số thực sự.

Bạn đi ra ngoài để lấy mẫu dân số Thụy Điển. Để làm điều này, bạn đi và đứng ở trung tâm thành phố Stockholm, và tình cờ đứng ngay bên ngoài chuỗi cửa hàng burger hư cấu nổi tiếng của Thụy Điển Burger Kungen . Trên thực tế, trời mưa và lạnh (chắc là mùa hè) nên bạn đứng trong nhà hàng. Ở đây bạn nặng bốn người.

Cơ hội là, mẫu của bạn sẽ không phản ánh dân số của Thụy Điển rất tốt. Những gì bạn có là một mẫu người ở Stockholm, đang ở trong một nhà hàng burger. Đây là một kỹ thuật lấy mẫu kém vì có khả năng sai lệch kết quả bằng cách không đưa ra một đại diện công bằng về dân số mà bạn đang cố gắng ước tính. Hơn nữa, bạn có một cỡ mẫu nhỏ, vì vậy bạn có nguy cơ cao chọn bốn người nằm trong thái cực của dân số; hoặc rất nhẹ hoặc rất nặng. Nếu bạn đã lấy mẫu 1000 người, bạn sẽ ít có khả năng gây ra sai lệch lấy mẫu; Rất ít khả năng chọn 1000 người khác thường so với chọn bốn người khác thường. Một cỡ mẫu lớn hơn ít nhất sẽ cho bạn một ước tính chính xác hơn về trung bình và phương sai về trọng lượng giữa các khách hàng của Burger Kungen.

nhập mô tả hình ảnh ở đây

Biểu đồ minh họa hiệu quả của kỹ thuật lấy mẫu, phân phối màu xám có thể đại diện cho dân số Thụy Điển không ăn tại Burger Kungen (nghĩa là 85 kg), trong khi màu đỏ có thể đại diện cho dân số của khách hàng của Burger Kungen (nghĩa là 100 kg) và dấu gạch ngang màu xanh có thể là bốn người bạn lấy mẫu. Kỹ thuật lấy mẫu chính xác sẽ cần phải cân nhắc dân số một cách công bằng, và trong trường hợp này ~ 75% dân số, do đó 75% các mẫu được đo, không nên là khách hàng của Burger Kungen.

Đây là một vấn đề lớn với rất nhiều cuộc khảo sát. Ví dụ, những người có khả năng trả lời các cuộc khảo sát về sự hài lòng của khách hàng, hoặc các cuộc thăm dò ý kiến ​​trong các cuộc bầu cử, có xu hướng được đại diện không tương xứng bởi những người có quan điểm cực đoan; những người có ý kiến ​​ít mạnh mẽ có xu hướng dè dặt hơn trong việc thể hiện chúng.

Ví dụ, điểm kiểm tra giả thuyết là ( không phải luôn luôn ) để kiểm tra xem hai quần thể có khác nhau không. Ví dụ: Khách hàng của Burger Kungen có cân nặng hơn người Thụy Điển không ăn tại Burger Kungen không? Khả năng kiểm tra chính xác điều này phụ thuộc vào kỹ thuật lấy mẫu thích hợp và kích thước mẫu đủ.


Mã R để kiểm tra làm cho tất cả điều này xảy ra:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

Các kết quả:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

Vâng, điều đó đúng, nhưng trong những trường hợp đó cũng có tỷ lệ theo một giá trị trung bình cố định, vì vậy nó không mang lại một tình huống trong đó có một phương sai chưa biết và phương sai đã biết. Ngoài ra, tỷ lệ được thực hiện sau khi tất cả các giá trị được biết đến.
Ben - Tái lập Monica

1

Ví dụ thực tế duy nhất tôi có thể nghĩ đến khi giá trị trung bình chưa biết nhưng phương sai được biết là khi có sự lấy mẫu ngẫu nhiên các điểm trên một siêu cầu (ở bất kỳ chiều nào) với bán kính cố định và tâm không xác định. Vấn đề này có một giá trị trung bình không xác định (tâm của hình cầu) nhưng phương sai cố định (bán kính bình phương của hình cầu). Tôi không biết về bất kỳ ví dụ thực tế nào khác, nơi có một phương sai không xác định nhưng được biết đến. (Và rõ ràng: chỉ có ước tính phương sai bên ngoài từ dữ liệu khác không phải là ví dụ về phương sai đã biết. Ngoài ra, nếu bạn có ước tính phương sai này từ dữ liệu khác, tại sao bạn cũng không có ước tính trung bình tương ứng từ đó dữ liệu?)

Theo quan điểm của tôi, các khóa học thống kê giới thiệu dạy các bài kiểm tra với một phương sai chưa biết và phương sai đã biết là một lỗi thời, và chúng bị hiểu nhầm là một công cụ giảng dạy hiện đại. Về mặt sư phạm, tốt hơn hết là bắt đầu trực tiếp với thử nghiệm T đối với trường hợp trung bình và phương sai không xác định, và coi thử nghiệm z là một xấp xỉ tiệm cận với giá trị này khi độ tự do lớn (hoặc không thậm chí bận tâm để dạy các bài kiểm tra z ở tất cả). Số lượng các tình huống sẽ có một phương sai đã biết nhưng có nghĩa là không rõ ràng là nhỏ, và nói chung là gây hiểu lầm cho sinh viên để giới thiệu trường hợp này (cực kỳ hiếm).


0

Đôi khi trong các vấn đề được áp dụng, có những lý do được đưa ra bởi vật lý, kinh tế, vv cho chúng ta biết về phương sai và không có sự không chắc chắn. Những lần khác, dân số có thể là hữu hạn và chúng ta có thể tình cờ biết một số điều về mọi người, nhưng cần phải lấy mẫu và thực hiện thống kê để tìm hiểu phần còn lại.

Nói chung, mối quan tâm của bạn là khá hợp lệ.


5
Tôi có một thời gian khó khăn để hình dung một ví dụ từ vật lý hoặc kinh tế nơi chúng ta sẽ biết phương sai, nhưng không phải là trung bình. Tương tự cho các phân phối rời rạc. Bạn có thể đưa ra một ví dụ cụ thể hoặc hai?
Stephan Kolassa

@StephanKolassa Tôi tin rằng các phép đo thực nghiệm vật lý sẽ là một ví dụ - chúng ta có thể có một quy trình hoặc thiết bị đo có phương sai (lỗi đo lường) nổi tiếng, vì vậy khi đo một sự kiện cụ thể thì bạn có thể cho rằng phương sai là như nhau nhưng bạn chỉ có thể ước tính trung bình thực sự.
Peteris

2
@Peteris: điều đó có ý nghĩa - nhưng nghe có vẻ giống như trường hợp tôi lưu ý , về phương sai (của công cụ của bạn) đã được ước tính trên các "mẫu hiệu chuẩn" trước đó. Tôi hy vọng một phương sai xuất phát từ lý thuyết không có sự không chắc chắn (!) Sẽ là một điều khác biệt.
Stephan Kolassa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.