Tính cỡ mẫu yêu cầu, độ chính xác của ước lượng phương sai?


17

Lý lịch

Tôi có một biến với một phân phối chưa biết.

Tôi có 500 mẫu, nhưng tôi muốn chứng minh độ chính xác mà tôi có thể tính toán phương sai, ví dụ để cho rằng cỡ mẫu là 500 là đủ. Tôi cũng muốn biết kích thước mẫu tối thiểu sẽ được yêu cầu để ước tính phương sai với độ chính xác là .X%

Câu hỏi

Làm thế nào tôi có thể tính toán

  1. độ chính xác của ước tính phương sai của tôi cho cỡ mẫu là ? của ?n=500n=N
  2. Làm cách nào tôi có thể tính được số lượng mẫu tối thiểu cần thiết để ước tính phương sai với độ chính xác là ?X

Thí dụ

Hình 1 ước tính mật độ của tham số dựa trên 500 mẫu.

nhập mô tả hình ảnh ở đây

Hình 2 Dưới đây là một biểu đồ kích thước mẫu trên trục x so với ước tính phương sai trên trục y mà tôi đã tính toán bằng cách sử dụng các mẫu con từ mẫu 500. Ý tưởng là các ước tính sẽ hội tụ đến phương sai thực sự khi n tăng .

Tuy nhiên, các ước tính không độc lập hợp lệ do các mẫu được sử dụng để ước tính phương sai cho không độc lập với nhau hoặc của các mẫu được sử dụng để tính toán phương sai tạin [ 20 , 40 , 80 ]n[10,125,250,500]n[20,40,80]

nhập mô tả hình ảnh ở đây


Chỉ cần lưu ý rằng nếu một thành phần của phân phối chưa biết của bạn là phân phối Cauchy, phương sai không được xác định.
Mike Anderson

@Mike Hoặc thực sự là một số lượng vô hạn của các bản phân phối khác.
Glen_b -Reinstate Monica

Câu trả lời:


10

Đối với iid các biến ngẫu nhiên , công cụ ước lượng không thiên vị cho phương sai (biến có mẫu số ) có phương sai:s 2 n - 1X1,,Xns2n1

Var(s2)=σ4(2n1+κn)

trong đó là sự suy yếu quá mức của phân phối (tham khảo: Wikipedia ). Vì vậy, bây giờ bạn cần phải ước tính kurtosis phân phối của bạn là tốt. Bạn có thể sử dụng số lượng đôi khi được mô tả là (cũng từ Wikipedia ):gamma 2κγ2

γ2=μ4σ43

Tôi sẽ giả sử rằng nếu bạn sử dụng làm ước tính cho và làm ước tính cho , thì bạn sẽ có ước tính hợp lý cho , mặc dù tôi không thấy bảo đảm rằng nó không thiên vị. Xem liệu nó có khớp với phương sai giữa các tập hợp con trong 500 điểm dữ liệu của bạn một cách hợp lý không và liệu nó có còn lo lắng về điều đó nữa không :)σ gamma 2 κ V một r ( s 2 )sσγ2κVar(s2)


Bạn có tài liệu tham khảo trong sách giáo khoa cho công cụ ước lượng không thiên vị không? Tôi không biết đi đâu từ Wikipedia để có thêm ngữ cảnh.
Abe

Tôi không có văn bản tiêu chuẩn Rice với tôi ở đây, vì vậy tôi không thể kiểm tra số trang cho bạn, nhưng tôi chắc chắn rằng nó ở đó. Wikipedia cho thấy nó cũng nên được đề cập trong: Montgomery, DC và Runger, GC: Áp dụng thống kê và xác suất cho các kỹ sư , trang 201. John Wiley & Sons New York, 1994.
Erik P.

Nhờ sự giúp đỡ của bạn với điều này. Câu trả lời này rất hữu ích và nó đã được cung cấp thông tin để định lượng độ không đảm bảo của phương sai - tôi đã áp dụng phương trình khoảng 10 lần trong ngày cuối cùng. tính toán thật dễ dàng với thư viện: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe

bất kỳ cơ hội nào bạn tìm thấy số trang từ văn bản Rice? Tôi không thể tìm thấy nó ở Casella và Berger. Một tài liệu tham khảo chính sẽ còn tốt hơn nếu bạn biết nó. Trang wikipedia đáng chú ý là không tham chiếu.
Abe

Hmmm ... có vẻ như Rice cũng không có công thức. Tôi sẽ để mắt đến nó, nhưng tại thời điểm này tôi không có tài liệu tham khảo nào cả.
Erik P.

15

Học một phương sai là khó.

Phải mất một số lượng lớn (có lẽ đáng ngạc nhiên) số lượng mẫu để ước tính phương sai tốt trong nhiều trường hợp. Dưới đây, tôi sẽ trình bày sự phát triển cho trường hợp "chuẩn" của một mẫu bình thường iid.

Giả sử , i = 1 , ... , n được độc lập N ( μ , σ 2 ) biến ngẫu nhiên. Chúng tôi tìm kiếm khoảng tin cậy 100 ( 1 - α ) % cho phương sai sao cho độ rộng của khoảng là ρ s 2 , nghĩa là chiều rộng là 100 ρ % ước tính điểm. Ví dụ, nếu ρ = 1 / 2 , sau đó độ rộng của CI là một nửa giá trị của ước lượng điểm, ví dụ như, nếuYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2( 8 ,s2=10 , thì CI sẽ giống như , có chiều rộng bằng 5. Lưu ý sự không đối xứng xung quanh ước tính điểm. ( là công cụ ước tính không thiên vị cho phương sai.)s 2(8,13)s2

Khoảng tin cậy "(đúng hơn," a ") cho là trong đó là định lượng của phân phối chi bình phương với bậc tự do. (Điều này xuất phát từ thực tế là là đại lượng quan trọng trong cài đặt Gaussian.)( n - 1 ) s 2s2Χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
βn-1(n-1)s2/σ2χ(n1)2ββn1(n1)s2/σ2

Chúng tôi muốn thu nhỏ chiều rộng sao cho vì vậy chúng tôi được để lại giải quyết sao cho n ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

Đối với trường hợp khoảng tin cậy 99%, chúng tôi nhận được cho và cho . Trường hợp cuối cùng này mang lại một khoảng ( vẫn! ) 10% lớn hơn ước tính điểm của phương sai.ρ = 1 n = 5321 ρ = 0,1n=65ρ=1n=5321ρ=0.1

Nếu mức độ tin cậy đã chọn của bạn nhỏ hơn 99%, thì khoảng thời gian chiều rộng tương tự sẽ được lấy cho giá trị thấp hơn . Nhưng, vẫn có thể lớn hơn bạn tưởng.nnn

Một biểu đồ có kích thước mẫu so với chiều rộng tỷ lệ cho thấy một cái gì đó trông tuyến tính bất đối xứng trên thang đo log-log; nói cách khác, một mối quan hệ quyền lực - như luật pháp. Chúng ta có thể ước tính sức mạnh của mối quan hệ pháp luật quyền lực này (một cách thô bạo) làρnρ

α^log0.1log1log5321log65=log10log5231650.525,

Thật không may, quyết định chậm!


Đây là loại trường hợp "chính tắc" để cho bạn cảm nhận về cách thực hiện phép tính. Dựa trên lô của bạn, dữ liệu của bạn trông không đặc biệt bình thường; đặc biệt, có những gì có vẻ là sự sai lệch đáng chú ý.

Nhưng, điều này sẽ cung cấp cho bạn một ý tưởng sân bóng về những gì mong đợi. Lưu ý rằng để trả lời câu hỏi thứ hai của bạn ở trên, trước tiên cần sửa một số mức độ tin cậy, mà tôi đã đặt ở mức 99% trong quá trình phát triển ở trên cho mục đích trình diễn.


đây là một câu trả lời rất hay cho câu hỏi của tôi Tuy nhiên, mặc dù tôi làm theo phép tính mà bạn thực hiện cho , nhưng tôi không rõ chính xác nếu đơn vị cho là phần trăm trong giải pháp cho ; điều này có nghĩa là " nhỏ hơn " hay " dưới của ?r h o n = 65 ρ < 1 ρ 1 × s 2 ρ 1 % s 2n|ρrhon=65ρ<1ρ1×s2ρ1%s2
Abe

@Abe, cập nhật và hy vọng được làm rõ trong quá trình. Có một lỗi đánh máy đặc biệt xấu trong phiên bản trước. Xin lỗi vì điều đó.
Đức hồng y

một câu trả lời rất hay, nhưng tôi đã chọn câu trả lời từ @Erik vì nó phù hợp hơn với vấn đề của tôi (vì thông số của tôi không được phân phối bình thường).
Abe

@Abe: Không thành vấn đề. Đó là những gì các dấu hiệu là có. Câu trả lời của tôi là (được) nhằm mục đích minh họa, hơn bất cứ điều gì. Từ những gì tôi có thể nói, nó dường như vẫn là câu hỏi duy nhất giải quyết cả hai câu hỏi của bạn và sẽ (không có triệu chứng) chính xác ngay cả trong kịch bản mà Erik vạch ra. (+1 cho anh ấy tốt hơn một năm trước.) :)
hồng y

Bạn đã đúng và tôi rất vui vì bây giờ tôi đã xem lại câu trả lời của bạn. Tôi đã kết thúc bằng cách sử dụng phép tính chung của @Erik, nhưng bây giờ tôi thấy giá trị trong giải pháp chung. Thêm vào đó, việc trình bày CI chứ không phải SD sẽ giải quyết vấn đề khiến khán giả của tôi bối rối khi nhìn thấy một thống kê dưới dạng , không hiểu phương sai của phương sai là gì. Vì vậy, sẽ làm cho điều này rõ ràng hơn và phù hợp với các tóm tắt thống kê khác. Và nó sẽ hữu ích để hiển thị sự bất cân xứng. s [ l c l , u c l ]s(ss)s[lcl,ucl]
Abe

1

Tôi sẽ tập trung vào SD hơn là phương sai, vì nó ở quy mô dễ hiểu hơn.

Mọi người đôi khi nhìn vào khoảng tin cậy cho SD hoặc phương sai, nhưng trọng tâm thường là về phương tiện.

Các kết quả bạn cung cấp cho phân phối có thể được sử dụng để có được khoảng tin cậy cho (và cả ); hầu hết các văn bản toán học / thống kê giới thiệu sẽ cung cấp các chi tiết trong cùng một phần trong đó phần trích dẫn của đã được đề cập. Tôi sẽ chỉ mất 2,5% từ mỗi đuôi.σ 2 σ σ 2s2/σ2σ2σσ2


(Câu trả lời này đến đây sau khi một câu hỏi trùng lặp, được đóng khung hơi khác, đã được hợp nhất.)
whuber

1

Giải pháp sau đây được Greenwood và Sandomire đưa ra trong bài báo JASA năm 1950.

Đặt là một mẫu ngẫu nhiên từ phân phối . Bạn sẽ suy luận về bằng cách sử dụng công cụ ước tính ( thiên vị ) độ lệch chuẩn mẫu và bạn muốn kiểm soát xác suất độ lệch tương đối giữa và nằm trong một phân số . Đó là, trong đó mức ý nghĩa .X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
Sσ0<u<1
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
γ=1ab

Theo sau đó và Vì số lượng pivotal có phân phối , thêm hai xác suất, chúng tôi tìm thấy

Pr{(n1)S2σ2<(n1)(1u)2}=a
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
(n1)S2/σ2χn12

γ= =Fχ(n-1)2((n-1)(1+bạn)2)-Fχ(n-1)2((n-1)(1-bạn)2),

và kích thước mẫu cần thiết được tìm thấy giải phương trình cũ trong cho và .γ unγbạn

R mã.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Đầu ra cho và .γ = 95 %bạn= =10%γ= =95%

Sample size n = 193
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.