Khoảng tin cậy cho một đa thức

8

Tôi có một biến ngẫu nhiên lấy các giá trị trong các số nguyên không âm , gọi xác suất cho mỗi kết quả . Tôi có thể lấy mẫu từ phân phối của một cách độc lập và rẻ tiền; Tôi hiện có kích thước mẫu là . Dường như , với sự phân rã theo cấp số nhân. $Z$ $\{ 0,1,2,\dots \}$ $z_k:=P[Z=k]$ $Z$ $2^{28}$ $z_0\approx 0.24, z_1\approx 0.18,\dots$

Tôi có một chuỗi các dạng bậc hai với các hệ số dương:

$Q_0(z_0) = \frac14 z_0^2$
$Q_1(z_0,z_1) = \frac 12 {z_0 z_1}$
...
$Q_7(z_0,z_1,\dots,z_7) = \frac{1}{8} \left(2 z_0 z_1+3 z_2 z_1+4 z_4 z_1+4 z_6 z_1+3 z_0 z_3 + \right.$ $\qquad\qquad\qquad\qquad\qquad\qquad \left. +4 z_2 z_3+4 z_3 z_4+4 z_0 z_5+4 z_2 z_5+4 z_0 z_7\right)$
...

Những gì tôi muốn có là khoảng tin cậy cho các nhỏ hơn , nhưng tôi sẽ lấy bất cứ thứ gì tôi có thể nhận được. $Q_i$ $10^{-4}$

Tôi có giới hạn nghiêm ngặt trên , và kể từ khi hệ số của 's đều là tích cực, nó là đơn giản để biến những thành giới hạn nghiêm ngặt cho ' s. Nhưng tôi không biết làm thế nào để làm điều này một cách chính xác với khoảng tin cậy. $z_i$ $Q$ $Q$

Chuyện này là sao? Tôi đã tìm thấy một hiện tượng kỳ lạ trong lý thuyết số và tôi biết làm thế nào để chứng minh rằng nó thực sự xảy ra, nhưng thực sự làm như vậy sẽ đòi hỏi một số nỗ lực lập trình từ phía tôi và một lượng thời gian đáng kể trên cụm địa phương của chúng tôi. Trước khi tôi đầu tư thời gian đó và làm tắc nghẽn máy của chúng tôi, tôi muốn chắc chắn hơn tôi rằng hiện tượng này là có thật.

Tôi muốn định lượng tính hợp lý của khiếu nại của mình rằng và . Ước tính của tôi chỉ ra rằng là khoảng , đó là lý do tại sao tôi muốn các TCTD ở độ phân giải đó. $Q_7<Q_6$ $Q_7<Q_8$ $Q_6-Q_7$ $5\cdot 10^{-4}$

Sửa một số nguyên lớn và đặt là tập con được chọn thống nhất của (nghĩa là, mỗi tập hợp con cụ thể có xác suất được chọn). Đặt là xác suất mà chính xác của các số từ không thể được viết dưới dạng tổng của hai phần tử của ; hãy để . Đó là một chút khó khăn để chứng minh, nhưng những giới hạn đó tồn tại và . Bây giờ không có gì ngạc nhiên khi nhỏ và khi tăng $n$ $A$ $\{1,2,\dots,n\}$ $2^{-n}$ $Q_k(n)$ $k$ $\{2,3,\dots,2n\}$ $A$ $Q_k = \lim_n Q_k(n)$ $\sum_{k} Q_k =1$ $Q_0$ $k$ $Q_k$ tăng, có đỉnh và sau đó phân rã theo cấp số nhân. Phần kỳ lạ là có sự thiên vị so với 7. Nghĩa là, thực nghiệm và . Đó là, điều không ngạc nhiên thực sự không đúng: phân phối là lưỡng kim. $Q_7< Q_6$ $Q_7<Q_8$

Tôi có thể diễn đạt các (sử dụng một số lý thuyết) như trên mà không giới hạn về mặt phân phối khác này, được xác định bởi các . Điều đó rất hữu ích vì tôi có một cách để ràng buộc chặt chẽ việc sử dụng , như tôi đã đề cập ở trên, một số tính toán lớn. Ngoài ra, tôi có một bộ dữ liệu rất lớn cho biến $Q_i$ $z_i$ $z_i$ $Z$

confidence-interval

— Kevin O'Bryant
nguồn

Sự không thoải mái của bạn với ngôn ngữ của khoảng tin cậy, nhưng nếu trình bày nghiêm ngặt, cho thấy bạn có thể ở một vị trí tốt để cung cấp cho chúng tôi thêm một chút thông tin để giúp bạn. Thông thường, bạn có thể chỉ định một trong hai thuộc tính của CI: phạm vi bảo hiểm hoặc độ dài của nó. Cái khác sẽ được xác định bởi dữ liệu. Tuy nhiên, thật bất thường khi quy định độ dài: bạn có chắc đây là thứ bạn muốn không? Ngoài ra, không rõ bạn cần các TCTD riêng biệt hay đồng thời. Có lẽ bạn có thể chỉ ra những gì bạn định sử dụng những CI này cho?

— whuber

3

Trong câu trả lời của tôi, tôi cung cấp nhiều liên kết đến tài liệu nền để tiết kiệm không gian ở đây. Tôi sẽ viết câu trả lời của tôi lấy thông tin trong các liên kết như được đưa ra.

Tôi nghĩ rằng một cách tiếp cận Bayes là phù hợp tự nhiên cho vấn đề này, đặc biệt là khi bạn tìm cách thuyết phục chỉ mình mình. Sẽ hơi phức tạp khi sử dụng các khoảng tin cậy để trả lời câu hỏi mà bạn thực sự quan tâm, để dí dỏm, nó hợp lý đến mức nào mà và đưa ra mẫu từ phân phối? Phương pháp Bayes cho phép bạn giải quyết câu hỏi này trực tiếp. $Q_{7}<Q_{6}$ $Q_{7}<Q_{8}$ $z_{i}$

Chức năng khả năng

Đặt là tần số quan sát của kết quả số nguyên trong mẫu của bạn và gọi là cỡ mẫu. Hàm khả năng tỷ lệ thuận với phân phối đa cực . Nó có hình thức $f_k$ $k$ $N$

$L(z_{0},...z_{8};f_{0},...f_{8})=\prod_{i=0}^{8}{z_{i}}^{Nf_{i}}$ .

Phân phối trước

Các phân phối Dirichlet là sự lựa chọn tự nhiên cho việc phân phối trước bởi vì nó là liên hợp trước cho khả năng đa thức. Nó có hình thức

$p(z_{0},...z_{8};\alpha_{0},...,\alpha_{8})\propto\prod_{i=0}^{8}{z_{i}}^{\alpha_{i}-1}$

Ưu tiên này có chín siêu đường kính (các giá trị ) và chúng hơi khó xử lý. Trong bối cảnh sắp xếp mẫu lớn này, một lựa chọn hợp lý của các giá trị siêu tham số sẽ có ảnh hưởng không đáng kể đến kết quả, tuy nhiên, tôi nghĩ rằng nó đáng để dành một chút nỗ lực để chọn các giá trị hợp lý. $\alpha_i$

Đây là cách tôi khuyên bạn nên thiết lập các siêu đường kính. Đầu tiên, lưu ý rằng theo phân phối này . Tiếp theo, lưu ý rằng phân phối entropy tối đa đơn giản nhất so với tự nhiên là phân phối hình học . Vì vậy, thiết lập $\mathrm{E}(z_{i})=\frac{\alpha_{i}}{\sum_{i=0}^{8}\alpha_{i}}$

$\alpha_{i+1}=r\alpha_{i}=r^{i}\alpha_{0},\,0<r<1,$

$\alpha_{0}=A\left(\frac{1-r}{1-r^{9}}\right).$

Sau đó , do đó, phân phối của các giá trị được tập trung vào phân phối hình học (cắt ngắn). Hơn nữa, , vì vậy giá trị của kiểm soát sự phân tán xung quanh kỳ vọng này nhưng không ảnh hưởng đến kỳ vọng chinh no. $\mathrm{E}(z_{i})=r^{i}\left(\frac{1-r}{1-r^{9}}\right)$ $z_{i}$ $\mathrm{Var}\left(z_{i}\right)\propto\frac{1}{(A+1)}$ $A$

Đặc điểm kỹ thuật này làm giảm số lượng siêu tham số từ chín giá trị để chỉ và . Tôi sẽ trì hoãn việc thảo luận về các giá trị cụ thể của và cho bây giờ. $\alpha_{i}$ $r$ $A$ $r$ $A$

Xác suất sau của đề xuất quan tâm

Phân phối sau của các giá trị là phân phối Dirichlet sau: $z_{i}$

$p(z_{0},...z_{8}|f_{0},...,f_{8})\propto\prod_{i=0}^{8}{z_{i}}^{\alpha_{i}+Nf_{i}-1}.$

Đặt . Xác suất sau bạn quan tâm là $\mathbb{Y}=\left\{ z_{0},...z_{8}|Q_7<Q_6 \text{ and } Q_7<Q_8\right\}$

$\Pr(Q_7<Q_6 \text{ and } Q_7<Q_8|f_0,...,f_8) \propto \int_{\mathbb{Y}}\prod_{i=0}^{8}{z_{i}}^{\alpha_{i}+Nf_i-1}dz_{i}.$

Tích phân này là hấp dẫn, nhưng bạn có thể tính xác suất quan tâm bằng số bằng thuật toán Monte Carlo sau đây.

Đối với từ đến , $j$ $1$ $J$

Lấy mẫu một tập hợp các giá trị từ phân phối sau của chúng. $z_i$
Sử dụng các giá trị được lấy mẫu để tính trong đó là hàm chỉ báo. $y_j=I(Q_{7}<Q_{6})I(Q_{7}<Q_{8})$ $I(\cdot)$

Sau đó . $\Pr(Q_7<Q_6 \text{ and }Q_7<Q_8|f_{0},...,f_{8})\approx \frac{\sum_{j=0}^Jy_j}{J}$

Độ chính xác của phép tính gần đúng Monte Carlo là : sẽ giúp bạn có ít nhất hai vị trí thập phân chính xác 19 lần trong số 20, sẽ giúp bạn có ít nhất ba vị trí thập phân độ chính xác 19 lần trong số 20, v.v. $\sqrt{J}$ $J=10^4$ $J=10^6$

Và nếu xác suất quan tâm sau của bạn không gần bằng 0 hoặc 1, chỉ cần lấy thêm dữ liệu, rửa và lặp lại.

Siêu âm trước, phần hai

Số mũ của trong biểu thức cho mật độ sau là $z_i$

$\alpha_i + Nf_i - 1 = Ar^{i}\left(\frac{1-r}{1-r^{9}}\right) +Nf_i - 1 = A\mathrm{E}(z_i) +Nf_i - 1$

Có thể thấy rằng siêu tham số đóng vai trò tương tự trong phân phối trước vì có khả năng - đó là một loại "cỡ mẫu trước". Để đảm bảo rằng ưu tiên có ảnh hưởng không đáng kể đến kết luận, chỉ cần chọn giá trị của sao cho ; ví dụ: . $A$ $N$ $A$ $A\ll N$ $A = 1$

Để đặt , lưu ý rằng bạn có thể tính xác suất trước của mệnh đề bằng cách sử dụng cùng một thuật toán Monte Carlo được mô tả ở trên nhưng với phân phối trước thay cho phân phối sau trong bước 1 của vòng. Cố gắng tìm giá trị cho xác suất trước là 0,5 (hoặc thấp hơn, nếu bạn cảm thấy điều đó hợp lý hơn). $r$ $Q_7<Q_6 \text{ and } Q_7<Q_8$ $r$

— Lục lam
nguồn

Không, tôi chỉ bỏ qua một số kỹ thuật. Một phân tích đầy đủ hơn về mặt kỹ thuật sẽ bắt đầu với quy trình Dirichlet và sau đó cho thấy kết quả của việc loại bỏ các tập hợp không liên quan vô hạn là phân phối Dirichlet tôi đưa ra ở trên.

z_{i}

$z_i$

— Cyan

1

Tôi đoán z_k không phải là xác suất mà là tần số mẫu. Điều này là do, nếu không, Q_i (z_0, ..., z_i) không phải là một biến ngẫu nhiên. Trong trường hợp đó, tính toán phương sai của Q_i's là đại số đơn giản. Xác định, đầu tiên, các chỉ số sự kiện Z_i là 1 nếu Z == i, 0 nếu không. Đó là biến ngẫu nhiên Bernoulli với xác suất p_i. Bạn có thể tính toán khoảnh khắc thứ nhất và thứ hai của bất kỳ biến nào trong số các biến này và chúng sẽ cung cấp cho bạn tất cả các thuật ngữ cần thiết để tính toán phương sai của Q_i's.

— Adam
nguồn

Không, là hằng số tự nhiên và do đó, cũng vậy. Đó là một số thực, nhưng câu hỏi là có số thực. Việc lấy mẫu của tôi cho phép tôi ước tính và nếu tôi cắm chúng vào công thức liên kết với , tôi sẽ có được ước tính cho (khoảng ). Nhưng tôi không hiểu ước tính đó tốt như thế nào. Nếu tôi lấy 99% cho mỗi và cắm chúng vào, tôi nhận được một khoảng, nhưng mức độ tin cậy là gì? Tôi cũng không nghĩ rằng các TCTD cho là độc lập.

z_{i}

$z_i$

Q_{7}

$Q_7$

{\hat{z}}_{i}

$\hat{z}_i$

Q_{7}

$Q_7$

z_{i}

$z_i$

Q_{7}

$Q_7$

0.07

$0.07$

z_{i}

$z_i$

z_{i}

$z_i$

— Kevin O'Bryant

Thiếu tính độc lập không phải là vấn đề đáng lo ngại ở đây, Kevin (bạn có thể chứng minh điều này bằng cách phân tích sự phân phối thực sự - đa quốc gia của nếu bạn muốn).

{\hat{z}}_{i}

$\hat{z}_i$

— whuber

Vì bạn đã có thể tính toán ước tính cho từ dữ liệu của mình, vậy còn việc sử dụng một số kỹ thuật lấy mẫu lại như bootstrap để tìm CI cho thì sao? vi.wikipedia.org/wiki/Bootstrapping_(statistic)

Q_{7}

$Q_7$

Q_{7}

$Q_7$

— Zen

@Zen: Tôi đã nghe nói về bootstrapping, nhưng chưa bao giờ nghĩ nó sẽ là điều gì đó xảy ra với tôi. Nghiêm túc mà nói, tôi đang cố gắng để làm cho nó hoạt động, nhưng tốn thời gian để lấy mẫu lại 1000 lần (mỗi lần lấy mẫu lại có điểm). Thậm chí 1000 mẫu có kích thước khiến tôi mất 2 giờ.

2^{28}

$2^{28}$

2^{16}

$2^{16}$

— Kevin O'Bryant

1

Kevin, xin hãy cẩn thận vì tôi sẽ phải thay đổi ký hiệu của bạn một chút: của bạn không phải là của tôi . $z_i$ $z_i$

Tôi nghĩ rằng giải pháp Bayes sau đây đáng để thử. Nấu một tham số ngẫu nhiên và để là iid có điều kiện, được đưa ra , với . Sử dụng ký hiệu . Bạn đã có mẫu của , với . Xác định các biến ngẫu nhiên đối với (nếu điều này không rõ ràng, hãy xem ). Bây giờ, trong công thức này các hình thức bậc hai của bạn $\Lambda>0$ $Z_1,\dots,Z_n$ $\Lambda=\lambda$ $Z_i\mid\Lambda = \lambda \sim \textrm{Poisson}(\lambda)$ $Z=(Z_1,\dots,Z_n)$ $z=(z_1,\dots,z_n)$ $Z_i$ $n=2^{28}$

Θ_{i} = P {Z_{i} = k ∣ Λ} = \frac{e^{- Λ} Λ^{k}}{k!},

$\Theta_i = P\{Z_i=k\mid \Lambda\} = \frac{e^{-\Lambda}\Lambda^k }{k!} \, ,$

i \geq 0

$i\geq 0$

Q_{i} = Q_{i} (Θ_{0}, \dots, Θ_{i}) = Q_{i} (Λ)

$Q_i=Q_i(\Theta_0,\dots,\Theta_i) = Q_i(\Lambda)$ là các chức năng của . Vì vậy, các là ngẫu nhiên và bạn muốn xác định xác suất sau Với trước , sử dụng Định lý Bayes, chúng ta có Bạn tính toán tạo iid từ bản phân phối cũ (sử dụng R !) Và tính toán

Λ

$\Lambda$

Q_{i}

$Q_i$

P {Q_{7} < Q_{6} and Q_{7} < Q_{8} ∣ Z = z} . (*)

$P\{Q_7<Q_6 \,\,\,\textrm{and}\,\,\, Q_7<Q_8\mid Z=z\} \, . \qquad (*)$

Λ \sim Gamma (a, b)

$\Lambda\sim\textrm{Gamma}(a,b)$

Λ ∣ Z = z \sim Gamma (a + \sum_{i = 1}^{n} z_{i}, b + n) .

$\Lambda\mid Z=z \sim \, \textrm{Gamma}\left( a + \sum_{i=1}^n z_i, b + n\right) \, .$

(*)

$(*)$

λ_{i}

$\lambda_i$

\frac{1}{N} \sum_{i = 1}^{N} I_{(- \infty, Q_{6} (λ_{i})) \cap (Q_{8} (λ_{i}), \infty)} (Q_{7} (λ_{i})),

$\frac{1}{N} \sum_{i=1}^N I_{(-\infty,Q_6(\lambda_i))\cap(Q_8(\lambda_i),\infty)}(Q_7(\lambda_i)) \, ,$ mà hội tụ, theo luật mạnh của số lượng lớn, gần như gần như chắc chắn. Để có được "có" cho câu hỏi ban đầu của bạn, xác suất sau này phải "đủ lớn". Với một mẫu khổng lồ như vậy ( ), tôi nghĩ có thể chơi với các giá trị của và để làm cho lựa chọn trước của bạn không có nhiều "thông tin".

(*)

$(*)$

n = 2^{28}

$n=2^{28}$

a

$a$

b

$b$

— thiền học
nguồn

Phân phối Poisson có vẻ như là một giả định khá hạn chế, phải không?

— Cyan

Chúng tôi cần một bản phân phối, có hỗ trợ là , giúp tính toán có thể thực hiện được. Hãy xem Kevin có thể tìm thấy gì với mô hình này.

Z_{+}

$\mathbb{Z}_+$

— Zen