Giới hạn trên theo cấp số nhân

Giả sử chúng ta có IID biến ngẫu nhiên $X_1,\dots,X_n$ với phân phối $\mathrm{Ber}(\theta)$ . Chúng tôi sẽ quan sát một mẫu của $X_i$ là theo cách sau: để cho $Y_1,\dots,Y_n$ được độc lập $\mathrm{Ber}(1/2)$ biến ngẫu nhiên, giả sử rằng tất cả các $X_i$ 's và $Y_i$ là độc lập và xác định kích thước mẫu $N=\sum_{i=1}^n Y_i$ . Các $Y_i$ 's chỉ ra của $X_i$ ' s là trong mẫu, và chúng tôi muốn học phần của thành công trong mẫu được xác định bởi

Z = {\begin{cases} \frac{1}{N} \sum_{i = 1}^{n} X_{i} Y_{i} & if N > 0, \\ 0 & if N = 0 . \end{cases}

$Z = \begin{cases} \frac{1}{N}\sum_{i=1}^n X_i Y_i & \text{if}\quad N > 0\, , \\ 0 & \text{if} \quad N = 0 \, . \end{cases}$ Đối với

ϵ > 0

$\epsilon>0$ , chúng tôi muốn tìm một trên ràng buộc cho

P r (Z \geq θ + ϵ)

$\mathrm{Pr}\!\left(Z \geq \theta + \epsilon\right)$ phân rã theo hàm mũ với

n

$n$ . Bất đẳng thức của Hoeffding không áp dụng ngay lập tức vì sự phụ thuộc giữa các biến.

probability-inequalities

— thiền học
nguồn

Đặt

Z_{i} = \frac{_{1}}{^{N}} X_{i} Y_{i}

$Z_i = \frac{_1}{^N} X_iY_i$ . (i) Không phải

Z_{i}

$Z_i$ độc lập với

Z_{j \neq i}

$Z_{j\neq i}$ sao? (ii) không phải là

Z = \sum Z_{i}

$Z=\sum Z_i$ ? ... Kết quả là, tôi không rõ ràng rằng

Z

$Z$ không phải là 'tổng của các biến ngẫu nhiên độc lập'

— Glen_b -Reinstate Monica

Ah, điểm tốt. Tôi đã suy nghĩ về

n

$n$ , chứ không phải là

N

$N$ . Nhưng thay vào đó, bạn không thể viết

Z_{i} = \frac{1}{n} X_{i} Y_{i}

$Z_i = \frac{1}{n}X_iY_i$ và để

Z = \sum_{i = 1}^{n} Z_{i}

$Z=\sum_{i=1}^n Z_i$ ? Đó là, tổng hợp trên tất cả các trường hợp, cho dù

Y

$Y$ là 1 hay 0. ... không, điều đó không hoạt động. Tử số giống nhau nhưng mẫu số thì khác.

— Glen_b -Reinstate Monica

Điều đó mang lại ít hơn phần của thành công trong mẫu, mà là số lượng quan tâm trong vấn đề này, bởi vì

(1 / n) \sum_{i = 1}^{n} X_{i} Y_{i} \leq (1 / N) \sum_{i = 1}^{n} X_{i} Y_{i}

$(1/n)\sum_{i=1}^n X_i Y_i\leq (1/N)\sum_{i=1}^n X_i Y_i$ , vì

N \leq n

$N\leq n$ .

— Zen

Vâng, đó là lý do tại sao tôi kết thúc với "không, nó không hoạt động". Có những bất đẳng thức áp dụng cho trường hợp không độc lập, chẳng hạn như một số bất đẳng thức của Bernstein (xem mục thứ tư), và có một số bất đẳng thức áp dụng cho martingales (mặc dù tôi không biết rằng những điều đó sẽ áp dụng ở đây).

— Glen_b -Reinstate Monica

Tôi sẽ xem xét, và cũng cố gắng tìm mối liên hệ với kết quả martingales. Các ràng buộc đối với

U = (1 / n) \sum_{i = 1}^{n} X_{i} Y_{i}

$U=(1/n)\sum_{i=1}^nX_i Y _i$ là dễ dàng như vậy (

P r (U \geq θ / 2 + ϵ) \leq \exp (- 2 n ϵ^{2})

$\mathrm{Pr}(U\geq \theta/2+\epsilon)\leq \exp(-2n\epsilon^2)$ ) mà nó hấp dẫn để kết nối này với

Z

$Z$ sử dụng một số loại điều hòa.

— Zen

Câu trả lời:

Chúng ta có thể rút ra mối liên hệ với sự bất bình đẳng của Hoeffding theo cách khá trực tiếp .

Lưu ý rằng chúng tôi có

{Z > θ + ϵ} = {\sum_{i} X_{i} Y_{i} > (θ + ϵ) \sum_{i} Y_{i}} = {\sum_{i} (X_{i} - θ - ϵ) Y_{i} > 0} .

$\{ Z > \theta + \epsilon\} = \big\{\sum_i X_i Y_i > (\theta + \epsilon)\sum_i Y_i \big\} = \big\{ \sum_i (X_i - \theta - \epsilon) Y_i > 0 \} \>.$

Set do đó đang IID, và $Z_i = (X_i - \theta - \epsilon)Y_i + \epsilon/2$ $Z_i$ $\mathbb E Z_i = 0$ Bởi một ứng dụng đơn giản củabất đẳng thức hoeffding(kể từ và do đó có giá trị trong một khoảng thời gian của kích thước một).

P (Z > θ + ϵ) = P (\sum_{i} Z_{i} > n ϵ / 2) \leq e^{- n ϵ^{2} / 2},

$\mathbb P( Z > \theta + \epsilon ) = \mathbb P\big(\sum_i Z_i > n \epsilon/2\big) \leq e^{-n \epsilon^2/2}\>,$

Z_{i} \in [- θ - ϵ / 2, 1 - θ - ϵ / 2]

$Z_i \in [-\theta-\epsilon/2,1-\theta-\epsilon/2]$

Có một tài liệu liên quan phong phú và hấp dẫn đã được xây dựng trong nhiều năm qua, đặc biệt, về các chủ đề liên quan đến lý thuyết ma trận ngẫu nhiên với các ứng dụng thực tế khác nhau. Nếu bạn quan tâm đến loại điều này, tôi khuyên bạn nên:

R. Vershynin, Giới thiệu về phân tích không tiệm cận của ma trận ngẫu nhiên , Chương 5 của Cảm biến nén, Lý thuyết và Ứng dụng. Do Y. Eldar và G. Kutyniok biên soạn. Nhà xuất bản Đại học Cambridge, 2012.

Tôi nghĩ rằng giải trình là rõ ràng và cung cấp một cách rất hay để nhanh chóng thích nghi với văn học.

— hồng y
nguồn

Kể từ khi

bao gồm

trong định nghĩa của họ, tôi có ấn tượng rằng

(các ràng buộc không thay đổi).

Z_{i}

$Z_i$

ϵ / 2

$\epsilon/2$

Z_{i} \in [- θ - ϵ / 2, 1 - θ - ϵ / 2]

$Z_i \in [-\theta-\epsilon/2,1-\theta-\epsilon/2]$

— Alecos Papadopoulos

Kính gửi @Zen: Lưu ý rằng việc hạch toán cẩn thận trường hợp

sẽ cho phép bạn thay thế bất đẳng thức nghiêm ngặt

bằng

ở mọi nơi mà không thay đổi ràng buộc cuối cùng.

N = 0

$N=0$

>

$>$

\geq

$\geq$

— Đức hồng y

Thưa @cardinal: Tôi đã reworded câu hỏi vì thực sự

là một (hơi) thiên vị ước lượng của

, vì

Z

$Z$

θ

$\theta$

E [Z] = E [I_{{N = 0}} Z] + E [I_{{N > 0}} Z] = (1 - 1 / 2^{n}) θ

$\mathrm{E}[Z]=\mathrm{E}[I_{\{N=0\}}Z]+\mathrm{E}[I_{\{N>0\}}Z] = (1-1/2^n)\,\theta$

— Zen

Details to take care of the $N=0$ case.

\begin{aligned} {Z \geq θ + ϵ} & = ({Z \geq θ + ϵ} \cap {N = 0}) \cup ({Z \geq θ + ϵ} \cap {N > 0}) \\ = ({0 \geq θ + ϵ} \cap {N = 0}) \cup ({Z \geq θ + ϵ} \cap {N > 0}) \\ = (\emptyset \cap {N = 0}) \cup ({Z \geq θ + ϵ} \cap {N > 0}) \\ = {\sum_{i = 1}^{n} X_{i} Y_{i} \geq (θ + ϵ) \sum_{i = 1}^{n} Y_{i}} \cap {N > 0} \\ \subset {\sum_{i = 1}^{n} X_{i} Y_{i} \geq (θ + ϵ) \sum_{i = 1}^{n} Y_{i}} \\ = {\sum_{i = 1}^{n} (X_{i} - θ - ϵ) Y_{i} \geq 0} \\ = {\sum_{i = 1}^{n} ((X_{i} - θ - ϵ) Y_{i} + ϵ / 2) \geq n ϵ / 2} . \end{aligned}

$\begin{align} \{Z\geq\theta+\epsilon\} &= \left(\{Z\geq\theta+\epsilon\} \cap \{N=0\}\right) \cup \left(\{Z\geq\theta+\epsilon\} \cap \{N>0\}\right) \\ &= \left(\{0\geq\theta+\epsilon\} \cap \{N=0\}\right) \cup \left(\{Z\geq\theta+\epsilon\} \cap \{N>0\}\right) \\ &= \left(\emptyset \cap \{N=0\}\right) \cup \left(\{Z\geq\theta+\epsilon\} \cap \{N>0\}\right) \\ &= \left\{\sum_{i=1}^n X_iY_i\geq(\theta+\epsilon)\sum_{i=1}^n Y_i\right\} \cap \{N>0\} \\ &\subset \left\{\sum_{i=1}^n X_iY_i\geq(\theta+\epsilon)\sum_{i=1}^n Y_i\right\} \\ &= \left\{\sum_{i=1}^n (X_i-\theta-\epsilon)Y_i\geq 0\right\} \\ &= \left\{\sum_{i=1}^n \left((X_i-\theta-\epsilon)Y_i+\epsilon/2\right)\geq n\epsilon/2\right\} \, . \end{align}$

For Alecos.

\begin{aligned} E [\sum_{i = 1}^{n} W_{i}] & = E [I_{{\sum_{i = 1}^{n} Y_{i} = 0}} \sum_{i = 1}^{n} W_{i}] + E [I_{{\sum_{i = 1}^{n} Y_{i} > 0}} \sum_{i = 1}^{n} W_{i}] \\ = E [I_{{\sum_{i = 1}^{n} Y_{i} > 0}} \frac{\sum_{i = 1}^{n} Y_{i}}{\sum_{i = 1}^{n} Y_{i}}] = E [I_{{\sum_{i = 1}^{n} Y_{i} > 0}}] = 1 - 1 / 2^{n} . \end{aligned}

$\begin{align} \mathrm{E}\!\left[\sum_{i=1} ^n W_i\right]&=\mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i=0\}}\sum_{i=1} ^n W_i\right] + \mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i>0\}}\sum_{i=1} ^n W_i\right] \\ &=\mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i>0\}}\frac{\sum_{i=1} ^n Y_i}{\sum_{i=1}^n Y_i}\right]=\mathrm{E}\!\left[I_{\{\sum_{i=1}^n Y_i>0\}}\right]=1-1/2^n \, . \end{align}$

— Zen
nguồn

This answer keeps mutating. The current version does not relate to the discussion I had with @cardinal in the comments (although it was through this discussion that I thankfully realized that the conditioning approach did not appear to lead anywhere).

For this attempt, I will use another part of Hoeffding's original 1963 paper, namely section 5 "Sums of Dependent Random Variables".

Set

W_{i} \equiv \frac{Y_{i}}{\sum_{i = 1}^{n} Y_{i}}, \sum_{i = 1}^{n} Y_{i} \neq 0, \sum_{i = 1}^{n} W_{i} = 1, n \geq 2

$W_i \equiv \frac {Y_i}{\sum_{i=1}^nY_i}, \qquad \sum_{i=1}^nY_i \neq 0, \qquad \sum_{i=1}^nW_i=1, \qquad n\geq 2$

while we set $W_i =0$ if $\sum_{i=1}^nY_i = 0$ .

Then we have the variable

Z_{n} = \sum_{i = 1}^{n} W_{i} X_{i}, E (Z_{n}) \equiv μ_{n}

$Z_n= \sum_{i=1}^nW_iX_i, \qquad E(Z_n) \equiv \mu_n$

We are interested in the probability

P r (Z_{n} \geq μ_{n} + ϵ), ϵ < 1 - μ_{n}

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon), \qquad \epsilon < 1-\mu_n$

As for many other inequalities, Hoeffding starts his reasoning by noting that

P r (Z_{n} \geq μ_{n} + ϵ) = E [1_{{Z_{n} - μ_{n} - ϵ \geq 0}}]

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) = E\left[\mathbf 1_{\{Z_n-\mu_n -\epsilon \geq 0\}}\right]$ and that

1_{{Z_{n} - μ_{n} - ϵ \geq 0}} \leq \exp {h (Z_{n} - μ_{n} - ϵ)}, h > 0

$\mathbf 1_{\{Z_n-\mu_n -\epsilon\geq 0\}} \leq \exp\Big\{h(Z_n-\mu_n -\epsilon)\Big\}, \qquad h>0$

For the dependent-variables case, as Hoeffding we use the fact that $\sum_{i=1}^nW_i=1$ and invoke Jensen's inequality for the (convex) exponential function, to write

e^{h Z_{n}} = \exp {h (\sum_{i = 1}^{n} W_{i} X_{i})} \leq \sum_{i = 1}^{n} W_{i} e^{h X_{i}}

$e^{hZ_n} = \exp\left\{h\left(\sum_{i=1}^nW_iX_i\right)\right\} \leq \sum_{i=1}^nW_ie^{hX_i}$

and linking results to arrive at

P r (Z_{n} \geq μ_{n} + ϵ) \leq e^{- h (μ_{n} + ϵ)} E [\sum_{i = 1}^{n} W_{i} e^{h X_{i}}]

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq e^{-h(\mu_n+\epsilon)}E\left[\sum_{i=1}^nW_ie^{hX_i}\right]$

Focusing on our case, since $W_i$ and $X_i$ are independent, expected values can be separated,

P r (Z_{n} \geq μ_{n} + ϵ) \leq e^{- h (μ_{n} + ϵ)} \sum_{i = 1}^{n} E (W_{i}) E (e^{h X_{i}})

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq e^{-h(\mu_n+\epsilon)}\sum_{i=1}^nE(W_i)E\left(e^{hX_i}\right)$

In our case, the $X_i$ are i.i.d Bernoullis with parameter $\theta$ , and $E[e^{hX_i}]$ is their common moment generating function in $h$ , $E[e^{hX_i}] = 1-\theta +\theta e^h$ . So

P r (Z_{n} \geq μ_{n} + ϵ) \leq e^{- h (μ_{n} + ϵ)} (1 - θ + θ e^{h}) \sum_{i = 1}^{n} E (W_{i})

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq e^{-h(\mu_n+\epsilon)}(1-\theta +\theta e^h)\sum_{i=1}^nE(W_i)$

Minimizing the RHS with respect to $h$ , we get

e^{h^{*}} = \frac{(1 - θ) (μ_{n} + ϵ)}{θ (1 - μ_{n} - ϵ)}

$e^{h^*} = \frac {(1-\theta)(\mu_n+\epsilon)}{\theta(1-\mu_n-\epsilon)}$

Plugging it into the inequality and manipulating we obtain

P r (Z_{n} \geq μ_{n} + ϵ) \leq {(\frac{θ}{μ_{n} + ϵ})}^{μ_{n} + ϵ} \cdot {(\frac{1 - θ}{1 - μ_{n} - ϵ})}^{1 - μ_{n} - ϵ} \sum_{i = 1}^{n} E (W_{i})

$\mathrm{Pr}(Z_n\geq \mu_n +\epsilon) \leq \left(\frac {\theta}{\mu_n+\epsilon}\right)^{\mu_n+\epsilon}\cdot \left(\frac {1-\theta}{1-\mu_n-\epsilon}\right)^{1-\mu_n-\epsilon}\sum_{i=1}^nE(W_i)$

while

P r (Z_{n} \geq θ + ϵ) \leq {(\frac{θ}{θ + ϵ})}^{θ + ϵ} \cdot {(\frac{1 - θ}{1 - θ - ϵ})}^{1 - θ - ϵ} \sum_{i = 1}^{n} E (W_{i})

$\mathrm{Pr}(Z_n\geq \theta +\epsilon) \leq \left(\frac {\theta}{\theta+\epsilon}\right)^{\theta+\epsilon}\cdot \left(\frac {1-\theta}{1-\theta-\epsilon}\right)^{1-\theta-\epsilon}\sum_{i=1}^nE(W_i)$

Hoeffding shows that

{(\frac{θ}{θ + ϵ})}^{θ + ϵ} \cdot {(\frac{1 - θ}{1 - θ - ϵ})}^{1 - θ - ϵ} \leq e^{- 2 ϵ^{2}}

$\left(\frac {\theta}{\theta+\epsilon}\right)^{\theta+\epsilon}\cdot \left(\frac {1-\theta}{1-\theta-\epsilon}\right)^{1-\theta-\epsilon} \leq e^{-2\epsilon^2}$

Courtesy of the OP (thanks, I was getting a bit exhausted...)

\sum_{i = 1}^{n} E (W_{i}) = 1 - 1 / 2^{n}

$\sum_{i=1}^n E(W_i) =1-1/2^n$

So, finally, the "dependent variables approach" gives us

P r (Z_{n} \geq θ + ϵ) \leq (1 - \frac{1}{2^{n}}) e^{- 2 ϵ^{2}} \equiv B_{D}

$\mathrm{Pr}(Z_n\geq \theta +\epsilon) \leq (1-\frac 1{2^n})e^{-2\epsilon^2} \equiv B_D$

Let's compare this to Cardinal's bound, that is based on an "independence" transformation, $B_I$ . For our bound to be tighter, we need

B_{D} = (1 - \frac{1}{2^{n}}) e^{- 2 ϵ^{2}} \leq e^{- n ϵ^{2} / 2} = B_{I}

$B_D=(1-\frac 1{2^n})e^{-2\epsilon^2} \leq e^{-n\epsilon^2/2}=B_I$

\Rightarrow \frac{2^{n} - 1}{2^{n}} \leq \exp {(\frac{4 - n}{2}) ϵ^{2}}

$\Rightarrow \frac {2^n-1}{2^n} \leq \exp\left\{\left(\frac {4-n}{2}\right)\epsilon^2\right\}$

So for $n\leq 4$ we have $B_D \leq B_I$ . For $n \geq 5$ , pretty quickly $B_I$ becomes tighter than $B_D$ but for very small $\epsilon$ , while even this small "window" quickly converges to zero. For example, for $n=12$ , if $\epsilon \geq 0.008$ , then $B_I$ is tighter. So in all, Cardinal's bound is more useful.

COMMENT
To avoid misleading impressions regarding Hoeffding's original paper, I have to mention that Hoeffding examines the case of a deterministic convex combination of dependent random variables. Specificaly, his $W_i$ 's are numbers, not random variables, while each $X_i$ is a sum of independent random variables, while the dependency may exist between the $X_i$ 's. He then considers various "U-statistics" that can be represented in this way.

— Alecos Papadopoulos
nguồn

Alecos:

E [W_{1}] = (1 - 1 / 2^{n}) / n

$\mathrm{E}[W_1]=(1-1/2^n)/n$ (take a look at the derivation at the end of my answer). Your bound doesn't decay exponentially with

n

$n$ as cardinal's does.

— Zen

@Zen Indeed (in fact it increases with sample size, although boundedly), that's why Cardinal's bound is more useful for most sample sizes.

— Alecos Papadopoulos