Tại sao định nghĩa của một công cụ ước tính nhất quán là như vậy? Điều gì về định nghĩa thay thế của tính nhất quán?

Trích dẫn từ wikipedia:

Trong thống kê, một ước lượng phù hợp hoặc ước lượng tiệm cận phù hợp là một ước lượng-một quy tắc để tính dự toán của một tham số $θ^*$ -having tài sản đó như số lượng các điểm dữ liệu sử dụng tăng vô thời hạn, trình tự kết quả của dự hội tụ trong xác suất để $θ^*$ .

Để thực hiện tuyên bố này let chính xác $\theta^*$ là giá trị của tham số thực sự bạn muốn ước tính và để cho là nguyên tắc để ước lượng tham số này như một chức năng của dữ liệu. Sau đó, định nghĩa về tính nhất quán của một công cụ ước tính có thể được thể hiện theo cách sau: $\hat\theta(S_n)$

lim_{n \to \infty} P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] = 0

$\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0$

Câu hỏi của tôi có vẻ hời hợt ngay từ cái nhìn đầu tiên nhưng đó là: tại sao từ "nhất quán / nhất quán" được sử dụng để mô tả hành vi này của một người ước tính?

Lý do mà tôi quan tâm đến điều này là vì đối với tôi, theo trực giác, từ nhất quán có nghĩa là một cái gì đó khác biệt (hoặc ít nhất nó có vẻ khác với tôi, có lẽ chúng có thể được hiển thị như nhau). Hãy để tôi nói cho bạn biết ý nghĩa của nó bằng một ví dụ. Nói "bạn" luôn "tốt" (đối với một số định nghĩa tốt), thì nhất quán có nghĩa là mỗi khi bạn có cơ hội chứng minh / cho tôi thấy rằng bạn tốt, bạn thực sự chứng minh cho tôi rằng bạn tốt, mọi lúc (hoặc ít nhất là hầu hết thời gian).

Hãy áp dụng trực giác của tôi để xác định tính nhất quán của công cụ ước tính. Đặt "bạn" là chức năng tính toán và để "tốt" có nghĩa là bạn cách ước tính thực sự bao xa (tốt, theo nghĩa chuẩn , tại sao không). Sau đó, một định nghĩa tốt hơn về tính nhất quán sẽ là: $\hat{\theta}$ $\theta^*$ $l_1$

\forall n, \forall S_{n}, P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] < δ

$\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

Mặc dù nó có thể là một định nghĩa ít hữu ích hơn về tính nhất quán, nhưng nó có ý nghĩa hơn đối với tôi theo cách tôi sẽ xác định tính nhất quán, bởi vì đối với bất kỳ tập huấn / mẫu nào bạn ném vào công cụ ước tính của tôi , tôi sẽ có thể thực hiện công việc tốt, tức là tôi sẽ luôn làm tốt Tôi biết rằng việc thực hiện nó cho tất cả n (có lẽ là không thể), nhưng chúng ta có thể sửa định nghĩa này bằng cách nói: $\hat\theta$

\exists n_{0}, \forall n \geq n_{0}, \forall S_{n}, P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] < δ

$\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

tức là với n đủ lớn, công cụ ước tính của chúng tôi sẽ không làm tồi tệ hơn (tức là không quá so với "sự thật") từ ( đang cố gắng nắm bắt trực giác mà bạn cần ít nhất một số ví dụ để tìm hiểu / ước tính bất cứ điều gì và một khi bạn đã đạt được con số đó, công cụ ước tính của bạn sẽ làm tốt hầu hết thời gian nếu nó nhất quán theo cách chúng tôi đang cố gắng xác định nó). $\epsilon$ $\epsilon$ $\theta^*$ $n_0$

Tuy nhiên, định nghĩa trước đây là mạnh mẽ, có lẽ chúng ta có thể cho phép chúng ta có xác suất thấp ở xa đối với hầu hết các tập huấn có kích thước (nghĩa là không yêu cầu điều này cho tất cả , nhưng hơn sự phân phối của hoặc một cái gì đó tương tự). Vì vậy, chúng tôi sẽ có một lỗi cao chỉ rất hiếm khi xảy ra đối với hầu hết các bộ mẫu / huấn luyện mà chúng tôi có. $\theta^*$ $n \geq n_0$ $S_n$ $S_n$

Dù sao, câu hỏi của tôi là, những định nghĩa được đề xuất về "tính nhất quán" này thực sự giống như định nghĩa "chính thức" về tính nhất quán, nhưng sự tương đương có khó để chứng minh? Nếu bạn biết bằng chứng xin vui lòng chia sẻ nó! Hoặc là trực giác của tôi hoàn toàn tắt và có một lý do sâu sắc hơn để chọn tính nhất quán định nghĩa theo cách mà nó thường được định nghĩa là? Tại sao tính nhất quán ("chính thức") được định nghĩa theo cách đó?

Một số suy nghĩ của tôi về một bằng chứng ứng cử viên cho một số loại tương đương, hoặc có thể giống nhau giữa khái niệm về tính nhất quán của tôi và khái niệm về tính nhất quán được chấp nhận có thể làm sáng tỏ định nghĩa về giới hạn trong định nghĩa chính thức về tính nhất quán bằng cách sử dụng định nghĩa của một giới hạn. Tuy nhiên, tôi không chắc chắn 100% làm thế nào để làm điều đó và ngay cả khi tôi đã thử, định nghĩa chính thức về tính nhất quán dường như không tính đến việc nói về tất cả các bộ mẫu / đào tạo tiềm năng. Vì tôi tin rằng chúng tương đương nhau, là định nghĩa chính thức tôi cung cấp chưa đầy đủ (nghĩa là tại sao nó không nói về các tập dữ liệu mà chúng tôi có thể hoặc tất cả các tập dữ liệu khác nhau có thể tạo các tập mẫu của chúng tôi)? $(\epsilon, \delta)-$

Một trong những suy nghĩ cuối cùng của tôi là, bất kỳ định nghĩa nào mà chúng tôi cung cấp cũng phải được viết chính xác cho phân phối xác suất mà chúng ta nói đến, đó là hay là . Tôi nghĩ rằng một ứng viên cũng nên chính xác nếu bất cứ điều gì nó đảm bảo, nếu nó đảm bảo nó sẽ được phân phối cố định hoặc wrt cho tất cả các phân phối có thể cho các bộ đào tạo ... phải không? $P_x$ $P_{S_n}$

machine-learning mathematical-statistics consistency

— Charlie Parker
nguồn

(+1) Tư duy sáng tạo. Cảm ơn bạn đã chia sẻ điều này với chúng tôi. Tôi tin rằng tôi sẽ có thể cung cấp một số suy nghĩ như một câu trả lời ở đây.

— Alecos Papadopoulos

Định nghĩa đầu tiên là ít sử dụng vì nó đòi hỏi tất cả các công cụ ước tính phải có độ chính xác cao. Cái thứ hai không có ý nghĩa gì vì nó cố gắng điều khiển một biến logic duy nhất với nhiều bộ định lượng.

n

$n$

— whuber

Hãy xem xét tuyên bố dự kiến thứ hai của OP, sửa đổi một chút,

\begin{matrix} (1) & \forall θ \in Θ, ϵ > 0, δ > 0, S_{n}, \exists n_{0} (θ, ϵ, δ) : \forall n \geq n_{0}, P_{n} [| \hat{θ} (S_{n}) - θ^{*} | \geq ϵ] < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n, \exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\P_n\big[|{\hat \theta(S_{n}}) - \theta^*|\geq \epsilon \big] < \delta \tag{1}$

Chúng tôi đang kiểm tra giới hạn trong chuỗi số thực $[0,1]$

{P_{n} [| \hat{θ} (S_{n}) - θ^{*} | \geq ϵ]}

$\big\{ P_n\big[|{\hat\theta(S_{n}}) - \theta^*|\geq \epsilon \big]\big\}$

được lập chỉ mục bởi . Nếu chuỗi này có giới hạn là , hãy gọi nó đơn giản là , chúng ta sẽ có điều đó $n$ $n\rightarrow \infty$ $p$

\begin{matrix} (2) & \forall θ \in Θ, ϵ > 0, δ > 0, S_{n}, \exists n_{0} (θ, ϵ, δ) : \forall n \geq n_{0}, | P_{n} [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] - p | < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n,\,\exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\\Big| P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon \big] -p\Big|< \delta \tag{2}$

Vì vậy, nếu chúng ta giả sử (hoặc yêu cầu) , về cơ bản chúng ta giả định (hoặc yêu cầu) rằng giới hạn là tồn tại và bằng 0, . $(1)$ $n\rightarrow \infty$ $p=0$

Vì vậy đọc "giới hạn của vì là ". Đó chính xác là định nghĩa hiện tại về tính nhất quán (và vâng, nó bao gồm "tất cả các mẫu có thể") $(1)$ $P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon\big]$ $n\rightarrow \infty$ $0$

Vì vậy, có vẻ như OP về cơ bản đã đề xuất một biểu thức thay thế cho cùng một thuộc tính và không phải là một thuộc tính khác của công cụ ước tính.

ĐỊA CHỈ (quên phần lịch sử)

Trong cuốn "Những nền tảng của lý thuyết xác suất" (1933), Kolmogorov đã đề cập đến một chú thích rằng (khái niệm về sự hội tụ trong xác suất)

"... là do Bernoulli; cách điều trị hoàn toàn chung của nó đã được giới thiệu bởi EESlutsky".

(năm 1925). Công việc của Slutsky là bằng tiếng Đức - thậm chí có thể là một vấn đề về cách từ tiếng Đức được dịch sang tiếng Anh (hoặc thuật ngữ được sử dụng bởi Bernoulli). Nhưng đừng cố đọc quá nhiều thành một từ.

— Alecos Papadopoulos
nguồn