Sự khác biệt giữa một người ước tính và một thống kê là gì?


30

Tôi đã học được rằng một thống kê là một thuộc tính bạn có thể lấy từ các mẫu. Lấy nhiều mẫu có cùng kích thước, tính toán thuộc tính này cho tất cả chúng và vẽ sơ đồ pdf, chúng ta có được phân phối thuộc tính tương ứng hoặc phân phối số liệu thống kê tương ứng.

Tôi cũng nghe nói rằng số liệu thống kê được thực hiện để ước tính, hai khái niệm này khác nhau như thế nào?


2
Cảm ơn tất cả các câu trả lời ... Khái niệm này rõ ràng hơn rất nhiều đối với tôi bây giờ ..
gutto

Câu trả lời:


17

Định nghĩa

Từ Wikipedia:

Một số liệu thống kê [...] là một biện pháp duy nhất của một số thuộc tính của một mẫu (ví dụ, giá trị trung bình cộng của nó).

Công cụ ước tính [A] n là một quy tắc để tính toán ước tính của một lượng nhất định [của phân phối cơ bản] dựa trên dữ liệu được quan sát.

Sự khác biệt quan trọng là:

  • Một thống kê là một chức năng của một mẫu.
  • Công cụ ước tính là một hàm của một mẫu liên quan đến một số lượng phân phối .

(Để biết "Số lượng" nghĩa là gì, xem phần bên dưới.)

Một thống kê không phải là một công cụ ước tính

Một ước tính là một số liệu thống kê với một cái gì đó được thêm vào. Để biến một thống kê thành một công cụ ước tính, bạn chỉ cần đánh vần số lượng mục tiêu bạn muốn ước tính. Điều này thật khó hiểu, bởi vì bạn không thêm bất cứ điều gì "thực" vào thống kê, mà chỉ có một số ý định.

Để thấy rằng sự khác biệt là quan trọng, bạn phải nhận ra rằng bạn không thể tính các thuộc tính của công cụ ước tính (ví dụ: độ lệch , phương sai , v.v.) cho một thống kê đơn thuần. Để tính toán độ lệch , bạn phải tìm sự khác biệt giữa giá trị mà thống kê của bạn mang lại cho bạn và giá trị thực. Chỉ một công cụ ước tính đi kèm với "giá trị thực" cho phép tính toán độ lệch. Thống kê chỉ đơn thuần là một chức năng của dữ liệu và nó không đúng cũng không sai.

Ước tính khác nhau dựa trên cùng một thống kê

Bạn có thể đánh vần các đại lượng mục tiêu khác nhau cho cùng một thống kê, dẫn đến các ước tính khác nhau. Mỗi công cụ ước tính như vậy có độ lệch riêng, mặc dù tất cả chúng đều (dựa trên) cùng một giá trị, cùng một thống kê.

  • Bạn có thể sử dụng trung bình mẫu làm công cụ ước tính cho trung bình phân phối . Công cụ ước tính này có độ lệch bằng không .
  • Bạn cũng có thể sử dụng trung bình mẫu làm công cụ ước tính cho phương sai phân phối . Công cụ ước tính này được thiên vị cho hầu hết các phân phối.

Vì vậy, nói "ý nghĩa mẫu là không thiên vị" không có nghĩa. Giá trị trung bình mẫu không thiên vị khi bạn sử dụng nó để ước tính giá trị trung bình phân phối. Nhưng đồng thời nó bị sai lệch khi sử dụng nó để ước tính phương sai phân phối.

Số lượng phân phối và số lượng mẫu

Ở đây số lượng đề cập đến một số tài sản của phân phối, thường không được biết và do đó phải được ước tính. Điều này trái ngược với một thống kê , là một thuộc tính của mẫu, ví dụ: trung bình phân phối là một lượng phân phối của bạn, trong khi trung bình mẫu là một thống kê (một lượng mẫu của bạn).


1
Không có gì sai trái với những trích dẫn này, nhưng chúng khiến tôi hoang mang về chính xác "số lượng" nghĩa là gì. Chẳng hạn, các trích dẫn dường như không loại trừ khả năng "số lượng" là một thống kê khác dựa trên cùng một dữ liệu hoặc có lẽ là một thống kê khác dựa trên một tập hợp dữ liệu tương tự riêng biệt. (Trong trường hợp sau, thống kê đầu tiên có thể được sử dụng như một công cụ dự đoán. Trong trường hợp trước tôi không nghĩ có tên cho nó, nhưng nó chắc chắn không phải là "công cụ ước tính.")
whuber

@whuber Xem chỉnh sửa. Ban đầu tôi muốn đưa ra một câu trả lời ngắn ... :(
ziggystar

Có lẽ giá trị trung bình mẫu và trung bình mẫu sẽ chỉ ước tính cùng một giá trị cơ bản nếu phân phối là một trong đó trung vị = trung bình ...
Stumpy Joe Pete

Những lời chỉ trích của tôi làm cho ít ý nghĩa hơn trong ánh sáng của chỉnh sửa của bạn. Tôi chỉ đơn thuần nói rằng trong nhiều phân phối trung bình! = Nghĩa, vì vậy trung bình mẫu và giá trị trung bình mẫu sẽ không hội tụ đến cùng một giá trị trong các trường hợp như vậy (nghĩa là không ước tính điều tương tự).
Stumpy Joe Pete

1
@Stumpy Tôi nghĩ bạn có một quan niệm sai lầm nhỏ ở đây. Không có vấn đề gì nếu trung bình và có nghĩa là "hội tụ" đến cùng một thứ (hoặc với bất cứ điều gì cả). Để làm rõ điều này, hãy để tôi hơi vô lý: tôi có thể, nếu tôi muốn, sử dụng phương sai mẫu để ước tính giá trị trung bình. Hoàn toàn không có hạn chế về mặt lý thuyết - cũng không thể có - điều đó nói rằng tôi không thể làm điều này. Thủ tục của tôi đáp ứng tất cả các phần của định nghĩa: phương sai mẫu thực sự là một thống kê và giá trị trung bình thực sự là một thuộc tính của phân phối cơ bản. Đối với các định nghĩa, không liên quan rằng đây là (thường) một thủ tục khủng khiếp.
whuber

15

Chủ đề này hơi cũ, nhưng có vẻ như Wikipedia có thể đã thay đổi định nghĩa của nó và nếu nó chính xác, nó giải thích rõ ràng hơn cho tôi:

"Công cụ ước tính" hoặc "ước tính điểm" là một thống kê (nghĩa là chức năng của dữ liệu) được sử dụng để suy ra giá trị của một tham số chưa biết trong mô hình thống kê.

Vì vậy, một thống kê đề cập đến chính dữ liệu và tính toán với dữ liệu đó. Trong khi một công cụ ước tính đề cập đến một tham số trong mô hình.

Nếu tôi hiểu nó một cách chính xác, thì, giá trị trung bình là một thống kê và cũng có thể là một công cụ ước tính. Giá trị trung bình của mẫu là một thống kê (tổng của mẫu chia cho cỡ mẫu). Giá trị trung bình của mẫu cũng là một công cụ ước tính giá trị trung bình của dân số, giả sử nó được phân phối bình thường.

Tôi sẽ hỏi @whuber và những người khác thực sự biết công cụ này nếu trích dẫn Wikipedia (mới?) Là chính xác.


6
+1 Tôi nghĩ rằng bạn có nó về cơ bản là đúng. Bạn có thể muốn biết rằng mục tiêu của công cụ ước tính không nhất thiết phải là một "tham số" cụ thể của mô hình: nó có thể là bất kỳ thuộc tính nào của mô hình, chẳng hạn như chức năng của các tham số. Ví dụ, không phải là một tham số cho một bình thường ( μ , σ 2 ) mô hình, nhưng nó có thể được ước tính. μ2(μ,σ2)
whuber

5

Vì các câu trả lời khác nói rằng chúng giống nhau không đưa ra tài liệu tham khảo chính thức, tôi xin đưa ra hai trích dẫn từ cẩm nang suy luận thống kê của Casella và Berger:

Định nghĩa 5.2.1 Đặt là một mẫu ngẫu nhiên có kích thước n từ một quần thể và đặt T ( x 1 , Hiểu , x n ) là một hàm có giá trị thực hoặc có giá trị véc tơ có miền bao gồm không gian mẫu của ( X 1 , ... , X n ) . Sau đó, biến ngẫu nhiên hoặc vectơ ngẫu nhiên Y = T ( X 1 , Mạnh , X n ) được gọiX1,,XnnT(x1,,xn)(X1,,Xn)Y=T(X1,,Xn)thống kê . Sự phân bố xác suất thống kê được gọi là phân phối mẫu của Y .YY

Định nghĩa 7.1.1 Công cụ ước tính điểm là bất kỳ hàm của mẫu; đó là, bất kỳ số liệu thống kê là một công cụ ước tính điểm.W(X1,,Xn)

Tôi không nói ở đây rằng đây là câu trả lời chắc chắn cho câu hỏi, vì tôi dường như đồng ý với hai câu trả lời được đánh giá cao nhất cho thấy rằng có một sự khác biệt, chỉ đưa ra một tham chiếu nói ngược lại để làm nổi bật rằng đây không phải là một trường hợp rõ ràng.


4

"6" là một ví dụ về công cụ ước tính. Nói câu hỏi của bạn là "độ dốc của ánh xạ hàm tuyến tính tốt nhất x đến y là gì?" Câu trả lời của bạn có thể là "6". Hoặc có thể là (XX)1XY . Cả hai đều là ước tính. Cái nào tốt hơn là để bạn quyết định.

Một TA thực sự giỏi đã từng giải thích khái niệm về một người ước tính theo cách đó.

Về cơ bản, công cụ ước tính là thứ bạn áp dụng cho dữ liệu để lấy số lượng mà bạn không biết giá trị của. Bạn biết giá trị của một thống kê - đó là một chức năng của dữ liệu không có "tốt nhất" hoặc "tối ưu" về nó. Không có nghĩa là "tốt nhất". Chỉ có một ý nghĩa.

Giả sử bạn có bộ dữ liệu về số lượng dê sở hữu trên mỗi người và hạnh phúc của mỗi người. Bạn quan tâm đến việc hạnh phúc của mọi người thay đổi như thế nào với số lượng dê họ sở hữu. Công cụ ước tính có thể giúp bạn ước tính mối quan hệ đó từ dữ liệu của bạn. Thống kê chỉ là chức năng của dữ liệu mà bạn có. Ví dụ: phương sai của quyền sở hữu dê có thể bằng 7. Te forula tính toán phương sai sẽ giống hệt nhau giữa dê và lò nướng bánh, hoặc liệu bạn có quan tâm đến hạnh phúc hay xu hướng bị ung thư. Theo nghĩa đó, tất cả các ước tính hợp lý là số liệu thống kê.


3

Câu hỏi thú vị. Ước tính và thống kê không cần phải là những thứ khác nhau, mặc dù. Chúng là những khái niệm khác nhau.

Thống kê là một hàm (theo nghĩa rộng) trong đó đầu vào là dữ liệu (thống kê). Hiệu quả là bạn đạt được một kết quả, thường là một con số, từ thống kê này. Trong một thuật ngữ trừu tượng hơn, một thống kê có thể mang lại nhiều hơn một số. Thống kê phụ thuộc vào dữ liệu, nhưng thủ tục mang tính quyết định. Vì vậy, số liệu thống kê có thể là: "Tính tổng tất cả các số và chia cho số đếm" hoặc, theo nghĩa rộng hơn "lấy dữ liệu gdp và chuẩn bị báo cáo về nó".
Theo nghĩa thống kê, tất nhiên chúng ta đang nói về một hàm toán học như là một thống kê.

Điều quan trọng của việc này là nếu bạn biết các thuộc tính của dữ liệu bạn nhập (ví dụ: nó có một biến ngẫu nhiên), thì bạn có thể tính các thuộc tính của thống kê của mình mà không cần đưa vào dữ liệu theo kinh nghiệm.

Công cụ ước tính là công cụ ước tính vì mục đích của bạn: ước tính một tài sản. Hóa ra, một số thống kê là những người ước tính tốt.
Ví dụ: nếu bạn kéo các điểm dữ liệu ra khỏi nhóm các biến iid, thì trung bình số học - một thống kê dựa trên dữ liệu bạn kéo, có thể sẽ là một công cụ ước tính tốt cho giá trị dự kiến ​​của phân phối đó. Nhưng sau đó, bất cứ điều gì tạo ra một ước tính là một công cụ ước tính.

Trong thực tế, các công cụ ước tính mà bạn sử dụng sẽ là số liệu thống kê, nhưng có những số liệu thống kê không phải là công cụ ước tính. Ví dụ: thống kê kiểm tra - mặc dù người ta có thể tranh luận về ngữ nghĩa của tuyên bố này và để làm cho vấn đề tồi tệ hơn, một thống kê kiểm tra có thể không chỉ mà còn bao gồm các công cụ ước tính. Mặc dù về mặt khái niệm, điều này không phải là trường hợp.

Và tất nhiên bạn có thể có các công cụ ước tính không thống kê, mặc dù chúng có thể không tốt cho việc ước tính.


1
2nnn+1

Vâng, tôi sẽ lập luận rằng "chọn một giá trị" là thống kê xác định và mọi thứ trước đó đều liên quan đến sửa đổi mẫu bạn đã chọn. Sau đó, một lần nữa vì "thủ tục" nếu bạn muốn - có tính xác định, tôi chỉ có thể cho phép các yếu tố ngẫu nhiên như thế này trong định nghĩa của tôi về thống kê ... Ví dụ số "6" trong câu trả lời dưới đây. Xin lưu ý rằng tôi đã không nói rằng những người ước tính phi thống kê nhất thiết là xấu.
IMA

1
Tôi nghĩ có lẽ bạn đang tạo ra quá nhiều sự phân biệt tốt đẹp không cần thiết và cuối cùng, làm phức tạp sự phơi bày của bạn. Ví dụ: "1/2" là một công cụ ước tính tuyệt vời của tham số của biến Bernoulli (nó là minimax cho mất phương trình bậc hai), vì vậy sẽ rất xấu hổ khi loại trừ nó chỉ vì nó độc lập với dữ liệu. (Điều đó tương tự như loại trừ các hình vuông như các ví dụ về hình chữ nhật trong hình học Euclide: bạn có thể làm điều đó, nhưng sau đó sẽ tăng gấp đôi độ dài của hầu hết các câu lệnh liên quan đến các thuộc tính của hình chữ nhật.) Nó tương tự giúp không loại trừ các thống kê ngẫu nhiên.
whuber

Tôi không nghĩ rằng chúng ta thực sự đang nói về điều tương tự. Tôi loại trừ bất cứ điều gì? Nếu một nửa là một công cụ ước tính tuyệt vời, thì đó là một trường hợp. Tôi chỉ không nghĩ rằng phần lớn các công cụ ước tính có thể không thống kê ong là khá tuyệt vời. Đối với một biến Bernoulli "1/2" là tốt. Nhưng -quite- một vài người ước tính khác trong lớp "Một số thực" không tốt lắm, bạn có đồng ý không? Về vấn đề thống kê ngẫu nhiên vẫn dựa trên dữ liệu - Tôi không loại trừ vì tôi vẫn sẽ nói rằng bạn sẽ yêu cầu một quy trình xác định. Nhưng tôi thừa nhận rằng tôi nên thêm điều này ở trên.
IMA

2

Tôi nghĩ rằng một sự hiểu biết tốt hơn về những gì một mẫu giúp.

[Cập nhật: Mẫu là một khái niệm rất rộng, tôi đã nói về "mẫu ngẫu nhiên". Tôi không biết liệu công cụ ước tính có ý nghĩa hay không khi mẫu không ngẫu nhiên .]

từ wikipedia :

Một mẫu ngẫu nhiên được định nghĩa là một mẫu trong đó mỗi thành viên trong quần thể có cơ hội được biết đến, khác không được chọn là một phần của mẫu.

nnnnn .

Chúng tôi thay thế mẫu trong công cụ ước tính bằng giá trị của mẫu. Chúng tôi nhận được một giá trị của công cụ ước tính, đây là một biện pháp cụ thể. Và biện pháp cụ thể này là một thống kê.

(Kiểm tra liên kết này để biết định nghĩa của một người ước tính, câu cuối cùng cho thấy lý do tại sao chúng ta luôn luôn bối rối.)


1

Mục tiêu của bài viết này:

Những gì tôi muốn làm ở đây là cung cấp cho bạn những điểm tương đồng và khác biệt giữa hai khái niệm liên quan mật thiết gọi là "thống kê" và "ước tính". Tuy nhiên, tôi không muốn trải qua sự khác biệt giữa một tham số và thống kê, mà tôi cho rằng đủ rõ ràng cho tất cả những người đang đấu tranh với sự khác biệt giữa một thống kê và ước lượng. Nếu nó không phải là trường hợp của bạn, bạn cần nghiên cứu bài viết trước đó, và sau đó bắt đầu nghiên cứu bài viết này.

Mối quan hệ:

Về cơ bản, bất kỳ hàm có giá trị thực nào của các biến ngẫu nhiên có thể quan sát được trong một mẫu được gọi là thống kê. Có một số thống kê rằng nếu chúng được thiết kế tốt và có một số tính chất tốt (ví dụ: tính nhất quán, ...), chúng có thể được sử dụng để ước tính các tham số của phân bố cơ bản của dân số. Do đó, số liệu thống kê là một tập hợp lớn và các công cụ ước tính là một tập hợp con bên trong tập hợp số liệu thống kê. Do đó, mọi công cụ ước tính là một thống kê, nhưng không phải mọi thống kê đều là một công cụ ước tính.

Điểm tương đồng:

Nói về sự tương đồng, như đã đề cập trước đó, cả hai đều là chức năng của các biến ngẫu nhiên. Ngoài ra, cả hai đều có các bản phân phối được gọi là "phân phối mẫu".

Sự khác biệt:

Nói về sự khác biệt, họ khác nhau về mục tiêu và nhiệm vụ của họ. Các mục tiêu và nhiệm vụ của một thống kê có thể là tóm tắt thông tin trong một mẫu (bằng cách sử dụng đủ số liệu thống kê) và đôi khi thực hiện kiểm tra giả thuyết, v.v. Ngược lại, mục tiêu và nhiệm vụ chính của một người ước tính, như tên của nó, là để ước tính các thông số của dân số đang được nghiên cứu. Điều quan trọng là phải đề cập rằng có rất nhiều công cụ ước tính, mỗi công cụ có logic tính toán riêng phía sau, chẳng hạn như MOME, MLE, công cụ ước tính OLS, v.v. Một sự khác biệt khác giữa hai khái niệm này có liên quan đến các thuộc tính mong muốn của chúng. Mặc dù một trong những thuộc tính mong muốn nhất của thống kê là "tính đầy đủ", nhưng các thuộc tính mong muốn của công cụ ước tính là những thứ như "tính nhất quán", "không thiên vị", "chính xác", v.v.

Chú ý:

Do đó, bạn cần cẩn thận về việc sử dụng thuật ngữ một cách chính xác khi xử lý các số liệu thống kê và ước tính. Chẳng hạn, không có ý nghĩa gì khi nói về sự thiên vị của một thống kê đơn thuần, điều đó không có nghĩa là một người ước tính, bởi vì không có tham số nào liên quan đến bối cảnh như vậy để chúng ta có thể tính toán độ lệch, và nói về nó. Vì vậy, bạn cần phải cẩn thận về thuật ngữ!

Điểm mấu chốt:

Tóm lại, bất kỳ chức năng nào của các biến ngẫu nhiên có thể quan sát được trong một mẫu là một thống kê. Nếu một thống kê có khả năng ước tính một tham số của dân số, thì chúng ta gọi đó là một ước tính (của tham số quan tâm). Tuy nhiên, có một số thống kê không được thiết kế để ước tính các tham số, vì vậy những thống kê này không phải là ước tính và ở đây chúng tôi gọi chúng là "thống kê đơn thuần".

Những gì tôi cung cấp ở trên là cách tôi nhìn và nghĩ về hai khái niệm này, và tôi đã cố gắng hết sức để đặt nó bằng những từ đơn giản. Tôi hy vọng nó sẽ giúp!


0

Câu trả lời mới cho một Q cũ:

Định nghĩa 1. Một số liệu thống kê là một chức năng mà các bản đồ mỗi mẫu để một số thực.

Mỗi ước tính là một thống kê.

Nhưng chúng tôi có xu hướng chỉ gọi những số liệu thống kê được sử dụng để tạo ước tính ("đoán") một số tham số một công cụ ước tính.

Vì vậy, ví dụ, thống kê t và trung bình mẫu là thống kê CẢ. Giá trị trung bình mẫu cũng là một công cụ ước tính (vì chúng ta thường sử dụng nó để ước tính trung bình dân số thực sự).

Ngược lại, chúng tôi hiếm khi / không bao giờ gọi thống kê t là công cụ ước tính, bởi vì chúng tôi hiếm khi / không bao giờ sử dụng nó để ước tính bất kỳ tham số nào.

Trong ví dụ dưới đây, Plà một thống kê, nhưng không phải là một ước tính. Trong khiQ is both a statistic and an estimator.

Example_

Suppose our parameter-of-interest is the average outcome θ of a die-roll.

θ is some fixed real number that is perhaps known only to God. Nonetheless, we can try to estimate it.

Here's one possible method. We roll a die 3 times.

A sample is any s=(x1,x2,x3), where x1 is the outcome of the first roll, x2 that of the second, and x3 that of the third.

Here are three examples of samples: s1=(5,4,1), s2=(4,1,6), and s3=(6,3,2).

Here are two examples of statistics P and Q (remember that a statistic is simply a function). Define P and Q by: For any s=(x1,x2,x3),

P(s)=x1ln(x2+x3),
Q(s)=x1+x2+x33.

The statistic P is a rather-bizarre statistic and is probably not very useful for anything. Nonetheless, it is a statistic all the same, simply because it satisfies the definition of a statistic (it is a function that maps each sample to a real number).

Q is also a statistic. But in addition, it is also an estimator for the parameter θ.

(We could, of course, claim that P is also an estimator for θ. But it would be a very poor estimator that no one would want to use.)


1
This answer is headed in a good direction. "Definition 2," though, does not appear to be a valid definition, because of its circularity (it defines "estimator" in terms of "estimate" without explaining the latter). For it to be effective you need to explain what an "estimate of a parameter" is in sufficient detail and clarity that people can formulate quantitative measurements of how well an estimator works.
whuber

@whuber: I'm trying to keep it simple. A parameter is any real number (e.g. the average outcome θ of a die roll). Informally, an estimate for a parameter is simply a "guess" of what a parameter is. An estimate is thus simply also a real number. (E.g., an estimate of θ is 5.) // The question of "how to formulate quantitative measurements of how well an estimator works" is entirely distinct from the simpler and more basic question of the distinction between a statistic and an estimator. Which is the question here.
Kenny LJ

2
Unfortunately, as I was trying to suggest, something essential seems to have been lost in the simplification, because your second definition does not distinguish an estimator from any other statistic at all.
whuber

@whuber: That's right. Formally, an estimator is simply a statistic. But we tend to use the word "estimator" to refer to a statistic if that statistic is used to estimate some parameter-of-interest. I have edited my answer to clarify this point.
Kenny LJ

-3

In hypothesis testing :

A test-statistic is about hypothesis testing. A test-statistic is a random variable given/under the null hypothesis. Now, some may call a statistic the value/measure of the test-statistic given the sample.

With these two you can get the p-value which is a measure that helps to reject or not reject the null hypothesis. All in all, a statistic is an estimation of how far/close to your hypothesis.

This link may be useful.


2
You seem to be addressing a different question, something related to hypothesis tests rather than estimation. Your definition of "statistic" is much more restricted in scope than standard definitions are: statistics apply to all forms of decision making, not just the very limited cases of hypothesis testing and null hypotheses. Moreover, hypothesis tests are not the same as estimators and most statistics are not used as estimators of nearness to some hypothesis.
whuber

I wouldn't say it's a different question. It gives a picture about what it is in the context of hypothesis testing at least!
dfhgfh

2
Because this answer focuses on a limited and specialized version of the question and uses the key terms "estimator" and "statistic" in unconventional ways, without alerting the reader to that fact, I worry that it may mislead or confuse people.
whuber

I thought Hypothesis testing was far to be a limited and specialized field of statistics.
dfhgfh
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.