Câu hỏi này đi vào trọng tâm của thống kê là gì và làm thế nào để tiến hành phân tích thống kê tốt. Nó đặt ra nhiều vấn đề, một số thuật ngữ và những lý thuyết khác. Để làm rõ chúng, hãy bắt đầu bằng cách lưu ý bối cảnh ngầm của câu hỏi và tiếp tục từ đó để xác định các thuật ngữ chính "tham số", "tài sản" và "công cụ ước tính". Một số phần của câu hỏi được trả lời khi chúng xuất hiện trong cuộc thảo luận. Phần kết luận cuối cùng tóm tắt các ý chính.
Không gian nhà nước
Một cách sử dụng thống kê phổ biến của "phân phối", như trong "phân phối Bình thường với PDF tỷ lệ thuận với "thực sự là một (nghiêm trọng) lạm dụng tiếng Anh, bởi vì rõ ràng đây không phải là một phân phối: đó là một gia đình toàn bộ các bản phân phốitham sốbởi những biểu tượng L và σ Một ký hiệu chuẩn cho. đây là "không gian trạng thái" Ω , mộtbộexp(−12(x−μ)/σ)2)dxμσΩphân phối. (Tôi đơn giản hóa một chút ở đây vì mục đích giải thích và sẽ tiếp tục đơn giản hóa khi chúng ta đi cùng, trong khi vẫn nghiêm ngặt nhất có thể.) Vai trò của nó là phân định các mục tiêu có thể có của các thủ tục thống kê của chúng tôi: khi chúng tôi ước tính một cái gì đó, chúng tôi đang chọn ra một (hoặc đôi khi nhiều hơn) các yếu tố của .Ω
Đôi khi không gian nhà nước được tham số hóa một cách rõ ràng, như trong . Trong mô tả này, có một sự tương ứng một-một giữa bộ các bộ dữ liệu { ( μ , σ ) } trong nửa mặt phẳng trên và bộ phân phối mà chúng ta sẽ sử dụng để mô hình hóa dữ liệu của mình. Một giá trị của một tham số như vậy là bây giờ chúng ta có thể tham khảo cụ thể để phân phối trong Ω bằng phương tiện của một cặp có thứ tự các số thực.Ω={N(μ,σ2)|μ∈R,σ>0}{(μ,σ)}Ω
Trong các trường hợp khác, không gian trạng thái không được tham số rõ ràng. Một ví dụ sẽ là tập hợp của tất cả các phân phối liên tục không theo phương thức. Dưới đây, chúng tôi sẽ giải quyết câu hỏi liệu có thể tìm thấy một tham số đầy đủ trong các trường hợp như vậy không.
Tham số hóa
Nói chung, một tham số của Ω là một sự tương ứng (toán học chức năng ) từ một tập hợp con của (với d hữu hạn) để Ω . Đó là, nó sử dụng các tập hợp d -tuples được đặt hàng để gắn nhãn cho các bản phân phối. Nhưng đó không chỉ là bất kỳ sự tương ứng nào: nó phải được "cư xử đúng mực". Để hiểu điều này, hãy xem xét tập hợp tất cả các bản phân phối liên tục có tệp PDF có kỳ vọng hữu hạn. Điều này sẽ được coi rộng rãi là "không tham số" theo nghĩa là bất kỳ nỗ lực "tự nhiên" nào để tham số hóa tập hợp này sẽ liên quan đến một chuỗi số thực có thể đếm được (sử dụng một mở rộng trong bất kỳ cơ sở trực giao nào). Tuy nhiên, vì bộ này có cardinality ℵRddΩd , đó là cardinality của số thực, thì phải có một số one-to-one tương ứng giữa các bản phân phối và R . Nghịch lý thay, điều đó dường như làm cho điều này trở thành mộtkhông gian trạng thái đượctham số hóavới mộttham số thựcduy nhất!ℵ1R
Nghịch lý được giải quyết bằng cách lưu ý rằng một số thực duy nhất không thể có mối quan hệ "tốt đẹp" với các bản phân phối: khi chúng ta thay đổi giá trị của số đó, trong một số trường hợp, phân phối tương ứng phải thay đổi theo cách triệt để. Chúng tôi loại trừ các tham số hóa "bệnh lý" như vậy bằng cách yêu cầu các phân phối tương ứng với các giá trị đóng của các tham số của chúng phải tự "đóng" với nhau. Thảo luận về các định nghĩa phù hợp về "gần gũi" sẽ đưa chúng ta đi quá xa, nhưng tôi hy vọng mô tả này đủ để chứng minh rằng có nhiều thứ để trở thành một tham số hơn là chỉ đặt tên cho một phân phối cụ thể.
Thuộc tính của phân phối
Thông qua ứng dụng lặp đi lặp lại, chúng ta đã quen với việc nghĩ đến "tài sản" của phân phối là một số lượng dễ hiểu thường xuất hiện trong công việc của chúng ta, chẳng hạn như kỳ vọng, phương sai, v.v. Vấn đề với điều này như một định nghĩa có thể có về "tài sản" là nó quá mơ hồ và không đủ chung chung. (Đây là nơi toán học ở giữa thế kỷ 18, nơi "các hàm" được coi là các quá trình hữu hạn được áp dụng cho các đối tượng.) là một con số đó là duy nhất được gán cho mỗi phân phối tại Ω. Điều này bao gồm giá trị trung bình, phương sai, bất kỳ thời điểm nào, bất kỳ sự kết hợp đại số nào của các khoảnh khắc, bất kỳ lượng tử nào và nhiều hơn nữa, bao gồm cả những thứ thậm chí không thể được tính toán. Tuy nhiên, nó không bao gồm những thứ đó sẽ làm cho không có ý nghĩa đối với một số các yếu tố của . Chẳng hạn, nếu ΩΩΩ bao gồm tất cả các bản phân phối Student t, sau đó giá trị trung bình là không một tài sản có giá trị trong (vì t 1 không có nghĩa). Điều này gây ấn tượng với chúng tôi một lần nữa bao nhiêu ý tưởng của chúng tôi phụ thuộc vào những gì Ω thực sự bao gồm.Ωt1Ω
Thuộc tính không phải luôn luôn là tham số
Một thuộc tính có thể là một hàm phức tạp đến mức nó sẽ không phục vụ như một tham số. Hãy xem xét trường hợp của "Phân phối bình thường." Chúng ta có thể muốn biết liệu giá trị trung bình của phân phối thực, khi được làm tròn đến số nguyên gần nhất, có phải là số chẵn hay không. Đó là một tài sản. Nhưng nó sẽ không phục vụ như là một tham số.
Các tham số không nhất thiết là thuộc tính
Khi các tham số và phân phối nằm trong sự tương ứng một-một thì rõ ràng là bất kỳ tham số nào và bất kỳ chức năng nào của các tham số cho vấn đề đó, là một thuộc tính theo định nghĩa của chúng tôi. Nhưng không cần phải có sự tương ứng một-một giữa các tham số và phân phối: đôi khi một vài phân phối phải được mô tả bằng hai hoặc nhiều giá trị khác nhau của các tham số. Chẳng hạn, một tham số vị trí cho các điểm trên mặt cầu sẽ tự nhiên sử dụng vĩ độ và kinh độ. Điều đó tốt - ngoại trừ ở hai cực, tương ứng với một vĩ độ nhất định và bất kỳ kinh độ hợp lệ nào . Vị trí(điểm trên quả cầu) thực sự là một tài sản nhưng kinh độ của nó không nhất thiết là một tài sản. Mặc dù có nhiều cách tránh khác nhau (ví dụ, chỉ tuyên bố kinh độ của cực bằng 0), vấn đề này làm nổi bật sự khác biệt về khái niệm quan trọng giữa một thuộc tính (được liên kết duy nhất với phân phối) và tham số (đó là cách ghi nhãn phân phối và có thể không phải là duy nhất).
Thủ tục thống kê
Mục tiêu của một ước tính được gọi là một estimand . Nó chỉ đơn thuần là một tài sản. Nhà thống kê không được tự do lựa chọn ước tính: đó là tỉnh của khách hàng của cô. Khi ai đó đến với bạn với một mẫu dân số và yêu cầu bạn ước tính tỷ lệ phần trăm thứ 99 của dân số, bạn có thể sẽ cảm thấy hối hận khi cung cấp công cụ ước tính trung bình thay thế! Công việc của bạn, với tư cách là nhà thống kê, là xác định một quy trình tốt để ước tính ước tính và bạn đã được đưa ra. (Đôi khi công việc của bạn là thuyết phục khách hàng của mình rằng anh ta đã chọn ước lượng sai cho các mục tiêu khoa học của mình, nhưng đó là một vấn đề khác ...)
Theo định nghĩa, một thủ tục là một cách để lấy một số ra khỏi dữ liệu. Các thủ tục thường được đưa ra dưới dạng các công thức được áp dụng cho dữ liệu, như "thêm tất cả chúng và chia cho số lượng của chúng". Theo nghĩa đen bất kỳ thủ tục cũng có thể được phát âm là "công cụ ước tính" của một ước tính nhất định. Ví dụ, tôi có thể tuyên bố rằng giá trị trung bình mẫu (một công thức áp dụng cho dữ liệu) ước tính phương sai quần thể (một tài sản của dân số, giả sử khách hàng của chúng tôi đã giới hạn các thiết lập của các quần thể để chỉ những người thực sự có chênh lệch bao gồm).Ω
Ước tính
Công cụ ước tính không cần có bất kỳ kết nối rõ ràng nào với công cụ ước tính. Chẳng hạn, bạn có thấy bất kỳ mối liên hệ nào giữa trung bình mẫu và phương sai dân số không? Không làm I. Nhưng tuy nhiên, các trung bình mẫu thực sự là một ước lượng phong nha của phương sai quần thể đối với một số Ω (chẳng hạn như các thiết lập của tất cả các bản phân phối Poisson). Đây nằm một chìa khóa để ước lượng sự hiểu biết: phẩm chất của họ phụ thuộc vào các thiết lập của thể trạng . Nhưng đó chỉ là một phần của nó.Ω
Một nhà thống kê có thẩm quyền sẽ muốn biết thủ tục mà họ đề xuất sẽ thực sự tốt như thế nào. Hãy gọi thủ tục là " " và để ước lượng là θ . Không biết mà phân phối thực sự là một sự thật, cô sẽ chiêm nghiệm hoạt động của thủ tục cho mỗi phân phối có thể F ∈ Ohm . Do đó một F , và đưa ra bất kỳ có thể kết quả s (có nghĩa là, một tập hợp các dữ liệu), cô sẽ so sánh t ( s ) (những gì ước tính thủ tục của cô) để θ ( F )tθ F∈ΩFst(s)θ(F) (giá trị của estimand cho ). FTrách nhiệm của khách hàng là cho cô ấy biết hai người họ cách nhau hay xa như thế nào. , nguy cơ là một hàm xác định trên Ω . (Điều này thường được thực hiện với một chức năng "mất mát".) Sau đó, cô có thể chiêm ngưỡng kỳ vọng của khoảng cách giữa và θ ( F ) . Đây là nguy cơ của thủ tục của cô. Bởi vì nó phụ thuộc vào Ft(s)θ(F)FΩ
(Tốt) các nhà thống kê khuyến nghị các thủ tục dựa trên so sánh rủi ro. Ví dụ, giả sử rằng đối với mỗi , nguy cơ thủ tục t 1 là nhỏ hơn hoặc bằng với nguy cơ của t . Sau đó, không có lý do bao giờ để sử dụng t : đó là "không thể chấp nhận được." Nếu không thì nó là "đáng ngưỡng mộ".F∈Ωt1tt
(Một nhà thống kê "Bayes" sẽ luôn so sánh rủi ro bằng cách lấy trung bình phân phối các trạng thái có thể "trước" (thường được cung cấp bởi khách hàng). Một nhà thống kê "Thường xuyên" có thể làm điều này, nếu như vậy tồn tại một cách chính đáng, nhưng cũng sẵn sàng so sánh rủi ro theo những cách khác Bayes eschew.)
Kết luận
Chúng tôi có quyền để nói rằng bất kỳ có nghĩa là chấp nhận cho θ là một ước lượng của θ . tθθ Chúng ta phải vì mục đích thực tế (vì thủ tục chấp nhận có thể khó tìm), uốn cong này để nói rằng bất kỳ có rủi ro chấp nhận được nhỏ (khi bị so sánh với θ ) trong thủ tục có thể thực hiện là mức ước lượng θtθθ . "Chấp nhận được" và "có thể thực hiện" được xác định bởi khách hàng, tất nhiên: "chấp nhận được" đề cập đến rủi ro của họ và "thực tế" phản ánh chi phí (cuối cùng được họ trả) khi thực hiện thủ tục.
Dưới định nghĩa ngắn gọn này là tất cả các ý tưởng vừa thảo luận: để hiểu nó, chúng ta phải có một ý tưởng cụ thể (là mô hình của vấn đề, quá trình hoặc dân số đang nghiên cứu), một ước lượng xác định (do khách hàng cung cấp), a hàm mất mát cụ thể (kết nối định lượng t với ước tính và cũng được đưa ra bởi khách hàng), ý tưởng về rủi ro (được tính toán bởi nhà thống kê), một số thủ tục so sánh các hàm rủi ro (trách nhiệm của nhà thống kê khi tham khảo ý kiến khách hàng), và ý thức về những thủ tục thực sự có thể được thực hiện (vấn đề "khả thi"), mặc dù không có quy trình nào được đề cập rõ ràng trong định nghĩa.Ωt