Định nghĩa gia đình của một phân phối?


14

Có một gia đình phân phối có một định nghĩa khác cho thống kê so với các ngành khác không?

Nói chung, một họ các đường cong là một tập hợp các đường cong, mỗi đường cong được đưa ra bởi một hàm hoặc tham số hóa trong đó một hoặc nhiều tham số được thay đổi. Các gia đình như vậy được sử dụng, ví dụ, để mô tả các thành phần điện tử .

Để thống kê, một gia đình theo một nguồn là kết quả của việc thay đổi tham số hình dạng. Làm thế nào chúng ta có thể hiểu rằng phân phối gamma có tham số hình dạng và tỷ lệ và ngoài ra chỉ có phân phối gamma tổng quát mới có tham số vị trí? Điều đó làm cho gia đình kết quả của việc thay đổi tham số vị trí? Theo @whuber ý nghĩa của một gia đình là ngầm A "tham số" của một gia đình là một bản đồ liên tục từ một tập hợp con của ℝ n , với topo thông thường của nó, vào không gian của phân phối, mà hình ảnh là gia đình đó.n

Điều gì, trong ngôn ngữ đơn giản, là một gia đình cho phân phối thống kê?

Một câu hỏi về mối quan hệ giữa các thuộc tính thống kê của các bản phân phối từ cùng một gia đình đã tạo ra tranh cãi đáng kể cho một câu hỏi khác vì vậy có vẻ đáng để khám phá ý nghĩa.

Rằng đây không hẳn là một câu hỏi đơn giản được sinh ra bởi việc sử dụng nó trong cụm từ gia đình hàm mũ , không liên quan gì đến một họ đường cong, nhưng có liên quan đến việc thay đổi hình thức phân phối PDF bằng cách xác định lại không chỉ các tham số , nhưng cũng thay thế các chức năng của các biến ngẫu nhiên độc lập.


1
Theo cụm từ "gia đình phân phối", bạn có ý gì khác "một gia đình phân phối" không? Một họ theo cấp số nhân là một họ phân phối (có một số tính chất nhất định) và diễn giải pdf của mỗi phân phối là một đường cong, nó thậm chí tương ứng với một họ các đường cong, vì vậy các đoạn cuối có vẻ bị nhầm lẫn.
Juho Kokkala

@JuhoKokkala Có vẻ khó hiểu vì ý nghĩa của "gia đình" phụ thuộc vào bối cảnh. Ví dụ, một phân phối bình thường của phương sai chưa biết và phương sai đã biết là trong gia đình hàm mũ. Một phân phối chuẩn có hỗ trợ vô hạn, (,+) , và một phân phối mũ có hỗ trợ bán vô hạn, [0,+) , vì vậy không có gia đình của các đường cong cho một phân phối mũ mà bìa phạm vi của một bình thường phân phối, chúng không bao giờ có hình dạng giống nhau ...
Carl

@JuhoKokkala ... và một tệp PDF theo cấp số nhân thậm chí không có tham số vị trí, trong khi phân phối bình thường không thể làm được nếu không có. Xem liên kết ở trên để biết các thay thế cần thiết và bối cảnh trong đó một pdf bình thường thuộc họ hàm mũ.
Carl

1
stats.stackexchange.com/questions/129990/ có thể có liên quan. "Phân phối bình thường của phương sai chưa biết và phương sai đã biết là trong gia đình hàm mũ", theo hiểu biết của tôi, lạm dụng thuật ngữ (mặc dù hơi phổ biến). Nói chính xác, một gia đình theo cấp số nhân là một gia đình phân phối với các thuộc tính nhất định. Họ phân phối bình thường với phương sai chưa biết và phương sai đã biết là một họ theo cấp số nhân; gia đình phân phối theo cấp số nhân là một gia đình theo cấp số nhân, v.v.
Juho Kokkala

1
@JuhoKokkala: "Gia đình" đó thường được sử dụng (ab), trong trường hợp đặc biệt, có nghĩa là "tập hợp các gia đình" có lẽ đáng để rút ra một câu trả lời khác. (Tôi không thể nghĩ ra các trường hợp khác - vì một lý do có vẻ như không ai của xu hướng nói về " các gia đình vị trí quy mô".)
Scortchi - Khôi phục Monica

Câu trả lời:


14

Các khái niệm thống kê và toán học hoàn toàn giống nhau, hiểu rằng "gia đình" là một thuật ngữ toán học chung với các biến thể kỹ thuật phù hợp với các hoàn cảnh khác nhau:

Một họ tham số là một đường cong (hoặc bề mặt hoặc tổng quát hóa chiều hữu hạn khác) trong không gian của tất cả các phân phối.

Phần còn lại của bài viết này giải thích điều đó có nghĩa là gì. Bên cạnh đó, tôi không nghĩ bất kỳ điều nào trong số này gây tranh cãi, cả về mặt toán học hay thống kê (ngoài một vấn đề nhỏ được ghi chú dưới đây). Để hỗ trợ cho ý kiến ​​này, tôi đã cung cấp nhiều tài liệu tham khảo (chủ yếu cho các bài viết trên Wikipedia).


Thuật ngữ này của "gia đình" có xu hướng được sử dụng khi nghiên cứu các lớp của các hàm thành một tập hợp Y hoặc "bản đồ". Cho một miền X , một họ F của các bản đồ trên X được tham số hóa bởi một số bộ Θ ("tham số") là một hàmCYYX FX Θ

F:X×ΘY

mà (1) cho mỗi , hàm F θ : X Y do F θ ( x ) = F ( x , θ ) là trong C Y và (2) F chính nó có một số "đẹp" tài sản.θΘFθ:XYFθ(x)=F(x,θ)CYF

Ý tưởng là chúng tôi muốn thay đổi các chức năng từ sang Y theo cách "trơn tru" hoặc được kiểm soát. Bất Động Sản (1) phương tiện mà mỗi θ chỉ định như một chức năng, trong khi các chi tiết của tài sản (2) sẽ nắm bắt được ý nghĩa trong đó một sự thay đổi "nhỏ" trong θ gây ra một cách đầy đủ sự thay đổi "nhỏ" trong F θ .XYθθFθ

Một ví dụ toán học tiêu chuẩn, gần với một ví dụ được đề cập trong câu hỏi, là một phép đồng luân . Trong trường hợp này loại bản đồ liên tục từ không gian tôpô X vào không gian tôpô Y ; Θ = [ 0 , 1 ] R là khoảng thời gian đơn vị với topo thông thường của nó, và chúng tôi yêu cầu F là một liên tục bản đồ từ các sản phẩm topo X × Θ vào 0 đến F 1 ." Khi X =CY XYΘ=[0,1]RFX×Θ . Nó có thể được coi là "biến dạng liên tục của bản đồ FYF0F1 chính nó là một khoảng, các bản đồ như vậy làcác đường congX=[0,1] trong và phép đồng hình là một biến dạng trơn tru từ đường cong này sang đường cong khác.Y

Đối với các ứng dụng thống kê, là tập hợp tất cả các phân phối trên R (hoặc, trong thực tế, trên R n đối với một số n , nhưng để giữ cho giải trình đơn giản, tôi sẽ tập trung vào n = 1 ). Chúng tôi có thể xác định nó với tập hợp tất cả các hàm càdlàg không giảm R[ 0 , 1 ] trong đó việc đóng phạm vi của chúng bao gồm cả 01 : đây là các hàm phân phối tích lũy hoặc đơn giản là các hàm phân phối. Do đó, X = RCYRRnnn=1R[0,1]01X=R .Y=[0,1]

Một gia đình của các bản phân phối là bất kỳ tập hợp con của . CY Một tên khác cho một gia đình là mô hình thống kê. Nó bao gồm tất cả các phân phối mà chúng tôi cho rằng chi phối các quan sát của chúng tôi, nhưng chúng tôi không biết phân phối nào là phân phối thực tế.

  • Một gia đình có thể trống rỗng.
  • Bản thân C Y là một gia đình.CY
  • Một gia đình có thể bao gồm một phân phối duy nhất hoặc chỉ là một số lượng hữu hạn của chúng.

Những đặc điểm lý thuyết tập hợp trừu tượng này là tương đối ít quan tâm hoặc tiện ích. Chỉ khi chúng ta xem xét cấu trúc toán học bổ sung (có liên quan) trên thì khái niệm này mới trở nên hữu ích. Nhưng tính chất nào của C Y là lợi ích thống kê? Một số xuất hiện thường xuyên là:CYCY

  1. tập lồi: với hai phân phối F , G C Y , chúng ta có thể tạo thànhphân phối hỗn hợp(1-t) F +t GYcho tất cảt[0,1]. Đây là một loại "homotopy" từFđếnGCYF,GCY (1t)F+tGYt[0,1]FG .

  2. Phần lớn của hỗ trợ các số liệu giả khác nhau, chẳng hạn như phân kỳ Kullback-Leibler hoặc số liệu Thông tin Fisher liên quan chặt chẽ.CY

  3. có cấu trúc phụ: tương ứng với bất kỳ hai phân bốFGlà tổng của chúng, F G .CYFGFG

  4. hỗ trợ nhiều chức năng tự nhiên, hữu ích, thường được gọi là "thuộc tính". Chúng bao gồm bất kỳ lượng tử cố định (như trung vị) cũng như các chấttích lũy.CY

  5. là tập con của mộtkhông gian hàm. Như vậy, nó thừa hưởng nhiều số liệu hữu ích, chẳng hạn nhưđịnh mức sup( L ∞ Norm ) được đưa ra bởi | | F-G | | = sup x R | F(x)-G(x) | .CYL

    ||FG||=supxR|F(x)G(x)|.
  6. Tự nhiên hành động nhóm trên gây ra các hành động trên C Y . Những hành động phổ biến là dịch T μ : x x + μxỉ S σ : x x σ cho σ > 0 . Hiệu quả này có trên một bản phân phối là gửi F để phân phối do F L , σ ( x ) = F ( ( x - μ )RCY Tμ:xx+μ Sσ:xxσσ>0FFμ,σ(x)=F((xμ)/σ) . Những điều này dẫn đến các khái niệm về gia đình quy mô địa điểm và khái quát hóa của họ. (Tôi không cung cấp tài liệu tham khảo, bởi vì các tìm kiếm trên web mở rộng đưa ra nhiều định nghĩa khác nhau: ít nhất, ở đây, có thể là một chút tranh cãi.)

Các tính chất quan trọng phụ thuộc vào vấn đề thống kê vào cách bạn định phân tích dữ liệu. Việc giải quyết tất cả các biến thể được đề xuất bởi các đặc điểm trước sẽ chiếm quá nhiều không gian cho phương tiện này. Hãy tập trung vào một ứng dụng quan trọng phổ biến.

Lấy ví dụ, khả năng tối đa. Trong hầu hết các ứng dụng, bạn sẽ muốn có thể sử dụng Giải tích để có được ước tính. Để làm việc này, bạn phải có khả năng "lấy dẫn xuất" trong gia đình.

( Kỹ thuật sang một bên: Cách thông thường mà điều này được thực hiện là để chọn một tên miền cho d 0 và chỉ định một liên tục, nghịch cục bộ chức năng p từ Θ vào C Y (Điều này có nghĩa rằng đối với mỗi. Q Θ có tồn tại một bóng B ( θ , ε ) , với ε > 0p | B ( θ , ε ) :ΘRdd0pΘCYθΘB(θ,ϵ)ϵ>0bởi một lượng đủ nhỏ, chúng tôi sẽ luôn luôn có được một bản phân phối khác nhau.)) là one-to-one. Nói cách khác, nếu chúng ta thay đổi θpB(θ,ϵ):B(θ,ϵ)ΘCYθ

Do đó, trong hầu hết các ứng dụng ML chúng tôi yêu cầu được liên tục (và hy vọng, gần như ở khắp mọi nơi khả vi) trong Θ thành phần. (Không có tính liên tục, tối đa hóa khả năng thường trở thành một vấn đề khó giải quyết.) Điều này dẫn đến định nghĩa theo định hướng khả năng sau đây của mộtpΘ gia đình tham số :

Một gia đình tham số của phân phối (đơn biến) là một bản đồ nghịch địa phương với q R n , mà (a) mỗi F θ là một chức năng phân phối và (b) cho mỗi x R , hàm L x : θ [ 0 , 1 ] do L x ( θ ) = F ( x ,

F:R×Θ[0,1],
ΘRnFθxRLx:θ[0,1]Lx(θ)=F(x,θ) là liên tục và hầu như mọi nơi khác biệt.

Lưu ý rằng một gia đình tham số là nhiều hơn chỉ là bộ sưu tập của F θ : nó cũng bao gồm cụ thể cách thức mà giá trị tham số qFFθθ tương ứng với phân phối.

Hãy kết thúc với một số ví dụ minh họa.

  • Đặt là tập hợp của tất cả các phân phối chuẩn. Như đã cho, đây không phải là một gia đình tham số: nó chỉ là một gia đình. Để được tham số, chúng ta phải chọn một tham số. Một cách là chọn Θ = { ( μ , σ ) R 2 | σ > 0 } và để ánh xạ ( μ , σ ) để phân phối chuẩn với trung bình μ và phương sai σ 2CYΘ={(μ,σ)R2σ>0}(μ,σ)μσ2 .

  • Tập hợp các Poisson phân phối(λ) là một gia đình tham số với λΘ=(0,)R1 .

  • Tập hợp các Uniform phân phối (có tính năng nổi bật trong nhiều bài tập sách giáo khoa) là một gia đình tham số với θ R 1 . Trong trường hợp này, F θ ( x ) = max ( 0 , min ( 1 , x - θ ) ) là khả vi trong θ trừ θ { x , x - 1 } .(θ,θ+1)θR1Fθ(x)=max(0,min(1,xθ))θθ{x,x1}

  • Let F and G be any two distributions. Then F(x,θ)=(1θ)F(x)+θG(x) is a parametric family for θ[0,1]. (Proof: the image of F is a set of distributions and its partial derivative in θ equals F(x)+G(x) which is defined everywhere.)

  • ΘR4, which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.

  • The family CY of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow CY with any topology (whether statistically useful or not) and p:ΘCY is continuous and locally has a continuous inverse, then locally CY must have the same dimension as that of Θ. However, in all statistically meaningful topologies, CY is infinite dimensional.


2
It will take me about a day to digest your answer. I will have to chew slowly. Meanwhile, thank you.
Carl

(+1) OK, I slogged through it. So is F:R×Θ[0,1] a Polish space or not? Can we do a simple answer so people know how to avoid using the word family improperly, please. @JuhoKokkala related, for example, that Wikipedia abused language in their exponential family, that needs clarification.
Carl

1
Doesn't the second sentence of this answer serve that request for simplicity?
whuber

IMHO, however uninformed, no, it does not due to incompleteness, it doesn't say what a family isn't. The concept "in the space of all distributions" seems to relate to statistics only.
Carl

1
I have accepted your answer. You have enough information in it that I could apply it to the question in question.
Carl

1

To address a specific point brought up in the question: "exponential family" does not denote a set of distributions. (The standard, say, exponential distribution is a member of the family of exponential distributions, an exponential family; of the family of gamma distributions, also an exponential family; of the family of Weibull distributions, not an exponential family; & of any number of other families you might dream up.) Rather, "exponential" here refers to a property possessed by a family of distributions. So we shouldn't talk of "distributions in the exponential family" but of "exponential families of distributions"—the former is an abuse of terminology, as @JuhoKokkala points out. For some reason no-one commits this abuse when talking of location–scale families.


0

Thanks to @whuber there is enough information to summarize in what I hope is a simpler form relating to the question from which this post arose. "Another name for a family [Sic, statistical family] is [a] statistical model."

From that Wikipedia entry: A statistical model consists of all distributions that we suppose govern our observations, but we do not otherwise know which distribution is the actual one. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e., some of the variables are stochastic. A statistical model is usually thought of as a pair (S,P), where S is the set of possible observations, i.e., the sample space, and P is a set of probability distributions on S.

Suppose that we have a statistical model (S,P) with P={Pθ:θΘ}. The model is said to be a Parametric model if Θ has a finite dimension. In notation, we write that ΘRd where d is a positive integer (R denotes the real numbers; other sets can be used, in principle). Here, d is called the dimension of the model.

As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that

P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.
In this example, the dimension, d, equals 2, end quote.

Thus, if we reduce the dimensionality by assigning, for the example above, μ=0, we can show a family of curves by plotting σ=1,2,3,4,5 or whatever choices for σ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.