Mục tiêu của khả năng phù hợp tối đa là xác định các tham số của một số phân phối phù hợp nhất với dữ liệu - và nói chung, cách các tham số có thể thay đổi theo hiệp phương sai. Trong trường hợp của GLMs, chúng tôi muốn xác định các thông số của một số phân phối gia đình mũ, và làm thế nào họ là một chức năng của một số đồng biến X .θX
Đối với bất kỳ phân phối xác suất trong gia đình mũ overdispersed, giá trị trung bình được đảm bảo là có liên quan đến mũ tham số gia đình kinh điển θ thông qua liên kết chức năng kinh điển, θ = g ( μ ) . Chúng ta thậm chí có thể xác định một công thức chung cho g và thông thường g cũng không thể đảo ngược. Nếu chúng ta chỉ cần đặt μ = g - 1 ( θ ) và θ = X β , chúng tôi tự động nhận được một mô hình cho cách μ và θ thay đổi theoμθθ = g( μ )ggμ = g- 1( θ )θ = Xβμθ , cho dù chúng ta đang xử lý phân phối nào, và mô hình đó có thểdễ dàng và đáng tin cậy phù hợp với dữ liệu bằng cách tối ưu hóa lồi. Câu trả lời của Mattcho thấy cách thức hoạt động của bản phân phối Bernoulli, nhưng điều kỳ diệu thực sự là nó hoạt động cho mọi phân phối trong gia đình.X
Chế độ không được hưởng các tính chất này. Trong thực tế, như Cliff AB chỉ ra, chế độ thậm chí có thể không có mối quan hệ phỏng đoán với tham số phân phối, do đó suy luận từ chế độ có sức mạnh rất hạn chế. Lấy phân phối Bernoulli, ví dụ. Chế độ của nó là 0 hoặc 1 và biết chế độ chỉ cho bạn biết liệu , xác suất 1, lớn hơn hay nhỏ hơn 1/2. Ngược lại, giá trị trung bình cho bạn biết chính xác p là gì .pp
Bây giờ, để làm rõ một số nhầm lẫn trong câu hỏi: khả năng tối đa không phải là tìm chế độ phân phối, bởi vì khả năng không giống như chức năng phân phối. Khả năng liên quan đến phân phối mô hình của bạn trong công thức của nó, nhưng đó là nơi tương tự kết thúc. Hàm likelihood có một giá trị tham số θ như đầu vào, và nói với bạn như thế nào "khả năng" của bạn toàn bộ số liệu được, do sự phân bố mô hình có mà θ . Sự phân bố mô hình e θ ( y ) phụ thuộc vào θ , nhưng như một chức năng, phải mất một giá trị yL ( θ )θθfθ( y)θylàm đầu vào và cho bạn biết tần suất một mẫu ngẫu nhiên từ phân phối đó sẽ bằng . Tối đa là L ( θ ) và phương thức f θ ( y ) không phải là điều tương tự.yL ( θ )fθ( y)
Có lẽ nó giúp để xem công thức của khả năng. Trong trường hợp của IID dữ liệu , chúng ta có
L ( θ ) = n Π i = 1 f θ ( y i )
Các giá trị của y i đều cố định - họ là những giá trị từ bạn dữ liệu. Khả năng tối đa là tìm θ nhằm tối đa hóa L ( θ ) . Tìm chế độ phân phối sẽ là tìm y tối đa hóa fy1, y2, ... , yn
L ( θ ) = Πi = 1nfθ( yTôi)
yTôiθL ( θ )y , đó không phải là điều chúng ta muốn:
y được cố định theo khả năng, không phải là một biến.
fθ( y)y
Vì vậy, việc tìm tối đa của hàm khả năng, nói chung, không giống như tìm chế độ phân phối mô hình. (Đây là chế độ của một bản phân phối khác , nếu bạn hỏi một người Bayes khách quan, nhưng đó là một câu chuyện rất khác!)