công cụ ước tính ML dẫn đến giá trị cho tham số rất có thể xảy ra trong tập dữ liệu.
Với các giả định, công cụ ước tính ML là giá trị của tham số có cơ hội tốt nhất để tạo ra tập dữ liệu.
Tôi không thể hiểu một cách trực giác một công cụ ước tính ML sai lệch theo nghĩa "Làm thế nào giá trị có khả năng nhất cho tham số có thể dự đoán giá trị thực của tham số với độ lệch đối với giá trị sai?"
Xu hướng là về kỳ vọng của phân phối mẫu. "Nhiều khả năng tạo ra dữ liệu" không phải là về kỳ vọng phân phối mẫu. Tại sao họ sẽ đi cùng nhau?
Cơ sở mà đáng ngạc nhiên là họ không nhất thiết phải tương ứng là gì?
Tôi đề nghị bạn xem xét một số trường hợp đơn giản của MLE và suy ngẫm về sự khác biệt phát sinh trong những trường hợp cụ thể đó.
Như một ví dụ, hãy xem xét các quan sát trên một bộ đồng phục trên . Quan sát lớn nhất là (nhất thiết) không lớn hơn tham số, vì vậy tham số chỉ có thể nhận các giá trị ít nhất lớn bằng quan sát lớn nhất.(0,θ)
Khi bạn xem xét khả năng cho , nó là (rõ ràng) càng lớn thì gần θ là để quan sát lớn nhất. Vì vậy, nó được tối đa hóa ở mức quan sát lớn nhất; đó là rõ ước tính cho θ nhằm tối đa hóa cơ hội của việc thu thập các mẫu mà bạn có:θθθ
Nhưng mặt khác, nó phải được thiên vị, kể từ khi quan sát lớn nhất là rõ ràng (với xác suất 1) nhỏ hơn giá trị thực sự của ; bất kỳ ước tính nào khác về θ chưa được loại trừ bởi chính mẫu phải lớn hơn nó và phải (khá rõ ràng trong trường hợp này) ít có khả năng tạo ra mẫu.θθ
Kỳ vọng của các quan sát lớn nhất từ là nU(0,θ) , vì vậy cách thông thường để unbias nó là để tận như ước lượng củaθ: θ =n+1nn+1θθ^=n+1nX(n)X(n)
Điều này nằm ở bên phải của MLE, và do đó có khả năng thấp hơn.