Tôi đang đối mặt với một số nghi ngờ trong việc hiểu mức độ tự do được xem xét trong phân phối.
Cụ thể, hãy tham khảo Biến sinh viên, nghĩa là
Trong đó là biến gaussian, là giá trị trung bình, là độ lệch chuẩn lấy từ dữ liệu.
Hàm mật độ xác suất sinh viên là
Và trên sách giáo khoa của tôi, tôi thấy "vì trong xuất hiện giá trị trung bình , được tính từ dữ liệu, hàm ý mất một mức độ tự do".
Câu hỏi: Không phải là sao? Trong tôi có cả và nên có hai tham số được xác định từ dữ liệu.
Mặt khác, ở dạng thứ hai tôi đã viết trong , không xuất hiện, vì vậy có lẽ chỉ nên coi là một ràng buộc đối với dữ liệu. Nhưng điều này không có nhiều ý nghĩa.
Vì vậy, trong những trường hợp mà cả giá trị trung bình và độ lệch chuẩn được xác định từ dữ liệu, mức độ tự do bị mất 2 hay chỉ 1?
Đây là một nghi ngờ chung hơn: khi có nhiều hơn một tham số được xác định từ dữ liệu, nhưng theo một số cách, các tham số này có liên quan (vì nó dành cho và ), có bao nhiêu bậc tự do bị mất nếu tất cả các tham số này được xem xét?
Ví dụ: tôi xác định tham số từ cùng một bộ dữ liệu. Tất cả các tham số có thể được biểu thị dưới dạng các hàm của dữ liệu và . Bây giờ tôi xem xét tất cả các tham số cùng nhau: tôi đã mất bao nhiêu bậc tự do? hay chỉ ?