Không phân phối bình thường cho phép các giá trị âm?
Chính xác. Nó cũng không có giới hạn trên.
Trong một phần của sách giáo khoa của tôi, nó nói rằng một bản phân phối bình thường có thể tốt cho việc lập mô hình điểm thi.
Mặc dù các tuyên bố trước đây, tuy nhiên đôi khi đây là trường hợp. Nếu bạn có nhiều thành phần để kiểm tra, không liên quan quá nhiều (ví dụ như vậy về cơ bản bạn không phải là một câu hỏi hàng chục lần, cũng không có mỗi phần yêu cầu một câu trả lời đúng cho phần trước), và không dễ hoặc rất khó ( sao cho hầu hết các nhãn hiệu nằm ở đâu đó gần giữa), sau đó các nhãn hiệu thường có thể được xấp xỉ một cách hợp lý bởi một phân phối bình thường; thường đủ tốt để phân tích điển hình nên gây ra ít quan tâm.
Chúng tôi biết chắc chắn rằng chúng không bình thường , nhưng đó không phải là vấn đề tự động - miễn là hành vi của các quy trình chúng tôi sử dụng đủ gần với mục đích của chúng tôi (ví dụ: lỗi tiêu chuẩn, khoảng tin cậy, mức ý nghĩa và sức mạnh - bất cứ điều gì cần thiết - làm gần với những gì chúng ta mong đợi)
Trong phần tiếp theo, nó hỏi phân phối nào sẽ phù hợp để mô hình hóa yêu cầu bảo hiểm xe hơi. Lần này, nó nói rằng các bản phân phối phù hợp sẽ là Gamma hoặc Inverse Gaussian vì chúng liên tục chỉ có các giá trị dương.
Có, nhưng hơn thế - chúng có xu hướng bị lệch rất nhiều và độ biến thiên có xu hướng tăng khi giá trị trung bình lớn hơn.
Dưới đây là ví dụ về phân phối kích thước yêu cầu cho khiếu nại xe:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Hình 5 từ Garrido, Genest & Schulz (2016) "Các mô hình tuyến tính tổng quát cho tần suất phụ thuộc và mức độ nghiêm trọng của yêu cầu bảo hiểm", Bảo hiểm: Toán học và Kinh tế, Tập 70, Tháng Chín, p205-215. Https: //www.scTHERirect. com / khoa học / bài báo / pii / S0167668715303358 )
Điều này cho thấy một cái đuôi phải lệch và nặng bên phải điển hình. Tuy nhiên, chúng tôi phải rất cẩn thận vì đây là phân phối biên và chúng tôi đang viết một mô hình cho phân phối có điều kiện , thường sẽ ít bị lệch hơn (phân phối cận biên mà chúng tôi xem xét nếu chúng tôi chỉ thực hiện một biểu đồ kích thước xác nhận là hỗn hợp của các phân phối có điều kiện). Tuy nhiên, thông thường là nếu chúng ta nhìn vào kích thước xác nhận trong các nhóm con của các yếu tố dự đoán (có thể phân loại các biến liên tục) thì phân phối vẫn bị lệch rất mạnh và khá nặng ở bên phải, cho thấy rằng một cái gì đó giống như mô hình gamma * là có khả năng phù hợp hơn nhiều so với mô hình Gaussian.
* có thể có bất kỳ số lượng phân phối nào khác phù hợp hơn Gaussian - Gaussian nghịch đảo là một lựa chọn khác - mặc dù ít phổ biến hơn; Các mô hình lognatural hoặc Weibull, trong khi không phải là GLM khi chúng đứng, cũng có thể khá hữu ích.
[Rất hiếm khi các phân phối này là những mô tả gần như hoàn hảo; chúng gần đúng không chính xác, nhưng trong nhiều trường hợp đủ tốt để phân tích là hữu ích và gần với các thuộc tính mong muốn.]
Chà, tôi tin rằng điểm thi cũng sẽ liên tục chỉ với các giá trị dương, vậy tại sao chúng ta sẽ sử dụng phân phối bình thường ở đó?
Bởi vì (trong các điều kiện tôi đã đề cập trước đây - rất nhiều thành phần, không quá phụ thuộc, không khó hoặc dễ), phân phối có xu hướng khá gần với đối xứng, không đồng đều và không nặng nề.