Tại sao họ chọn một phân phối gamma ở đây?


14

Trong một trong những bài tập cho khóa học của tôi, chúng tôi đang sử dụng bộ dữ liệu y tế Kaggle .

Bài tập nói:

chúng tôi muốn mô hình hóa việc phân phối các khoản phí riêng lẻ và chúng tôi cũng thực sự muốn có thể nắm bắt sự không chắc chắn của chúng tôi về phân phối đó để chúng tôi có thể nắm bắt tốt hơn phạm vi của các giá trị mà chúng tôi có thể thấy. Đang tải dữ liệu và thực hiện chế độ xem ban đầu:

âm mưu

Chúng tôi có thể nghi ngờ ở trên rằng có một số loại phân phối theo cấp số nhân đang chơi ở đây. ... Các khoản phí yêu cầu bảo hiểm có thể có thể là đa phương thức. Phân phối gamma có thể được áp dụng và chúng tôi có thể kiểm tra điều này để phân phối các khoản phí không phải là yêu cầu bảo hiểm trước tiên.

Tôi đã tra cứu "Phân phối Gamma" và thấy "một phân phối không chính thống, duy nhất, tích cực, mã hóa thời gian cần thiết cho các sự kiện« alpha »xảy ra trong quy trình Poisson với thời gian đến là« beta »"

Không có thời gian liên quan ở đây, chỉ là các khoản phí không liên quan, được bảo hiểm hoặc không.

Tại sao họ lại chọn phân phối gamma?

Câu trả lời:


27

Khi bạn đang xem xét các mô hình tham số đơn giản để phân phối dữ liệu có điều kiện (nghĩa là phân phối của từng nhóm hoặc phân phối dự kiến ​​cho từng tổ hợp biến dự báo) và bạn đang xử lý phân phối liên tục tích cực , hai lựa chọn phổ biến là Gammalog-Bình thường . Bên cạnh việc thỏa mãn đặc điểm kỹ thuật của miền phân phối (số thực lớn hơn 0), các phân phối này thuận tiện về mặt tính toán và thường có ý nghĩa cơ học.

  • Các log-Normal phân phối có thể dễ dàng bắt nguồn bởi exponentiating một bản phân phối bình thường (ngược lại, log-chuyển lệch log-Normal cho lệch bình thường). Từ quan điểm cơ học, log-Bình thường phát sinh thông qua Định lý giới hạn trung tâm khi mỗi quan sát phản ánh sản phẩm của một số lượng lớn các biến ngẫu nhiên iid. Khi bạn đã chuyển đổi dữ liệu, bạn có quyền truy cập vào rất nhiều công cụ tính toán và phân tích (ví dụ: mọi thứ giả định Định mức hoặc sử dụng các phương pháp bình phương nhỏ nhất).
  • Như câu hỏi của bạn chỉ ra, một cách mà phân phối Gamma phát sinh là phân phối thời gian chờ cho đến khi có sự kiện độc lập với thời gian chờ liên tục xảy ra. Tôi không thể dễ dàng tìm thấy một tài liệu tham khảo cho một mô hình cơ bản về phân phối Gamma của các yêu cầu bảo hiểm, nhưng cũng hợp lý khi sử dụng phân phối Gamma theo quan điểm hiện tượng (ví dụ, mô tả dữ liệu / tính thuận tiện tính toán). Phân phối Gamma là một phần của họ hàm mũ (bao gồm Bình thường nhưng không phải là log-Bình thường), có nghĩa là tất cả các máy móc của các mô hình tuyến tính tổng quátnλcó sẵn; nó cũng có một hình thức đặc biệt thuận tiện để phân tích.

Có những lý do khác người ta có thể chọn cái này hay cái kia - ví dụ, "độ nặng" của đuôi phân phối , có thể rất quan trọng trong việc dự đoán tần suất của các sự kiện cực đoan. Có rất nhiều phân phối tích cực, liên tục khác (ví dụ xem danh sách này ), nhưng chúng có xu hướng được sử dụng trong các ứng dụng chuyên biệt hơn.

Rất ít trong số các bản phân phối này sẽ nắm bắt được đa phương thức mà bạn thấy trong các bản phân phối cận biên ở trên, nhưng đa phương thức có thể được giải thích bằng dữ liệu được nhóm thành các loại được mô tả bởi các dự đoán phân loại được quan sát. Nếu không có các yếu tố dự đoán có thể quan sát được để giải thích tính đa phương thức, người ta có thể chọn điều chỉnh mô hình hỗn hợp hữu hạn dựa trên hỗn hợp của một số phân phối liên tục dương (nhỏ, rời rạc).


1
cũng đáng chú ý rằng các mô hình gamma và lognatural cho kết quả gần như luôn luôn rất giống nhau
carlo

2
Tôi làm việc trong nghiên cứu dịch vụ y tế. Tôi có thể xác nhận rằng nói chung, phân phối gamma hoặc lognatural sẽ là một lựa chọn thích hợp cho một mô hình chi tiêu y tế hoặc số tiền yêu cầu. Phân phối gamma có thể được sử dụng kịp thời cho các mô hình sự kiện, nhưng các mô hình không áp dụng ở đây.
Weiwen Ng

Cảm ơn!! Điều này rất hữu ích.
Vicki B
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.