Tại sao thời gian sống sót được giả định là phân phối theo cấp số nhân?


36

Tôi đang học phân tích sinh tồn từ bài đăng này trên UCLA IDRE và đã tăng gấp ba tại mục 1.2.1. Hướng dẫn nói:

... Nếu thời gian sống sót được biết là phân bố theo cấp số nhân , thì xác suất quan sát thời gian sống sót ...

Tại sao thời gian sống sót được giả định là phân phối theo cấp số nhân? Nó có vẻ rất không tự nhiên với tôi.

Tại sao không được phân phối bình thường? Giả sử chúng ta đang điều tra tuổi thọ của một số sinh vật trong một số điều kiện nhất định (nói số ngày), liệu có nên tập trung hơn vào một số với một số phương sai (giả sử 100 ngày với phương sai 3 ngày)?

Nếu chúng ta muốn thời gian là hoàn toàn tích cực, tại sao không thực hiện phân phối bình thường với phương sai trung bình cao hơn và rất nhỏ (sẽ gần như không có cơ hội để có được số âm.)?


9
Về mặt heurist, tôi không thể nghĩ phân phối bình thường như một cách trực quan để mô hình hóa thời gian thất bại. Nó không bao giờ bị cắt xén trong bất kỳ công việc ứng dụng nào của tôi. Họ luôn bị lệch rất xa phải không. Tôi nghĩ rằng các phân phối bình thường theo phương pháp heuristur xuất hiện như một vấn đề trung bình, trong khi đó thời gian sống sót lại xuất hiện như một vấn đề cực đoan như ảnh hưởng của một mối nguy liên tục được áp dụng cho một chuỗi các thành phần song song hoặc chuỗi.
AdamO 17/03/2017

6
Tôi đồng ý với @AdamO về các bản phân phối cực đoan vốn có để tồn tại và thời gian đến thất bại. Như những người khác đã lưu ý, các giả định theo cấp số nhân có lợi thế là dễ điều khiển. Vấn đề lớn nhất với họ là giả định ngầm định về tốc độ phân rã không đổi. Các hình thức chức năng khác là có thể và có các tùy chọn tiêu chuẩn tùy thuộc vào phần mềm, ví dụ: gamma tổng quát. Mức độ tốt của các bài kiểm tra phù hợp có thể được sử dụng để kiểm tra các hình thức chức năng và giả định khác nhau. Văn bản tốt nhất về mô hình sinh tồn là Phân tích sinh tồn của Paul Allison bằng cách sử dụng SAS, tái bản lần 2. Quên SAS - đó là một đánh giá xuất sắc
Mike Hunter

8
Tôi sẽ lưu ý rằng từ đầu tiên trong trích dẫn của bạn là " nếu "
Fomite 17/03/2017

Câu trả lời:


41

Phân phối theo cấp số nhân thường được sử dụng để mô hình hóa thời gian tồn tại bởi vì chúng là các phân phối đơn giản nhất có thể được sử dụng để mô tả dữ liệu sinh tồn / độ tin cậy. Điều này là do chúng không có bộ nhớ, và do đó chức năng nguy hiểm là hằng số thời gian w / r / t, khiến cho việc phân tích rất đơn giản. Loại giả định này có thể hợp lệ, ví dụ, đối với một số loại linh kiện điện tử như mạch tích hợp chất lượng cao. Tôi chắc rằng bạn có thể nghĩ ra nhiều ví dụ hơn trong đó ảnh hưởng của thời gian đến nguy hiểm có thể được coi là không đáng kể.

Tuy nhiên, bạn đúng khi nhận thấy rằng đây sẽ không phải là một giả định thích hợp để thực hiện trong nhiều trường hợp. Phân phối bình thường có thể ổn trong một số tình huống, mặc dù rõ ràng thời gian sống sót tiêu cực là vô nghĩa. Vì lý do này, phân phối logic thường được xem xét. Các lựa chọn phổ biến khác bao gồm Weibull, Giá trị cực nhỏ nhất, Giá trị cực lớn nhất, Hậu cần, v.v ... Một lựa chọn hợp lý cho mô hình sẽ được thông báo bằng kinh nghiệm trong lĩnh vực chủ đề và âm mưu xác suất . Tất nhiên, bạn cũng có thể xem xét mô hình hóa không tham số.

Một tài liệu tham khảo tốt cho mô hình tham số cổ điển trong phân tích sinh tồn là: William Q. Meeker và Luis A. Escobar (1998). Phương pháp thống kê dữ liệu độ tin cậy , Wiley


bạn có thể nói rõ hơn về "chức năng nguy hiểm là hằng số thời gian w / r / t" không?
Haitao Du

4
@ hxd1011: Có lẽ bởi "chức năng nguy hiểm" tác giả được đề cập đến chức năng do r X ( t ) = f X ( t ) / ˉ F X ( t ) , nơi f X là pdf của Xˉ F X là đuôi của X ( ˉ F X ( t ) = 1 - F X ( t ) = trXrX(t)=fX(t)/F¯X(t)fXXF¯XX ). Đây cũng được gọi làtỷ lệ thất bại. Các quan sát là đối với Exp ( λ ) , tỷ lệ thất bại là r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λ , mà là hằng số. Hơn nữa, không khó để chỉ ra rằngchỉ cóphân phối theo cấp số nhân mới có thuộc tính này. F¯X(t)=1FX(t)=tfX(x)dxExp(λ)r(t)=(λeλt)/(eλt)=λ
wchargein

22

Để thêm một chút trực giác toán học đằng sau cách các số mũ xuất hiện trong các bản phân phối sinh tồn:

Mật độ xác suất của biến sinh tồn là , trong đó h ( t ) là mối nguy hiểm hiện tại (nguy cơ khiến một người "chết" trong ngày này) và S ( t ) là xác suất một người sống sót cho đến khi t . S ( t ) có thể được mở rộng như xác suất một người sống sót vào ngày 1 và sống sót vào ngày 2, ... cho đến ngày t . Sau đó: P ( s u r v if(t)=h(t)S(t)h(t)S(t)tS(t)tP ( s u r v i v đ d d một y s 1 , 2 , . . . , t ) = ( 1 - h ( t ) ) t Với liên tục và nguy hiểm nhỏ λ , chúng ta có thể sử dụng: e - λ1 -

P(survived day t)=1h(t)
P(survived days 1,2,...,t)=(1h(t))t
λ để xấp xỉ S ( t ) một cách đơn giản ( 1 - λ ) te - λ t , và mật độ xác suất là sau đó f ( t ) = h ( t ) S ( t ) = λ e - λ t
eλ1λ
S(t)
(1λ)teλt
f(t)=h(t)S(t)=λeλt

Tuyên bố miễn trừ trách nhiệm: đây không phải là một nỗ lực cho một dẫn xuất đúng đắn của pdf - Tôi chỉ hình dung đây là một sự trùng hợp gọn gàng và hoan nghênh mọi bình luận về lý do tại sao điều này đúng / không chính xác.

EDIT: đã thay đổi xấp xỉ theo lời khuyên của @SamT, xem các bình luận để thảo luận.


1
+1 điều này giúp tôi hiểu thêm về các thuộc tính của phân phối theo cấp số nhân.
Haitao Du

1
S(t)=...tλt(1+x/n)n exx=o(n)limt(1λt/t)t=eλtt

@SamT - cảm ơn đã bình luận, chỉnh sửa. Đến từ một nền tảng được áp dụng, tôi rất hoan nghênh bất kỳ sự điều chỉnh nào, đặc biệt. về ký hiệu. Vượt qua giới hạn wrt chắc chắn là không cần thiết ở đó, nhưng tôi vẫn tin rằng phép tính gần đúng giữ cho nhỏ , như thường gặp trong các mô hình sinh tồn. Hoặc bạn có thể nói rằng có một cái gì đó khác ngẫu nhiên làm cho xấp xỉ này giữ? tλ
juod 17/03/2017

1
Bây giờ có vẻ tốt hơn :) - vấn đề là trong khi có thể nhỏ thì không đúng vì nhất thiết phải nhỏ; như vậy, bạn không thể sử dụng phép tính gần đúng (trực tiếp): thậm chí không phải là "bạn có thể trong toán học ứng dụng nhưng không thể thuần túy"; nó hoàn toàn không giữ Tuy nhiên , chúng ta có thể giải quyết vấn đề này: chúng ta có nhỏ, vì vậy chúng ta có thể đến đó trực tiếp, viếtTất nhiên, , do đó chúng ta có thể suy ra rằngλ t ( 1 + x / n ) ne x λ e - λ t = ( e - λ ) t( 1 - λ ) t . λλt
(1+x/n)nex
λ
eλt=(eλ)t(1λ)t.
e - λ t( 1 - λ t / t ) t .λ=λt/t
eλt(1λt/t)t.
Sâm T

Khi được áp dụng, bạn có thể cảm thấy điều này hơi kén chọn, nhưng vấn đề là lý do không hợp lệ; các bước không hợp lệ tương tự có thể không xảy ra là đúng. Tất nhiên, như một người nào đó đã áp dụng, bạn có thể rất vui khi thực hiện bước này, tìm thấy nó được giữ trong phần lớn các trường hợp và không lo lắng về các chi tiết cụ thể! Là một người làm toán thuần túy, đây không phải là câu hỏi đối với tôi, nhưng tôi hiểu rằng chúng ta cần cả thuần túy và áp dụng! (Và đặc biệt là trong các số liệu thống kê, thật tốt khi không bị sa lầy vào các kỹ thuật thuần túy.)
Sam T

11

Bạn gần như chắc chắn muốn xem xét kỹ thuật tin cậy và dự đoán để phân tích kỹ lưỡng về thời gian sống sót. Trong đó, có một vài bản phân phối được sử dụng thường xuyên:

Phân phối Weibull (hoặc "bồn tắm") là phức tạp nhất. Nó chiếm ba loại chế độ thất bại, chiếm ưu thế ở các độ tuổi khác nhau: tỷ lệ tử vong ở trẻ sơ sinh (nơi bộ phận bị hỏng sớm), lỗi gây ra (nơi bộ phận bị phá vỡ ngẫu nhiên trong suốt vòng đời của hệ thống) và bị hao mòn (nơi bộ phận bị hỏng sử dụng). Khi được sử dụng, nó có một tệp PDF trông giống như "\ __ /". Đối với một số thiết bị điện tử, đặc biệt, bạn có thể nghe về thời gian "đốt cháy", điều đó có nghĩa là những bộ phận đó đã được vận hành thông qua phần "\" của đường cong và những thất bại sớm đã được sàng lọc (lý tưởng). Thật không may, phân tích Weibull bị hỏng nhanhnếu các bộ phận của bạn không đồng nhất (bao gồm cả môi trường sử dụng!) hoặc nếu bạn đang sử dụng chúng ở các thang thời gian khác nhau (ví dụ: nếu một số bộ phận được sử dụng trực tiếp và các bộ phận khác được đưa vào lưu trữ trước tiên, tỷ lệ "lỗi ngẫu nhiên" sẽ xảy ra khác biệt đáng kể, do pha trộn hai phép đo thời gian (giờ hoạt động so với giờ sử dụng).

Phân phối bình thường hầu như luôn luôn sai. Mỗi phân phối bình thường có giá trị âm, không phân phối độ tin cậy nào. Chúng đôi khi có thể là một xấp xỉ hữu ích, nhưng thời điểm đó là sự thật, bạn hầu như luôn luôn nhìn vào một log-normal, vì vậy bạn cũng có thể sử dụng phân phối đúng. Các bản phân phối thông thường được sử dụng một cách chính xác khi bạn có một số lỗi hao mòn ngẫu nhiên và không đáng kể, và trong mọi trường hợp khác! Giống như phân phối Bình thường, chúng đủ linh hoạt để bạn có thể buộc chúng phù hợp với hầu hết dữ liệu; bạn cần chống lại sự thôi thúc đó và kiểm tra xem hoàn cảnh có hợp lý không.

Cuối cùng, phân phối theo cấp số nhân là công việc thực sự. Bạn thường không biết các bộ phận cũ là bao nhiêu (ví dụ: khi các bộ phận không được tuần tự hóa và có thời gian khác nhau khi chúng được đưa vào dịch vụ), do đó, mọi phân phối dựa trên bộ nhớ đều bị loại bỏ. Ngoài ra, nhiều phần có thời gian hao mòn quá dài tùy ý đến mức nó hoàn toàn bị chi phối bởi các lỗi gây ra hoặc nằm ngoài khung thời gian hữu ích của phân tích. Vì vậy, trong khi nó có thể không phải là một mô hình hoàn hảo như các bản phân phối khác, nó chỉ không quan tâm đến những thứ khiến chúng tăng tốc. Nếu bạn có MTTF (số lần thất bại / thời gian dân số), bạn có phân phối theo cấp số nhân. Trên hết, bạn không cần bất kỳ hiểu biết vật lý nào về hệ thống của bạn. Bạn có thể làm dự toán theo cấp số nhân chỉdựa trên các MTTF được quan sát (giả sử một mẫu đủ lớn) và chúng xuất hiện khá gần. Nó cũng có khả năng phục hồi các nguyên nhân: nếu mỗi tháng, một người nào đó cảm thấy buồn chán và chơi croquet với một số phần cho đến khi nó bị hỏng, tài khoản theo cấp số nhân cho điều đó (nó cuộn vào MTTF). Hàm mũ cũng đủ đơn giản để bạn có thể thực hiện các phép tính ngược cho sự sẵn có của các hệ thống dự phòng và như vậy, điều này làm tăng đáng kể tính hữu dụng của nó.


3
Đây là một câu trả lời tốt, nhưng lưu ý rằng phân phối Weibull không phải là phân phối tham số "phức tạp nhất" cho các mô hình sinh tồn. Tôi không chắc có thể có một thứ như vậy không, nhưng chắc chắn có liên quan đến Weibull có phân phối Gamma tổng quátphân phối F tổng quát , cả hai đều có thể lấy Weibull làm trường hợp đặc biệt bằng cách đặt tham số thành 0.
gung - Phục hồi Monica

Đó là một thứ phức tạp nhất thường được sử dụng trong kỹ thuật độ tin cậy (đoạn đầu :) Tôi không đồng ý với quan điểm của bạn, nhưng tôi cũng chưa bao giờ thấy thực sự được sử dụng (viết về cách chúng có thể được sử dụng, vâng. )
fectin - miễn phí Monica

9

Để trả lời câu hỏi rõ ràng của bạn, bạn không thể sử dụng phân phối bình thường cho sự sống còn bởi vì phân phối bình thường đi đến vô cùng tiêu cực và sự sống còn hoàn toàn không âm tính. Hơn nữa, tôi không nghĩ rằng "thời gian sống sót được cho là phân phối theo cấp số nhân" bởi bất kỳ ai trong thực tế.

Khi thời gian tồn tại được mô hình hóa theo tham số (nghĩa là khi bất kỳ phân phối có tên nào được gọi), phân phối Weibull là nơi bắt đầu điển hình. Lưu ý rằng Weibull có hai tham số, hình dạng và tỷ lệ và khi hình dạng = 1, Weibull đơn giản hóa để phân phối theo cấp số nhân. Một cách nghĩ về điều này là phân phối theo cấp số nhân phân phối tham số đơn giản nhất có thể cho thời gian sống sót, đó là lý do tại sao nó thường được thảo luận đầu tiên khi phân tích sinh tồn được dạy. (Bằng cách tương tự, hãy xem xét rằng chúng ta thường bắt đầu dạy kiểm tra giả thuyết bằng cách đi qua -test một mẫu , trong đó chúng ta giả vờ biết dân số SD a-prori, và sau đó làm việc đến -test.) tzt

Phân phối theo cấp số nhân giả định rằng mối nguy hiểm luôn giống hệt nhau, bất kể một đơn vị đã tồn tại bao lâu (xem xét con số trong câu trả lời của @ CaffeineConnoisseur ). Ngược lại, khi hình dạng trong phân phối Weibull, điều đó ngụ ý rằng các mối nguy hiểm sẽ tăng thời gian bạn tồn tại lâu hơn (như 'đường cong con người'); và khi nó , nó ngụ ý nguy cơ giảm ('cây'). < 1>1<1

Thông thường nhất, phân phối tồn tại là phức tạp và không phù hợp với bất kỳ phân phối được đặt tên. Mọi người thường không bận tâm đến việc cố gắng tìm ra phân phối của nó. Đó là điều làm cho mô hình mối nguy theo tỷ lệ Cox trở nên phổ biến: nó là bán tham số ở chỗ nguy cơ cơ sở có thể hoàn toàn không được xác định nhưng phần còn lại của mô hình có thể là tham số về mối quan hệ của nó với đường cơ sở không xác định.


4
"Hơn nữa, tôi không nghĩ đúng là" thời gian sống sót được cho là phân phối theo cấp số nhân "bởi bất kỳ ai trong thực tế." Tôi thực sự đã tìm thấy nó khá phổ biến trong dịch tễ học, thường là ngầm.
Fomite 17/03/2017

1
@gung, bạn có thể vui lòng giải thích - điều này là bán tham số ở chỗ nguy cơ cơ bản có thể không được xác định hoàn toàn nhưng phần còn lại của mô hình có thể là tham số về mối quan hệ của nó với đường cơ sở không xác định
Gaurav Singhal

7

Một số sinh thái học có thể giúp trả lời "Tại sao" đằng sau câu hỏi này.

Lý do tại sao phân phối theo cấp số nhân được sử dụng để mô hình hóa sự sống còn là do các chiến lược cuộc sống liên quan đến các sinh vật sống trong tự nhiên. Về cơ bản có hai thái cực liên quan đến chiến lược sinh tồn với một số chỗ cho tầng trệt.

Đây là một hình ảnh minh họa những gì tôi muốn nói (lịch sự của Khan Academy):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivocate-age-sex-structure

Biểu đồ này vẽ sơ đồ các cá nhân sống sót trên trục Y và "tỷ lệ phần trăm tuổi thọ tối đa" (còn gọi là xấp xỉ tuổi của cá nhân) trên trục X.

Loại I là con người, là những sinh vật mẫu mực có mức độ chăm sóc con cái cực kỳ cao, đảm bảo tỷ lệ tử vong ở trẻ sơ sinh rất thấp. Thông thường những loài này có rất ít con cái vì mỗi con cần một lượng lớn thời gian và công sức của cha mẹ. Phần lớn những gì giết chết sinh vật loại I là loại biến chứng phát sinh ở tuổi già. Chiến lược ở đây là đầu tư cao cho mức chi trả cao trong cuộc sống lâu dài, năng suất, nếu phải trả giá bằng số lượng tuyệt đối.

Ngược lại, Loại III được mô hình hóa bằng cây (nhưng cũng có thể là sinh vật phù du, san hô, cá đẻ trứng, nhiều loại côn trùng, v.v.) mà bố mẹ đầu tư tương đối ít vào mỗi con, nhưng tạo ra một tấn chúng với hy vọng rằng một số ít sẽ tồn tại Chiến lược ở đây là "phun và cầu nguyện" với hy vọng rằng trong khi hầu hết con cái sẽ bị tiêu diệt tương đối nhanh chóng bởi những kẻ săn mồi lợi dụng sự chọn lựa dễ dàng, thì một số ít sống sót đủ lâu để phát triển sẽ ngày càng khó giết, cuối cùng trở thành không thể ăn Trong khi đó, những cá thể này tạo ra một số lượng lớn con cái với hy vọng rằng một số ít sẽ sống sót đến tuổi của chúng.

Loại II là một chiến lược trung gian với sự đầu tư của cha mẹ vừa phải cho khả năng sống sót vừa phải ở mọi lứa tuổi.

Tôi đã có một giáo sư sinh thái học theo cách này:

"Loại III (cây) là 'Đường cong của hy vọng', bởi vì một cá thể sống sót càng lâu, nó càng có khả năng tiếp tục tồn tại. Trong khi đó, Loại I (con người) là 'Đường cong tuyệt vọng', bởi vì càng dài bạn sống, càng có nhiều khả năng bạn sẽ chết. "


Điều này thật thú vị, nhưng lưu ý rằng đối với con người, trước khi y học hiện đại (& vẫn còn ở một số nơi trên thế giới ngày nay), tỷ lệ tử vong ở trẻ sơ sinh là rất cao. Sự sống còn của con người thường được mô phỏng theo " nguy cơ bồn tắm ".
gung - Phục hồi Monica

@gung Hoàn toàn, đây là một khái quát rộng rãi và có sự khác biệt trong con người của các khu vực và khoảng thời gian khác nhau. Sự khác biệt chính là rõ ràng hơn khi bạn so sánh các thái cực, tức là các gia đình người phương Tây (~ 2,5 con mỗi cặp, hầu hết chúng không chết trong giai đoạn trứng nước) so với san hô hoặc cá đẻ trứng (hàng triệu trứng được thả ra trong mỗi chu kỳ giao phối, hầu hết trong số đó chết vì bị ăn, chết đói, hóa học nước nguy hiểm hoặc đơn giản là không trôi dạt vào một điểm đến có thể ở được)
CaffeineConnoisseur

1
Trong khi tôi chỉ giải thích về sinh thái học, tôi sẽ lưu ý các giả định như thế này cũng được tạo ra cho những thứ như ổ cứng và động cơ máy bay.
Fomite 17/03/2017

6

Điều này không trực tiếp trả lời câu hỏi, nhưng tôi nghĩ nó rất quan trọng cần lưu ý và không phù hợp với một bình luận.

Mặc dù phân bố hàm mũ có đạo hàm lý thuyết rất hay và do đó, giả sử dữ liệu được tạo ra tuân theo các cơ chế được giả định trong phân bố hàm mũ, về mặt lý thuyết , nó sẽ đưa ra các ước tính tối ưu, trong thực tế tôi chưa chạy vào một tập dữ liệu trong đó phân phối theo hàm mũ gần với kết quả chấp nhận được (tất nhiên, điều này phụ thuộc vào loại dữ liệu tôi đã phân tích, gần như tất cả dữ liệu sinh học). Ví dụ, tôi chỉ xem xét việc lắp một mô hình với nhiều bản phân phối bằng cách sử dụng tập dữ liệu đầu tiên tôi có thể tìm thấy trong gói R của mình. Để kiểm tra mô hình phân phối đường cơ sở, chúng tôi thường so sánh với mô hình bán tham số. Hãy nhìn vào kết quả.

Đường cong sinh tồn

Trong phân phối của Weibull, log-logistic và log-normal, không có người chiến thắng rõ ràng tuyệt đối về mặt phù hợp. Nhưng có một kẻ thua cuộc rõ ràng: phân phối theo cấp số nhân! Đó là kinh nghiệm của tôi rằng mức độ phù hợp sai lầm này không phải là ngoại lệ, mà là tiêu chuẩn cho phân phối theo cấp số nhân.

Tại sao? Bởi vì phân bố mũ là một họ tham số duy nhất. Do đó, nếu tôi chỉ định giá trị trung bình của phân phối này, tôi đã chỉ định tất cả các thời điểm khác của phân phối. Những gia đình khác là tất cả hai gia đình tham số. Do đó, những gia đình đó linh hoạt hơn rất nhiều để thích nghi với dữ liệu.

Bây giờ hãy nhớ rằng phân phối Weibull có phân phối theo cấp số nhân như một trường hợp đặc biệt (tức là khi tham số hình dạng = 1). Vì vậy, ngay cả khi dữ liệu thực sự là theo cấp số nhân, chúng tôi chỉ thêm một chút nhiễu vào ước tính của mình bằng cách sử dụng phân phối Weibull trên phân phối theo cấp số nhân. Như vậy, tôi sẽ không bao giờ khuyên bạn nên sử dụng phân phối theo cấp số nhân để mô hình hóa dữ liệu thực (và tôi tò mò muốn biết liệu có độc giả nào có ví dụ về việc đó thực sự là một ý tưởng hay không).


1
Tôi không bị thuyết phục bởi câu trả lời này: 1) "sử dụng tập dữ liệu đầu tiên tôi có thể tìm thấy trong gói R của mình" ... Thật sao? ... trên thống kê.stackexchange? Một mẫu ngẫu nhiên và chúng tôi rút ra kết luận chung? 1b) Đối với các mô hình trong đó thời gian thất bại có xu hướng được phân phối xung quanh một giá trị nhất định (như cuộc sống của mọi người), rõ ràng các phân phối như Gamma, Weibull, v.v ... phù hợp hơn; khi các sự kiện có thể xảy ra như nhau, phân phối theo cấp số nhân sẽ phù hợp hơn. Tôi đặt cược "tập dữ liệu đầu tiên" của bạn ở trên là loại đầu tiên. 2) Tất cả các mô hình khác có 2 tham số, một tham số nên sử dụng, ví dụ hệ số Bayes để so sánh các mô hình.
Luca Citi

2
@LucaCiti: "tập dữ liệu đầu tiên trong gói R của tôi" có nghĩa là tập dữ liệu đầu tiên trong gói R mà tôi đã xuất bản (icenReg). Và tôi đã lưu ý rằng trải nghiệm của tôi với phân phối theo cấp số nhân luôn có mức độ phù hợp kém phụ thuộc vào loại dữ liệu tôi đã phân tích; hầu như chỉ có dữ liệu sinh học. Cuối cùng, như tôi đã nói cuối cùng, tôi rất tò mò muốn nghe các ví dụ thực tế được áp dụng trong đó có một lý do thuyết phục để sử dụng phân phối theo cấp số nhân, vì vậy nếu bạn có một, hãy chia sẻ.
Vách đá AB

1
Kịch bản khi bạn có thể muốn sử dụng phân phối theo cấp số nhân là khi (a) bạn có nhiều dữ liệu lịch sử cho thấy dữ liệu thực sự gần đúng với phân bố theo cấp số nhân và (b) bạn cần suy luận với các mẫu nhỏ ( tức là n <10). Nhưng tôi không biết bất kỳ ứng dụng thực tế nào như thế này. Có thể trong một số loại vấn đề kiểm soát chất lượng sản xuất?
Vách đá AB

1
Xin chào Cliff, cảm ơn vì đã dành thời gian trả lời bình luận của tôi. Tôi nghĩ đại khái là một phân phối như Weibull phù hợp với các tình huống tốt hơn tương ứng với các câu hỏi như "thời gian sống của cá nhân x trong mẫu của tôi là bao nhiêu" hoặc "khi nào nơ ron x lại bắt đầu cháy" hay "khi nào thì đom đóm x lại xuất hiện ". Ngược lại, một mô hình phân phối theo cấp số nhân như "khi nào thì cái chết tiếp theo dự kiến ​​sẽ xảy ra trong dân số của tôi", "khi nào thì tế bào thần kinh tiếp theo sẽ phát hỏa" hay "khi nào một con đom đóm trong bầy sẽ lóe lên"
Luca Citi

@LucaCiti; ha, chỉ cần biết rằng cú chọc trước đó của bạn là một trò đùa về việc suy luận với n = 1. Không biết lần đầu tiên tôi đã bỏ lỡ nó như thế nào. Để bảo vệ tôi, nếu chúng ta có lý thuyết nói rằng công cụ ước tính nên bình thường không có triệu chứng nhưng nó có hơn 4 độ lệch chuẩn so với các ước tính bình thường không có triệu chứng khác, thì chúng ta có thể! Nhưng trong tất cả sự nghiêm túc, đó không phải là một âm mưu thuyết phục tôi, mà là nhìn thấy cùng một mức độ sai lệch. Tôi có thể bị chặn nếu tôi spam hơn 20 lô phù hợp theo cấp số nhân xấu.
Vách đá AB

4

Một lý do khác khiến phân phối theo cấp số nhân tăng lên thường xuyên theo mô hình giữa các sự kiện là như sau.

Người ta biết rằng, theo một số giả định, tổng của một số lượng lớn các biến ngẫu nhiên độc lập sẽ gần với phân phối Gaussian. Một định lý tương tự áp dụng cho các quy trình đổi mới , tức là các mô hình ngẫu nhiên cho các sự kiện xảy ra ngẫu nhiên theo thời gian với các khoảng thời gian giữa các sự kiện IID. Trên thực tế, định lý PalmTHER Khintchine nói rằng sự chồng chất của một số lượng lớn các quá trình đổi mới (không nhất thiết là Poissonia) hoạt động không có triệu chứng giống như một quá trình Poisson . Các khoảng thời gian giữa các sự kiện của một quá trình Poisson được phân phối theo cấp số nhân.


3

tl; dr - Một phân phối mở rộng tương đương với giả định rằng các cá nhân có khả năng chết tại bất kỳ thời điểm nào như bất kỳ thời điểm nào khác.

Đạo hàm

  1. Giả sử rằng một cá thể sống có khả năng chết tại bất kỳ thời điểm nào như bất kỳ thời điểm nào khác.

  2. dPdtP

dPdt  P
  1. Giải quyết trên WolframAlpha cho thấy:

P(t)=c1et

Vì vậy, dân số theo một phân phối theo cấp số nhân.

Toán ghi chú

c0P(t0)t0

P(t)=etP(t0).

Kiểm tra thực tế

Phân bố theo cấp số nhân giả định rằng những người trong dân số có xu hướng chết với cùng tốc độ theo thời gian. Trong thực tế, tỷ lệ tử vong sẽ có xu hướng thay đổi đối với dân số hữu hạn.

Đến với các phân phối tốt hơn liên quan đến phương trình vi phân ngẫu nhiên . Sau đó, chúng ta không thể nói rằng có khả năng tử vong liên tục; thay vào đó, chúng ta phải đưa ra một phân phối cho tỷ lệ chết của từng cá nhân tại bất kỳ thời điểm nào, sau đó kết hợp các cây khả năng khác nhau lại với nhau cho toàn bộ dân số, sau đó giải phương trình vi phân đó theo thời gian.

Tôi không thể nhớ đã thấy điều này được thực hiện trong bất cứ điều gì trực tuyến trước đây, vì vậy bạn có thể sẽ không gặp phải nó; nhưng, đó là bước lập mô hình tiếp theo nếu bạn muốn cải thiện phân phối theo cấp số nhân.


3

(Lưu ý rằng trong phần bạn trích dẫn, tuyên bố là có điều kiện; bản thân câu không giả sử sự tồn tại theo cấp số nhân, nó giải thích một hệ quả của việc làm như vậy. Tuy nhiên, giả định về sự sống sót theo cấp số nhân là phổ biến, vì vậy nó đáng để xử lý câu hỏi "tại sao hàm mũ "và" tại sao không bình thường "- vì cái đầu tiên được bao phủ khá tốt nên tôi sẽ tập trung hơn vào thứ hai)

Thông thường thời gian sống phân phối không có ý nghĩa bởi vì chúng có xác suất khác không về thời gian sống sót là âm.

Sau đó, nếu bạn giới hạn sự cân nhắc của mình đối với các bản phân phối bình thường gần như không có cơ hội gần bằng 0, bạn không thể mô hình hóa dữ liệu sinh tồn có xác suất hợp lý trong thời gian tồn tại ngắn:

phân phối thời gian tồn tại - trung bình bình thường 100 sd 10 so với phân phối cụ thể với trung bình 100 và sd 42 có xác suất hơn 20% thời gian tồn tại trong khoảng từ 0 đến 50

Có thể thỉnh thoảng thời gian sống sót mà hầu như không có thời gian sống sót ngắn sẽ là hợp lý, nhưng bạn cần phân phối có ý nghĩa trong thực tế - thông thường bạn quan sát thời gian tồn tại ngắn và dài (và bất cứ điều gì ở giữa), thường là sai lệch phân phối thời gian tồn tại). Một phân phối bình thường không thay đổi sẽ hiếm khi hữu ích trong thực tế.

[Một bình thường bị cắt ngắn có thể thường là một xấp xỉ thô hợp lý hơn so với bình thường, nhưng các phân phối khác thường sẽ làm tốt hơn.]

Nguy cơ liên tục của số mũ đôi khi là xấp xỉ hợp lý cho thời gian sống sót .. Ví dụ: nếu "sự kiện ngẫu nhiên" như tai nạn là yếu tố chính gây ra tỷ lệ tử vong, thì tỷ lệ sống theo cấp số nhân sẽ hoạt động khá tốt. (Trong số các quần thể động vật chẳng hạn, đôi khi cả động vật ăn thịt và bệnh tật có thể hoạt động ít nhất gần giống như một quá trình cơ hội, để lại thứ gì đó theo cấp số nhân như một xấp xỉ đầu tiên hợp lý cho thời gian sống sót.)


Thêm một câu hỏi liên quan cắt ngắn bình thường: nếu bình thường là không phù hợp tại sao không bình phương bình phương (chi sq với df 1)?

Quả thực điều đó có thể tốt hơn một chút ... nhưng lưu ý rằng điều đó sẽ tương ứng với một mối nguy hiểm vô hạn ở mức 0, vì vậy đôi khi nó chỉ hữu ích. Mặc dù nó có thể mô hình hóa các trường hợp với tỷ lệ rất cao trong thời gian rất ngắn, nhưng nó có vấn đề ngược lại là chỉ có thể mô hình hóa các trường hợp thường ngắn hơn nhiều so với tỷ lệ sống trung bình (25% thời gian sống sót dưới 10,15% thời gian sống sót trung bình và một nửa số lần sống sót ít hơn 45,5% giá trị trung bình; đó là tỷ lệ sống trung bình thấp hơn một nửa số trung bình.)

χ1212

Tương tự như trước, nhưng cũng có mật độ của một phương sai gấp 100 lần bình phương chi (1);  nó có một đỉnh cao ở 0 và một cái đuôi rất nặng - trung bình là 100 nhưng sd là khoảng 141 và trung bình là khoảng 45.

χ12χ2


cảm ơn, tôi đã chờ đợi câu trả lời của bạn từ hôm qua :). Thêm một câu hỏi liên quan cắt ngắn bình thường: nếu bình thường là không phù hợp tại sao không bình phương bình phương (chi sq với df 1)?
Haitao Du

χ12

một lần nữa cảm ơn bạn đã giáo dục trực giác của tôi đằng sau mọi thứ. Tôi đã thấy quá nhiều hướng dẫn cấp công thức và mọi người làm việc mà không biết tại sao. CV là một nơi tuyệt vời để học hỏi.
Haitao Du

1

Nếu chúng ta muốn thời gian là hoàn toàn tích cực, tại sao không thực hiện phân phối bình thường với phương sai trung bình cao hơn và rất nhỏ (sẽ gần như không có cơ hội để có được số âm.)?

Bởi vì

  1. điều đó vẫn có xác suất khác không âm, vì vậy nó không hoàn toàn tích cực;

  2. giá trị trung bình và phương sai là thứ bạn có thể đo được từ dân số bạn đang cố gắng mô hình hóa. Nếu dân số của bạn có nghĩa là 2 và phương sai 1 và bạn mô hình hóa nó với phân phối bình thường, phân phối bình thường đó sẽ có khối lượng đáng kể dưới 0; nếu bạn mô hình hóa nó với phân phối bình thường với giá trị trung bình 5 và phương sai 0,1, mô hình của bạn rõ ràng có các thuộc tính rất khác với thứ mà nó được cho là mô hình hóa.

Phân phối chuẩn có hình dạng cụ thể và hình dạng đó đối xứng với giá trị trung bình. Cách duy nhất để điều chỉnh hình dạng là di chuyển nó sang phải và trái (tăng hoặc giảm giá trị trung bình) hoặc làm cho nó ít nhiều trải ra (tăng hoặc giảm phương sai). Điều này có nghĩa là cách duy nhất để có được phân phối bình thường trong đó phần lớn khối lượng nằm trong khoảng từ hai đến mười và chỉ một lượng nhỏ khối lượng nằm dưới 0, bạn cần đặt số trung bình của mình tại, giả sử là sáu (giữa phạm vi ) và đặt phương sai đủ nhỏ để chỉ một phần nhỏ mẫu âm tính. Nhưng sau đó có thể bạn sẽ thấy rằng hầu hết các mẫu của bạn là 5, 6 hoặc 7, trong khi bạn được cho là có khá nhiều 2, 3, 4, 8, 8, 9 và 10.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.