Tôi đã tự hỏi liệu có cách nào để nói xác suất xảy ra sự cố (một sản phẩm) nếu chúng ta có 100.000 sản phẩm trong lĩnh vực này trong 1 năm và không có thất bại? Xác suất mà một trong 10.000 sản phẩm tiếp theo được bán là gì?
Tôi đã tự hỏi liệu có cách nào để nói xác suất xảy ra sự cố (một sản phẩm) nếu chúng ta có 100.000 sản phẩm trong lĩnh vực này trong 1 năm và không có thất bại? Xác suất mà một trong 10.000 sản phẩm tiếp theo được bán là gì?
Câu trả lời:
Xác suất mà một sản phẩm sẽ thất bại chắc chắn là một chức năng của thời gian và sử dụng. Chúng tôi không có bất kỳ dữ liệu nào về việc sử dụng và chỉ với một năm không có thất bại (xin chúc mừng!). Do đó, khía cạnh này (được gọi là chức năng sống sót ), không thể được ước tính từ dữ liệu của bạn.
Tuy nhiên, bạn có thể nghĩ về những thất bại trong vòng một năm do rút ra từ phân phối nhị thức . Bạn vẫn không có thất bại, nhưng đây là một vấn đề phổ biến. Một giải pháp đơn giản là sử dụng quy tắc 3 , chính xác với lớn (mà bạn chắc chắn có). Cụ thể, bạn có thể nhận được trên ràng buộc của một đứng về phía một 95% khoảng tin cậy (ví dụ, các ràng buộc thấp là ) về xác suất thực sự của sự thất bại trong vòng một năm như . Trong trường hợp của bạn, bạn tự tin 95% rằng tỷ lệ nhỏ hơn . 0 3 / N 0,00003
Bạn cũng đã hỏi làm thế nào để tính xác suất để một hoặc nhiều trong số 10k tiếp theo thất bại. Một cách nhanh chóng và đơn giản (mặc dù cực đoan) để mở rộng phân tích ở trên là chỉ sử dụng giới hạn trên làm xác suất cơ bản và sử dụng CDF nhị thức tương ứng để có xác suất sẽ không có thất bại. Sử dụng mã, chúng tôi có thể làm : , mang lại cơ hội nhìn thấy một hoặc nhiều thất bại trong các sản phẩm 10k tiếp theo. Bằng cách sử dụng giới hạn trên, đây không phải là ước tính điểm tối ưu về xác suất có ít nhất một lần thất bại, nhưng bạn có thể nói rằng rất có thể xác suất của thất bại là nhiều hơn≥ 1 ≈ 26 % ( F + 1 ) / ( N + 2 ) F p = 9,9998 × 10 - 06 1 + ≈ 10 %R
1-pbinom(0, size=10000, prob=0.00003)
0.2591851
(nhận ra rằng đây là một khung hình 'hơi lượn sóng'). Một khả năng khác là sử dụng đề xuất của @ amoeba về ước tính từ quy tắc kế vị của Laplace . Quy tắc kế tiếp nói rằng xác suất thất bại ước tính là , trong đó là số lần thất bại. Trong trường hợp đó, và phép tính cho xác suất dự đoán là thất bại trong 10.000 tiếp theo là , đạt năng suất hoặc . 1-pbinom(0, size=10000, prob=9.9998e-06)
0.09516122
Bạn có thể có một cách tiếp cận bayesian. biểu thị xác suất thất bại bằng và nghĩ về nó như một biến ngẫu nhiên. Một tiên nghiệm, trước khi bạn xem kết quả của các thí nghiệm, bạn có thể tin rằng Θ ~ U ( 0 , 1 ) . Nếu bạn tin tưởng các kỹ sư để làm cho sản phẩm này đáng tin cậy, có thể bạn có thể mất Θ ∼ U ( 0 , 0,1 ) hoặc hơn thế. Đây là tùy thuộc vào bạn. Sau đó, bạn có thể sử dụng Bayes' định lý để tính toán phân bố sau của θ . Biểu thị Một sự kiện mà bạn đã quan sát ( n thí nghiệm không có thất bại).
Tất cả mọi thứ rất đơn giản:Θlà thống nhất, vì vậyp(θ)là một số không đổi. Kể từ khi bạn chạynthí nghiệm,p(A|θ)chỉ là xác suất khôngthất bạitrongnthử nghiệm bernouli với xác suất thất bạiθ.
Một khi bạn có mà bạn đang vàng: bạn có thể tính toán xác suất của bất kỳ sự kiện B bởi integrateion: P ( B ) = ∫ p ( B | θ ) p ( θ | Một ) d θ
Dưới đây, tôi làm việc thông qua một giải pháp chi tiết, theo cách tiếp cận trên. Tôi sẽ có một vài phím tắt tiêu chuẩn.
Đặt trước là . Khi đó: p ( θ | A ) ∝ p ( A | θ ) ⋅ 1 = ( 1 - θ ) n . Quá trình chuẩn hóa liên tục p ( A ) = ∫ p ( A | θ ) p ( θ ) d θ được tìm thấy là B ( 1 , n
Biểu thị xác suất không thất bại trong sản phẩm trong năm tới bởi B . Xác suất của ít nhất một thất bại là 1 - P ( B ) . Khi đó 1 - P ( B ) = 1 - ∫ ( 1 - θ ) m ( 1 - θ ) n
đó là khoảng , sử dụng n = 100 , 000 , m = 10 , 000 . Không ấn tượng lắm sao? Tôi đã phân phối thống nhất về xác suất thất bại. Có lẽ bạn có niềm tin tốt hơn trước các kỹ sư của bạn.
Thay vì tính toán một xác suất, tại sao không dự đoán có bao nhiêu sản phẩm có thể thất bại?
Các công thức so sánh có thể được sử dụng để tính toán khi
Một thượng hạn dự đoán (UPL) cho số thất bại trong những cuối cùng vé, , được đưa ra bởi nhỏ (tùy thuộc vào ) mà .
UPL nên được hiểu theo nghĩa rủi ro khi sử dụng , như được đánh giá trước khi quan sát thấy hoặc Nói cách khác, giả sử đó là một năm trước và bạn được yêu cầu đề xuất một quy trình để dự đoán số lượng lỗi trong các sản phẩm tiếp theo sau khi đầu tiên được quan sát. Khách hàng của bạn hỏi
Cơ hội mà thủ tục của bạn sẽ đánh giá thấp gì? Tôi không có ý trong tương lai sau khi bạn có nhiều dữ liệu hơn; Ý tôi là ngay bây giờ, bởi vì tôi phải đưa ra quyết định ngay bây giờ và cơ hội duy nhất tôi có sẵn cho tôi là những cơ hội có thể được tính toán vào lúc này. "
Phản hồi của bạn có thể là,
Ngay bây giờ cơ hội không lớn hơn , nhưng nếu bạn dự định sử dụng một dự đoán nhỏ hơn, cơ hội sẽ vượt quá .
Với , và chúng tôi có thể tính toán rằng
Do đó, khi đã quan sát ,
Để có độ tin cậy lên tới (nghĩa là khi ), hãy dự đoán có nhiều nhất là lỗi trong sản phẩm tiếp theo .
Để có độ tin cậy lên tới (nghĩa là khi ), hãy dự đoán có nhiều nhất là lần thất bại trong sản phẩm tiếp theo .
Vân vân.
Khi nào và tại sao phương pháp này sẽ được áp dụng? Giả sử công ty của bạn tạo ra nhiều sản phẩm khác nhau. Sau khi quan sát hiệu suất của của từng người trong lĩnh vực này, họ thích tạo ra các đảm bảo, chẳng hạn như "thay thế hoàn toàn miễn phí cho bất kỳ thất bại nào trong vòng một năm." Bằng cách có các giới hạn dự đoán cho số lần thất bại, bạn có thể kiểm soát tổng chi phí phải trả lại các bảo đảm đó. Bởi vì bạn tạo ra nhiều sản phẩm và mong đợi thất bại là do hoàn cảnh ngẫu nhiên ngoài tầm kiểm soát của bạn, trải nghiệm của từng sản phẩm sẽ độc lập. Điều này có ý nghĩa để kiểm soát rủi ro của bạn về lâu dài. Thỉnh thoảng bạn có thể phải trả nhiều khiếu nại hơn dự kiến, nhưng hầu hết thời gian bạn sẽ trả ít hơn. Nếu thanh toán nhiều hơn thông báo có thể bị hủy hoại, bạn sẽ đặt cực kỳ nhỏ (và bạn cũng có thể sẽ sử dụng mô hình thất bại tinh vi hơn!). Mặt khác, nếu chi phí không đáng kể, thì bạn có thể sống với độ tin cậy thấp (cao ). Những tính toán này cho thấy làm thế nào để cân bằng niềm tin và rủi ro.
Lưu ý rằng chúng ta không phải tính toán thủ tục đầy đủ . Chúng tôi đợi cho đến khi được quan sát và sau đó chỉ cần thực hiện các tính toán cho cụ thể đó (ở đây, ), như được hiển thị ở trên. Tuy nhiên, về nguyên tắc, chúng ta có thể thực hiện các tính toán cho tất cả các giá trị có thể có của ngay từ đầu.
Một cách tiếp cận Bayes (được mô tả trong các câu trả lời khác) là hấp dẫn và sẽ hoạt động tốt với điều kiện kết quả không phụ thuộc nhiều vào trước đó. Thật không may, khi tỷ lệ thất bại thấp đến mức rất ít (hoặc không có thất bại) được quan sát, kết quả rất nhạy cảm với sự lựa chọn trước.
Sau đây là câu trả lời của Bayes cho "Trong số 10.000 sản phẩm mới, có bao nhiêu dự kiến sẽ thất bại nếu tất cả 100.000 sản phẩm cũ không sản xuất không thành công?", Nhưng bạn nên xem xét độ nhạy cảm với các linh mục khác nhau.
Giả sử độc lập có điều kiện và được phân phối chính xác, được đưa ra , sao cho và sử dụng liên hợp trước , với .
Đối với , chúng ta có
Đối với , chúng ta có trong đó chúng tôi đã sử dụng .
Cắm số của bạn, với đồng phục trước ( ) bạn mong đợi tỷ lệ thất bại khoảng , trong khi trước đó giống như Jeffreys ( ) mang lại cho bạn tỷ lệ thất bại gần .
Dự đoán dự đoán này không giống như một bản tóm tắt tốt, bởi vì phân phối dự báo rất sai lệch. Chúng ta có thể đi xa hơn và tính toán phân phối dự đoán. Vì điều hòa như chúng ta đã làm trước khi chúng ta có cho .
Tôi sẽ hoàn thành nó sau khi tính toán khoảng dự đoán .
Sử dụng phương pháp tiếp cận vấn đề mặt trời mọc của Laplace , chúng tôi có xác suất rằng một sản phẩm sẽ thất bại trong vòng một năm . Tiếp theo, xác suất mà sản phẩm mới không thất bại trong vòng một năm là Do đó, xác suất ít nhất một sản phẩm của sẽ thất bại trong năm tới là Với , giá trị là . Trong trường hợp của người đánh bóng , thực tế khá cao.
Tất nhiên, bạn nên tiếp tục cập nhật dữ liệu của mình trong khi nhiều sản phẩm được bán hơn, cuối cùng một sản phẩm sẽ thất bại.
Một số câu trả lời tốt đã được cung cấp cho câu hỏi này, nhưng gần đây tôi có cơ hội xem xét một vài tài nguyên về chủ đề này và vì vậy tôi quyết định chia sẻ kết quả.
Có nhiều ước tính có thể cho dữ liệu thất bại bằng không. Hãy biểu thị là số lần thất bại và là cỡ mẫu. Ước tính khả năng tối đa cho xác suất thất bại được cung cấp dữ liệu này là
Ước tính như vậy là không thỏa đáng vì thực tế là chúng tôi quan sát thấy không có thất bại nào trong mẫu của chúng tôi hầu như không chứng minh rằng chúng là không thể nói chung. Kiến thức ngoài dữ liệu cho thấy có một số khả năng thất bại ngay cả khi không được quan sát (chưa). Có kiến thức tiên nghiệm dẫn chúng ta sử dụng các phương pháp Bayes được xem xét bởi Bailey (1997), Razzaghi (2002), Basu et al (1996), và Ludbrook và Lew (2009).
Trong số các công cụ ước tính đơn giản, công cụ ước tính "giới hạn trên" giả định (Bailey, 1997)
rằng sẽ không hợp lý khi công cụ ước tính cho P trong trường hợp không có lỗi để đưa ra xác suất vượt quá dự đoán của công cụ ước tính khả năng tối đa trong trường hợp một lần thất bại, giới hạn trên hợp lý
định nghĩa là
có thể được đề cập. Theo đánh giá của Ludbrook và Lew (2009), các khả năng khác là "quy tắc của ba" (xem tại đây , Wikipedia hoặc Eypasch et al, 1995)
hoặc các biến thể khác:
"Quy tắc 3.7" của Newcombe và Altman (hoặc theo 3.6):
"quy tắc mới của bốn":
nhưng như kết luận của Ludbrook và Lew (2009), "quy tắc ba mươi" là "bên cạnh vô dụng" và "quy tắc 3.6" (và 3.7) "có những hạn chế nghiêm trọng - chúng không chính xác nếu kích thước mẫu ban đầu nhỏ hơn 50" và họ không đề xuất các phương pháp (3) - (6), đề nghị thay vì sử dụng các công cụ ước tính Bayes thích hợp (xem bên dưới).
Trong số các ước tính Bayes, một số khác nhau có thể được đề cập. Công cụ ước tính đầu tiên được đề xuất bởi Bailey (1997) là
để ước tính trung bình theo thống nhất trước
hoặc để ước tính trung bình theo trước đó
một cách tiếp cận khác giả định mô hình thất bại theo cấp số nhân với tỷ lệ thất bại không đổi (phân phối Poisson) mang lại
nếu chúng ta sử dụng beta trước các tham số và chúng ta có thể sử dụng công thức (xem Razzaghi, 2002):
rằng theo dẫn đến thống nhất trước (9). Giả sử Jeffreys trước với điều đó dẫn đến
Nói chung, các công thức Bayes (7) - (12) được khuyến nghị. Basu et al (1996) khuyến nghị (11) với thông tin trước, khi một số kiến thức tiên nghiệm có sẵn. Vì không có phương pháp tốt nhất duy nhất tồn tại, tôi sẽ đề nghị xem xét tài liệu trước khi phân tích của bạn, đặc biệt là khi nhỏ.
Bailey, RT (1997). Ước tính từ dữ liệu không thất bại. Phân tích rủi ro, 17 , 375-380.
Razzaghi, M. (2002). Về việc ước tính xác suất thành công nhị thức với số lần xuất hiện bằng 0. Tạp chí Phương pháp thống kê ứng dụng hiện đại, 1 (2), 41.
Ludbrook, J., & Lew, MJ (2009). Ước tính nguy cơ của các biến chứng hiếm gặp: liệu 'quy tắc ba' có đủ tốt không?. ANZ tạp chí phẫu thuật, 79 (7-8), 565-570.
Eypasch, E., Lefering, R., Kum, CK và Troidl, H. (1995). Xác suất của các sự kiện bất lợi chưa xảy ra: Một lời nhắc nhở thống kê. BMJ 311 (7005): 619 Mạnh620.
Basu, AP, Gaylor, DW, & Chen, JJ (1996). Ước tính khả năng xuất hiện khối u cho một bệnh ung thư hiếm gặp với số lần xuất hiện bằng 0 trong một mẫu. Quy định về độc tính và dược lý học, 23 (2), 139-144.
Bạn thực sự cần phải quay lại với các nhà thiết kế sản phẩm của bạn. Đây là một vấn đề kỹ thuật cơ bản không phải là một vấn đề thống kê quan sát. Họ sẽ có một ý tưởng về xác suất thất bại của từng thành phần và từ đó xác suất thất bại ròng của tổng sản phẩm được lắp ráp. Họ có thể cung cấp cho bạn số lần thất bại dự kiến trong toàn bộ thời gian thiết kế của sản phẩm.
Một kỹ sư xây dựng thiết kế một cây cầu có tuổi thọ thiết kế 120 năm. Mỗi thành phần của cây cầu có một cơ hội thất bại nhẹ. Mỗi lần tải có một cơ hội nhỏ bị vượt quá. Để làm cho cây cầu kinh tế được xây dựng, sự sụp đổ hoàn toàn sẽ chỉ xảy ra một lần trong 2400 năm, lâu hơn so với cây cầu sẽ được duy trì. Không có gì đáng ngạc nhiên khi cây cầu không thất bại trong năm 1, cũng không phải năm 2 đến năm 120. Điều đó đã không sụp đổ cho bạn biết rất ít. Các cơ hội thất bại khác nhau của nó chỉ có thể được ước tính bởi các nhà thiết kế ban đầu.
Điều này tương tự như một vấn đề tôi gặp phải khi chúng tôi giới thiệu một quy trình sản xuất mới để loại bỏ sự thất bại trong sản xuất.
Hệ thống mới tạo ra không có thất bại nên mọi người đã hỏi cùng một câu hỏi: làm thế nào để chúng ta dự đoán tỷ lệ thất bại? Trong trường hợp của bạn, bởi vì bạn đã quy định một khoảng thời gian mà sự thất bại có thể xảy ra mà không cần quan tâm đến khi sự cố xảy ra trong khoảng thời gian đó, các hiệu ứng thời gian đã được loại bỏ. Và nó chỉ đơn giản là một trường hợp cho dù một cái gì đó thất bại hay không. Với quy định đó - với câu trả lời của tôi.
Theo trực giác, có vẻ như chúng ta cần ít nhất một lần thất bại để có thể tính được tỷ lệ thất bại. Tuy nhiên, giả định này có một lỗi ngầm ẩn bên trong nó. Chúng tôi sẽ không bao giờ tính tỷ lệ thất bại. Đó là bởi vì chúng tôi đang xử lý một mẫu. Do đó, chúng tôi chỉ có thể ước tính một loạt các tỷ lệ thất bại có thể xảy ra. Cách để làm điều này là tìm một phân phối cho tỷ lệ thất bại. Sự phân bố mà không được công việc trong trường hợp này là một phân phối Beta nơi các thông số như sau: α = n + 1 và β = N - n + 1
Lưu ý: N là cỡ mẫu và n là số lần thất bại (trong trường hợp của bạn là 0)
Đối với kịch bản của bạn, phân phối tỷ lệ thất bại được hiển thị bên dưới. .
Sau đó, bạn sẽ đưa phân phối đó vào công thức xác suất nhị thức tương ứng để có được phân phối cho xác suất một đơn vị không thành công (có thể được thực hiện phân tích hoặc sử dụng Monte Carlo). Tôi nghi ngờ rằng con số sẽ rất thấp.
Lưu ý rằng quy trình này được áp dụng bất kể số lần thất bại trong tập nắm tay của bạn.