Tại sao sử dụng lý thuyết giá trị cực đoan?


18

Tôi đến từ Civil Engineering, trong đó chúng tôi sử dụng Lý thuyết giá trị cực đoan , như phân phối GEV để dự đoán giá trị của một số sự kiện nhất định, như Tốc độ gió lớn nhất , tức là giá trị mà 98,5% tốc độ gió sẽ thấp hơn.

Câu hỏi của tôi là tại sao sử dụng một phân phối giá trị cực đoan như vậy ? Sẽ không dễ dàng hơn nếu chúng ta chỉ sử dụng phân phối tổng thể và nhận giá trị cho xác suất 98,5% ?

Câu trả lời:


24

Tuyên bố miễn trừ trách nhiệm: Tại các điểm sau đây, GROSSLY này cho rằng dữ liệu của bạn thường được phân phối. Nếu bạn thực sự đang chế tạo bất cứ thứ gì thì hãy nói chuyện với một chuyên gia thống kê mạnh mẽ và để người đó ký tên trên dòng nói mức độ sẽ là gì. Nói chuyện với năm người trong số họ, hoặc 25 người trong số họ. Câu trả lời này có nghĩa là cho một sinh viên kỹ thuật dân dụng hỏi "tại sao" không dành cho một chuyên gia kỹ thuật hỏi "làm thế nào".

Tôi nghĩ câu hỏi đằng sau câu hỏi là "phân phối giá trị cực đoan là gì?". Vâng, đó là một số đại số - biểu tượng. Vậy thì sao? đúng?

Hãy nghĩ về lũ lụt 1000 năm. Họ to lớn.

Khi chúng xảy ra, chúng sẽ giết rất nhiều người. Rất nhiều cây cầu đang đi xuống.
Bạn biết cây cầu nào không đi xuống? Tôi làm. Bạn chưa ... chưa.

Câu hỏi: Cây cầu nào không bị sập trong trận lụt 1000 năm?
Trả lời: Cây cầu được thiết kế để chịu được nó.

Dữ liệu bạn cần để thực hiện theo cách của bạn:
Vì vậy, giả sử bạn có 200 năm dữ liệu nước hàng ngày. Có phải lũ lụt 1000 năm ở đó? Không từ xa. Bạn có một mẫu của một đuôi của phân phối. Bạn không có dân số. Nếu bạn biết tất cả lịch sử của lũ lụt thì bạn sẽ có tổng dân số dữ liệu. Hãy nghĩ về điều này. Bạn cần bao nhiêu năm dữ liệu, bao nhiêu mẫu để có ít nhất một giá trị với khả năng là 1 trên 1000? Trong một thế giới hoàn hảo, bạn sẽ cần ít nhất 1000 mẫu. Thế giới thực rất lộn xộn, vì vậy bạn cần nhiều hơn nữa. Bạn bắt đầu nhận được tỷ lệ cược 50/50 với khoảng 4000 mẫu. Bạn bắt đầu được đảm bảo có hơn 1 ở khoảng 20.000 mẫu. Mẫu không có nghĩa là "nước một giây so với lần tiếp theo" mà là thước đo cho từng nguồn biến thể duy nhất - như biến thể theo năm. Một biện pháp trong một năm, cùng với một biện pháp khác trong một năm khác tạo thành hai mẫu. Nếu bạn không có 4.000 năm dữ liệu tốt thì có khả năng bạn không có ví dụ về trận lụt 1000 năm trong dữ liệu. Điều tốt là - bạn không cần nhiều dữ liệu để có kết quả tốt.

Đây là cách để có kết quả tốt hơn với ít dữ liệu hơn:
Nếu bạn nhìn vào cực đại hàng năm, bạn có thể điều chỉnh "phân phối giá trị cực trị" cho 200 giá trị của các mức tối đa trong năm và bạn sẽ có phân phối có chứa trận lụt 1000 năm -cấp độ. Nó sẽ là đại số, không phải là "nó lớn như thế nào". Bạn có thể sử dụng phương trình để xác định trận lụt 1000 năm sẽ lớn như thế nào. Sau đó, với khối lượng nước đó - bạn có thể xây dựng cây cầu của mình để chống lại nó. Đừng bắn cho giá trị chính xác, bắn cho lớn hơn, nếu không bạn đang thiết kế nó sẽ thất bại trong trận lụt 1000 năm. Nếu bạn in đậm, thì bạn có thể sử dụng việc lấy mẫu lại để tìm ra mức độ vượt quá giá trị 1000 năm chính xác mà bạn cần để xây dựng nó để chống lại nó.

Đây là lý do tại sao EV / GEV là các hình thức phân tích có liên quan:
Phân phối giá trị cực trị tổng quát là về mức tối đa thay đổi. Sự thay đổi trong hành vi tối đa thực sự khác với sự khác biệt trong giá trị trung bình. Phân phối chuẩn, thông qua định lý giới hạn trung tâm, mô tả rất nhiều "xu hướng trung tâm".

Thủ tục:

  1. làm 1000 lần sau:
    i. chọn 1000 số từ phân phối chuẩn
    ii. tính tối đa của nhóm mẫu đó và lưu trữ nó
  2. bây giờ vẽ sơ đồ phân phối kết quả

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

Đây KHÔNG phải là "phân phối chuẩn thông thường": nhập mô tả hình ảnh ở đây

Đỉnh là 3,2 nhưng tối đa tăng lên 5,0. Nó có xiên. Nó không nhận được dưới 2,5. Nếu bạn có dữ liệu thực tế (tiêu chuẩn bình thường) và bạn chỉ cần chọn đuôi, thì bạn sẽ chọn ngẫu nhiên một cái gì đó dọc theo đường cong này. Nếu bạn gặp may mắn thì bạn hướng về trung tâm chứ không phải đuôi thấp. Kỹ thuật là về sự đối nghịch của may mắn - đó là về việc đạt được kết quả mong muốn mọi lúc. " Số ngẫu nhiên là quá quan trọng để có cơ hội " (xem chú thích), đặc biệt là đối với một kỹ sư. Họ chức năng phân tích phù hợp nhất với dữ liệu này - họ phân phối giá trị cực cao.

Mẫu phù hợp:
Giả sử chúng ta có 200 giá trị ngẫu nhiên của mức tối đa trong năm từ phân phối chuẩn thông thường và chúng ta sẽ giả vờ rằng chúng là lịch sử 200 năm của mực nước tối đa (bất kể điều đó có nghĩa là gì). Để có được phân phối, chúng tôi sẽ làm như sau:

  1. Lấy mẫu biến "lưu trữ" (để tạo mã ngắn / dễ)
  2. phù hợp với phân phối giá trị cực đoan
  3. tìm giá trị trung bình của phân phối
  4. sử dụng bootstrapping để tìm giới hạn trên 95% CI trong biến thể của giá trị trung bình, vì vậy chúng tôi có thể nhắm mục tiêu kỹ thuật của mình cho điều đó.

(mã giả định ở trên đã được chạy trước)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Điều này cho kết quả:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Chúng có thể được cắm vào chức năng tạo để tạo 20.000 mẫu

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Xây dựng theo cách sau sẽ mang lại tỷ lệ thất bại 50/50 vào bất kỳ năm nào:

trung bình (y3)
3.23681

Dưới đây là mã để xác định mức độ "lũ" 1000 năm là gì:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Xây dựng theo cách này sẽ cung cấp cho bạn 50/50 tỷ lệ thất bại trong trận lụt 1000 năm.

p1000
4.510931

Để xác định 95% CI trên, tôi đã sử dụng đoạn mã sau:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

Kết quả là:

> mytarget
     95% 
4.812148

Điều này có nghĩa là, để chống lại phần lớn lũ lụt 1000 năm, do dữ liệu của bạn là vô cùng bình thường (không có khả năng), bạn phải xây dựng cho ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

hoặc là

> 1/(1-out)
   shape 
1077.829 

... Lũ lụt 1078 năm.

Dòng dưới cùng:

  • bạn có một mẫu dữ liệu, không phải tổng dân số thực tế. Điều đó có nghĩa là lượng tử của bạn là ước tính và có thể bị tắt.
  • Các phân phối như phân phối giá trị cực trị tổng quát được xây dựng để sử dụng các mẫu để xác định các đuôi thực tế. Chúng ước tính ít hơn nhiều so với việc sử dụng các giá trị mẫu, ngay cả khi bạn không có đủ mẫu cho phương pháp cổ điển.
  • Nếu bạn mạnh mẽ thì trần nhà cao, nhưng kết quả của điều đó là - bạn không thất bại.

May mắn nhất

Tái bút

  • 1/(1-0,985)67
  • Với điểm trước, trung bình cứ sau 67 năm, dân sự sẽ phải xây dựng lại. Vì vậy, với toàn bộ chi phí kỹ thuật và xây dựng cứ sau 67 năm, với tuổi thọ hoạt động của cấu trúc dân dụng (tôi không biết đó là gì), đến một lúc nào đó, nó có thể ít tốn kém hơn cho kỹ sư trong thời gian bão dài hơn. Một cơ sở hạ tầng dân sự bền vững là một thiết kế để kéo dài ít nhất một tuổi thọ của con người mà không thất bại, phải không?

PS: thú vị hơn - một video youtube (không phải của tôi)
https://www.youtube.com/watch?v=EACkiMRT0pc

Chú thích: Coveyou, Robert R. "Việc tạo số ngẫu nhiên là quá quan trọng để không có cơ hội." Áp dụng xác suất và phương pháp Monte Carlo và các khía cạnh hiện đại của động lực học. Các nghiên cứu về toán ứng dụng 3 (1969): 70-111.


2
Tôi có thể không đủ rõ ràng. Mối quan tâm chính của tôi là tại sao sử dụng extreme value distributionthay vì the overall distributionđể phù hợp với dữ liệu và nhận được các giá trị 98,5%.
cqcn1991

Bạn có ý nghĩa gì bởi dân số nói chung?
kjetil b halvorsen

1
cập nhật câu trả lời.
EngrStudent - Phục hồi Monica

2
@EngrStudent câu trả lời tuyệt vời, tuy nhiên sẽ tốt hơn nữa nếu bạn cho thấy EVT hoạt động ở đây tốt hơn so với sử dụng phân phối Bình thường bên cạnh việc cung cấp minh họa.
Tim

2
Sau khi thực hiện một số công việc mô hình hóa, tôi nói rằng sử dụng phân phối cha mẹ đơn giản là nguy hiểm, vì dữ liệu rất ít và phép ngoại suy chỉ nguy hiểm và không ổn định, để mô hình hóa các sự kiện cực đoan. Và đó là cách chúng ta nên sử dụng lý thuyết EV thay thế.
cqcn1991

7

Bạn sử dụng lý thuyết giá trị cực đoan để ngoại suy từ dữ liệu được quan sát. Thông thường, dữ liệu bạn chỉ đơn giản là không đủ lớn để cung cấp cho bạn ước tính hợp lý về xác suất đuôi. Lấy ví dụ của @ EngrStudent về sự kiện 1 năm 1000 năm: tương ứng với việc tìm ra lượng tử 99,9% của phân phối. Nhưng nếu bạn chỉ có 200 năm dữ liệu, bạn chỉ có thể tính toán ước tính lượng tử theo kinh nghiệm lên tới 99,5%.

Lý thuyết giá trị cực đoan cho phép bạn ước tính lượng tử 99,9%, bằng cách đưa ra các giả định khác nhau về hình dạng phân phối của bạn ở phần đuôi: rằng nó trơn tru, rằng nó phân rã theo một mẫu nhất định, v.v.

Bạn có thể nghĩ rằng sự khác biệt giữa 99,5% và 99,9% là nhỏ; Rốt cuộc chỉ có 0,4%. Nhưng đó là một sự khác biệt về xác suất và khi bạn ở trong đuôi, nó có thể chuyển thành một sự khác biệt rất lớn về lượng tử . Dưới đây là một minh họa về giao diện gamma, không có đuôi rất dài khi những thứ này hoạt động. Đường màu xanh tương ứng với lượng tử 99,5% và đường màu đỏ là lượng tử 99,9%. Mặc dù sự khác biệt giữa chúng là rất nhỏ trên trục tung, sự tách biệt trên trục ngang là đáng kể. Sự phân tách chỉ trở nên lớn hơn đối với các bản phân phối thực sự dài; gamma thực sự là một trường hợp khá vô hại.

nhập mô tả hình ảnh ở đây


Câu trả lời của bạn không chính xác. Điểm 99,9% của một bình thường hàng năm chết không tương ứng với sự kiện 1 trong 1000 năm. Tối đa 1000 Normals có phân phối khác nhau. Tôi nghĩ rằng điều đó được giải quyết trong các câu trả lời khác.
Mark L. Stone

@ MarkL.Stone Không ở đâu tôi nói bất cứ điều gì về tối đa 1000 quy tắc.
Hong Ooi

1
Đó chính xác là quan điểm của tôi. Sự kiện 1 trong 1000 năm phải dựa trên mức tối đa 1000 Bình thường hàng năm. Điều đó rất khác so với điểm 99,9 $ trên Bình thường hàng năm. Xem bình luận của tôi cho câu trả lời của Karel Macek bên dưới.
Mark L. Stone

@ MarkL.Stone Điểm của biểu đồ chỉ là để cho thấy rằng khi bạn ở đuôi, những thay đổi nhỏ về xác suất tương ứng với những thay đổi lớn về lượng tử. Bạn có thể thay thế lượng tử 99% của GEV hoặc GPD hoặc bất kỳ phân phối nào khác. (Và tôi thậm chí không đề cập đến phân phối bình thường.)
Hong Ooi

Bên cạnh đó, ước tính cực đại thông qua GEV chỉ là một cách để có được lượng tử đuôi. Một cách khác là ước tính lượng tử trực tiếp thông qua GPD (giả sử phân phối có đuôi nặng).
Hong Ooi

7

Nếu bạn chỉ quan tâm đến một cái đuôi, điều đó có nghĩa là bạn tập trung nỗ lực thu thập và phân tích dữ liệu của mình vào đuôi. Nó sẽ hiệu quả hơn để làm như vậy. Tôi nhấn mạnh việc thu thập dữ liệu vì khía cạnh này thường bị bỏ qua khi trình bày một đối số cho các bản phân phối EVT. Trên thực tế, việc thu thập dữ liệu liên quan để ước tính những gì bạn gọi là phân phối tổng thể trong một số lĩnh vực là không thể. Tôi sẽ giải thích chi tiết hơn dưới đây.

Nếu bạn đang xem trận lụt 1 trong 1000 năm như trong ví dụ của @ EngrStudent, thì để xây dựng cơ thể phân phối bình thường, bạn cần rất nhiều dữ liệu để lấp đầy nó bằng các quan sát. Có khả năng bạn cần mọi trận lụt đã xảy ra trong hàng trăm năm qua.

Bây giờ dừng lại trong một giây và nghĩ về những gì chính xác là một lũ? Khi sân sau của tôi bị ngập sau một trận mưa lớn, đó có phải là một trận lụt? Có lẽ là không, nhưng chính xác thì đâu là dòng phân định một trận lụt từ một sự kiện không phải là một trận lụt? Câu hỏi đơn giản này nêu bật vấn đề với việc thu thập dữ liệu. Làm thế nào bạn có thể chắc chắn rằng chúng tôi thu thập tất cả dữ liệu trên cơ thể theo cùng một tiêu chuẩn trong nhiều thập kỷ hoặc thậm chí có thể hàng thế kỷ? Thực tế không thể thu thập dữ liệu trên cơ thể phân phối lũ lụt.

Do đó, đây không chỉ là vấn đề hiệu quả của phân tích , mà là vấn đề khả thi của việc thu thập dữ liệu : liệu có nên mô hình hóa toàn bộ phân phối hay chỉ là một cái đuôi?

Đương nhiên, với đuôi, việc thu thập dữ liệu dễ dàng hơn nhiều. Nếu chúng ta xác định ngưỡng đủ cao cho một trận lụt lớn , thì chúng ta có thể có cơ hội lớn hơn rằng tất cả hoặc gần như tất cả các sự kiện như vậy có thể được ghi lại theo một cách nào đó. Thật khó để bỏ lỡ một trận lụt tàn khốc, và nếu có bất kỳ loại nền văn minh nào hiện diện, sẽ có một số ký ức được lưu về sự kiện này. Do đó, thật hợp lý khi xây dựng các công cụ phân tích tập trung cụ thể vào các đuôi cho rằng việc thu thập dữ liệu mạnh mẽ hơn nhiều đối với các sự kiện cực đoan thay vì các công cụ không cực đoan trong nhiều lĩnh vực như nghiên cứu độ tin cậy.


+1 Điểm thú vị và hợp tác, đặc biệt là trong phần nhận xét ở cuối.
whuber

(+1) Liên quan đến điểm cuối cùng của bạn (bộ nhớ được bảo tồn), Hiệu ứng Sadler có thể được quan tâm.
GeoMatt22

@ GeoMatt22, đây là lần đầu tiên tôi thấy bài báo và thuật ngữ Hiệu ứng Sadler. Cảm ơn vì đường dẫn
Aksakal

Đó là một điểm thực sự xuất sắc. Nó là một hệ thống, vì vậy một cách tiếp cận có hệ thống có thể có năng suất tuyệt vời. Phân tích tốt nhất trên thế giới có thể bị đầu độc với dữ liệu rác. Một phân tích khá đơn giản, khi được cung cấp dữ liệu tốt, có thể có kết quả tuyệt vời. Điểm tốt!
EngrStudent - Phục hồi Monica

6

Thông thường, việc phân phối dữ liệu cơ bản (ví dụ: tốc độ gió Gaussian) dành cho một điểm mẫu duy nhất. Phân vị thứ 98 sẽ cho bạn biết rằng đối với bất kỳ điểm được chọn ngẫu nhiên nào, sẽ có 2% cơ hội giá trị lớn hơn phân vị thứ 98.

Tôi không phải là kỹ sư xây dựng, nhưng tôi tưởng tượng những gì bạn muốn biết không phải là khả năng tốc độ gió vào bất kỳ ngày nào đã vượt quá một con số nhất định, mà là sự phân phối của cơn gió lớn nhất có thể, nói, khóa học của năm Trong trường hợp đó, nếu tối đa cơn gió hàng ngày được phân phối theo cấp số nhân, thì điều bạn muốn là sự phân phối của cơn gió tối đa trong 365 ngày ... đây là cách phân phối giá trị cực đoan có nghĩa là giải quyết.


1

Việc sử dụng định lượng làm cho việc tính toán đơn giản hơn. Các kỹ sư dân sự có thể thay thế giá trị (ví dụ tốc độ gió) vào các công thức nguyên tắc đầu tiên của họ và họ có được hành vi của hệ thống đối với các điều kiện khắc nghiệt tương ứng với lượng tử 98,5%.

Việc sử dụng toàn bộ phân phối dường như có thể cung cấp thêm thông tin, nhưng sẽ làm phức tạp các tính toán. Tuy nhiên, nó có thể cho phép sử dụng các phương pháp quản lý rủi ro tiên tiến sẽ cân bằng tối ưu các chi phí liên quan đến (i) xây dựng và (ii) rủi ro thất bại.


Chà ... tôi có thể không đủ rõ ràng. Tôi chỉ muốn biết tại sao sử dụng lý thuyết giá trị cực đoan hơn là phân phối chung (toàn bộ phân phối?) Mà chúng ta thường sử dụng?
cqcn1991

1
Nếu hàm phân phối tích lũy cho bất kỳ một lần khởi tạo nào, chẳng hạn như tốc độ gió tối đa hàng ngày, là F (x), thì hàm phân phối tích lũy cho tối đa n tức thời độc lập (ví dụ: n = 365 cho một năm với tốc độ gió tối đa hàng ngày ) là F ^ n (x). Điều này khác với F (x).
Mark L. Stone
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.