Làm thế nào để có được hàm lượng tử khi không biết hình thức phân tích của phân phối


8

Vấn đề xuất phát từ trang 377-379 của bài báo [0] này.

Cho phân phối liên tục và cố định , hãy xem xét:FzR

Lz(t)=PF(|zZ|t)

H(z)=Lz1(0.5)=medZF|zZ|

Trong đó là nghịch đảo liên tục đúng. Vì vậy, đối với một z cố định , đây là khoảng cách trung bình của tất cả Z \ sim F đến z . Tiếp theo, hãy xem xét chức năng:Lz1(u)=inf{t:Lz(t)>u}zZFz

L(t)=PF(H(Z)t)

Bây giờ, tôi không có biểu thức phân tích cho H(z) (thực tế tôi khá chắc chắn một biểu thức phân tích cho nó là không thể) nhưng được cung cấp CDF F Tôi có thể dễ dàng sử dụng thuật toán tìm kiếm gốc để có được H(z) cho bất kỳ z cho trước z.

Trong ứng dụng này, sự quan tâm là:

L1(0.5)=medZFH(Z)

Đây là giá trị trung bình của H(Z) , một lần nữa, cho ZF .

Ngay bây giờ để có , tôi tính toán (như đã giải thích ở trên, sử dụng thuật toán tìm gốc) các giá trị của tương ứng với nhiều giá trị của trên lưới và lấy giá trị trung bình của các giá trị này của (với trọng số ) theo ước tính của tôi về .L1(0.5)H(z)zH(z)f(z)L1(0.5)

Câu hỏi của tôi là:

  • Có cách tiếp cận chính xác hơn để có (các tác giả của bài báo không cho biết được tính như thế nào) vàL1(0.5)L1(0.5)
  • Nên chọn lưới các giá trị của như thế nào?z

    [0] Ola Hössjer, Peter J. Rousseeuw và Christophe Croux. Tiệm cận của một người ước tính của một chức năng lây lan mạnh mẽ. Statistica Sinica 6 (1996), 375-388.


Theo ký hiệu và thuật ngữ, chúng ta phải hiểu " " là ánh xạ bất kỳ nào vào số (đó là những gì "chức năng" làm, sau tất cả) Nhưng sau đó " " có thể có nghĩa là gì? Nó có thể là phân phối (nghĩa đen là nghịch đảo của ) hoặc, nhiều khả năng là một số (nếu chúng ta sửa và xem là một hàm - không phải là hàm!), Nhưng tôi không thấy cách nào để giải thích nó như là một biến ngẫu nhiên với sự phân bố . Điều đó làm choLz(t)F Lz(t)[F]=PF(|zZ|t)Lz1(q)Lz(t)FLzFMq(t)khá bí ẩn.
whuber

Một chút xíu, nhưng vẫn phải có một số lỗi chính tả. Có lẽ trong định nghĩa của bạn có nghĩa là sử dụng " " (một biến ngẫu nhiên có để phân phối) thay vì " "? Rốt cuộc, người ta không thể gán xác suất cho " ", vì cả và đều là số. Bạn đang gặp rủi ro lớn ở đây rằng một lỗi đánh máy nhỏ trong bất kỳ phương trình nào sẽ biến câu hỏi của bạn thành một điều hoàn toàn ngoài ý muốn và không liên quan; thậm chí tệ hơn, bạn có thể nhận được câu trả lời chính xác mà bạn giải thích sai! Nó sẽ giúp (rất nhiều) để bao gồm các giải thích bằng tiếng Anh về những gì mỗi công thức dự định đại diện. L(t)ZFzH(z)tH(z)t
ai

Câu trả lời:


1

Trung vị là điểm thu nhỏ khoảng cách dự kiến :L1

medZf(Z)=argminmEz|f(Z)m|

Do đó chúng tôi có thể đơn giản hóa biểu thức của bạn:

medz1Fmedz2F|z1z2|=argminm1Ez1F|m1argminm2Ez2F|m2|z1z2|||

Tôi nghĩ rằng đây là một vấn đề tối ưu hóa hai góc , mà tôi không biết quá nhiều nhưng có lẽ có những kỹ thuật tiêu chuẩn bạn có thể áp dụng. Sau đó, một lần nữa, nó có thể không nhanh hơn việc tính trung bình mẫu trung bình cho các mẫu lớn hơn cho đến khi hội tụ.


1
Tôi không nghĩ rằng điều này giải quyết vấn đề, bởi vì chúng tôi không xử lý việc thực hiện ở đây mà là với chính (Nếu bạn muốn, tôi sẽ quan tâm đến các giá trị của các đối tượng này khi kích thước mẫu chuyển sang ). Nhưng có lẽ tôi hiểu nhầm câu trả lời của bạn? FF
dùng603

1
Chà, dù sao tôi cũng nhận ra mình đã phạm sai lầm với đạo hàm - các tối ưu hóa thực sự được lồng vào nhau. Tôi nghĩ vẫn còn những kỹ thuật tối ưu hóa mà bạn có thể sử dụng, nhưng tôi không biết liệu chúng có tốt hơn không chỉ lấy trung vị thứ hai trên một mẫu lớn như bạn đã làm.
Ben Kuhn

tốt vì vậy bây giờ chúng tôi tự hỏi điều tương tự;)
user603

1

Một cách tiếp cận dựa trên dữ liệu đơn giản để ước tính hàm lượng tử bao gồm:

  • khởi động các quan sát của bạn để tạo ra nhiều giá trị hơn trong mẫu ban đầu của bạn (đặc biệt, các giá trị nằm ngoài phạm vi của mẫu giới hạn ban đầu). Một chiến lược tốt là sử dụng sơ đồ mô phỏng bootstrap được làm mịn để tránh những hạn chế chính của bootstrap không đối xứng cơ bản. Điều này tương đương với mô phỏng từ Ước tính mật độ hạt nhân.
  • từ đây, bạn có thể nhận được Hàm phân phối tích lũy theo kinh nghiệm (CDF) của các giá trị mô phỏng ( ecdfhàm trong R). Nghịch đảo của CDF không gì khác hơn là hàm lượng tử ( quantile hàm trong R). Xem ở đây để có được các giá trị và vẽ đồ thị hàm lượng tử của bạn. Bạn thậm chí có thể có được các ban nhạc tự tin.

Một điều kiện tiên quyết là bạn lấy mẫu các tính năng quan sát đủ để ít nhất có được ý tưởng tốt về hình dạng của tệp PDF cơ bản của bạn.


Tại sao bạn nghĩ rằng bạn có được độ chính xác tốt hơn bằng cách bootstrapping?
kjetil b halvorsen 8/10/2015

số phận của mọi mẫu hữu hạn là nó không chứa toàn bộ các quan sát có thể xảy ra. Ví dụ, dòng chảy tối đa của một dòng sông được quan sát trong hơn 100 năm rõ ràng không phải là mức tối đa tuyệt đối có thể xảy ra. Vì vậy, ước tính của bạn về trận lụt 500 năm (lượng tử 0,998) hoặc trận lụt 1000 năm (lượng tử 0,999) dựa trên mẫu giới hạn của bạn sẽ bị sai lệch (rủi ro sẽ bị đánh giá thấp ). Ngược lại, nếu bạn tạo ra hàng trăm ngàn quan sát mới bằng cách mô phỏng (thông qua bootstrap được làm mịn hoặc bất kỳ kỹ thuật nào khác), ước tính của bạn sẽ chính xác hơn
Antoine

Đó là một sự hiểu lầm! Các giá trị trong mẫu bootstrapping thực hiện tất cả xuất phát từ cùng một mẫu hữu hạn, hạn chế đó và không chứa nhiều thông tin hơn bản thân mẫu. Bootstrapping (giống như các kỹ thuật phân tích khác) chỉ có thể giúp chúng tôi hiểu rõ hơn thông tin nào trong mẫu, nó không thể làm tăng thông tin đó.
kjetil b halvorsen

Không! Tôi đang nói về bootstrap được làm mịn . Nó tạo ra các quan sát chưa từng thấy, vượt quá phạm vi của mẫu ban đầu. Xin vui lòng bấm vào liên kết trong câu trả lời của tôi ở trên.
Antoine

@ Antoine: OK, nhưng điều đó không thay đổi bất cứ điều gì trong bình luận của tôi. Những "obs" được làm mịn được tạo ra từ mô hình hiện tượng của bạn, chứ không phải chính phemonenon, do đó không phải là "dữ liệu".
kjetil b halvorsen

1

Vì vậy, tôi nghĩ rằng cách tốt nhất để có được

medZFH(Z)

là:

  1. tính toán các mục của vector các giá trị của tương ứng với một mạng lưới các giá trị của được đặt đồng đều trênn{H(zi)}i=1nH(zi)n{zi}i=1n(FZ1(ϵ),FZ1(1ϵ))
  2. Tính toán trung vị trọng số của với trọng số .{H(zi)}i=1nFZ(zi)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.