Cách tốt nhất để đánh giá các phương pháp ước tính PDF

10

Tôi muốn thử nghiệm một số ý tưởng của tôi mà tôi nghĩ là tốt hơn bất cứ điều gì tôi đã thấy. Tôi có thể sai nhưng tôi muốn kiểm tra ý tưởng của mình và xóa tan nghi ngờ của tôi bằng những quan sát chắc chắn hơn.

Những gì tôi đã nghĩ là làm như sau:

Phân tích xác định một tập hợp các phân phối. Một số trong số này là những thứ dễ dàng như Gaussian, thống nhất hoặc Tophat. Nhưng một số trong số này phải khó khăn và đầy thách thức như phân phối Simpsons.
Triển khai phần mềm dựa trên các phân phối phân tích đó và sử dụng chúng để tạo một số mẫu.
Bởi vì các bản phân phối được xác định một cách phân tích, tôi đã định nghĩa lại - biết các tệp PDF thực sự của chúng. Điều đó thật tuyệt.
Sau đó, tôi sẽ kiểm tra các phương pháp ước tính PDF sau với các mẫu ở trên:
- Các phương pháp ước tính PDF hiện có (như KDE với các loại nhân và băng thông khác nhau).
- Ý tưởng của riêng tôi mà tôi nghĩ là đáng để thử.
Sau đó, tôi sẽ đo lỗi của các ước tính so với các tệp PDF thực.
Sau đó, tôi sẽ biết rõ hơn về phương pháp ước tính PDF nào là tốt.

Câu hỏi của tôi là:

Q1: Có bất kỳ cải thiện so với kế hoạch của tôi ở trên?
Câu 2: Tôi cảm thấy khó khăn khi phân tích nhiều định dạng PDF thực sự. Đã có một danh sách đầy đủ gồm nhiều tệp PDF thực sự được phân tích với các khó khăn khác nhau (bao gồm cả những bản rất khó) mà tôi có thể sử dụng lại ở đây?

— người Thượng cổ
nguồn

Điều này nghe rất giống với một mô phỏng Monte Carlo với tôi?

— Christoph Hanck

vi.wikipedia.org/wiki/ từ

— whuber

2

A2: Bạn có thể kiểm tra các phương thức của mình trong 1D trên bộ điểm chuẩn sau .

— Tom
nguồn

Đó chính xác là những gì tôi đang tìm kiếm. Và vâng, trường hợp quan tâm của tôi tại thời điểm này là 1D.

— thượng cổ

11

$L^p$
A2. Bạn chỉ quan tâm đến pdf 1-D hay là kế hoạch của bạn để kiểm tra trường hợp đa biến? Đối với một bộ pdf chuẩn, tôi đã hỏi một câu hỏi hơi liên quan trước đây với mục tiêu thử nghiệm các thuật toán MCMC , nhưng tôi không tìm thấy bất cứ thứ gì như một bộ pdf được thiết lập tốt.

Nếu bạn có nhiều thời gian và tài nguyên tính toán, bạn có thể xem xét thực hiện một số loại thử nghiệm đối nghịch cho ý tưởng của mình:

Xác định một họ tham số pdf rất linh hoạt (ví dụ: hỗn hợp lớn của một số pdf đã biết) và di chuyển xung quanh không gian tham số của hỗn hợp thông qua một số phương pháp tối ưu hóa toàn cầu (*) để giảm thiểu hiệu suất của phương pháp của bạn và tối đa hóa hiệu suất của một số phương pháp ước tính mật độ hiện đại khác (và có thể ngược lại). Đây sẽ là một bài kiểm tra mạnh mẽ về điểm mạnh / điểm yếu của phương pháp của bạn.

Cuối cùng, yêu cầu phải tốt hơn tất cả các phương pháp khác là một thanh quá cao; phải có một số nguyên tắc ăn trưa miễn phí tại nơi làm việc (bất kỳ thuật toán nào cũng có một số giả định cơ bản trước đó, chẳng hạn như độ mịn, tỷ lệ chiều dài, v.v.). Để phương pháp của bạn là một đóng góp có giá trị, bạn chỉ cần chỉ ra rằng có các chế độ / miền quan tâm chung trong đó thuật toán của bạn hoạt động tốt hơn (thử nghiệm nghịch cảnh ở trên có thể giúp bạn tìm / xác định tên miền đó).

(*) Vì số liệu hiệu suất của bạn là ngẫu nhiên (bạn sẽ đánh giá nó thông qua lấy mẫu Monte Carlo), bạn cũng có thể muốn kiểm tra câu trả lời này về tối ưu hóa các hàm mục tiêu ồn ào, tốn kém.

— lacerbi
nguồn

1

Q1: Có bất kỳ cải thiện so với kế hoạch của tôi ở trên?

Mà phụ thuộc. Dư lượng phân phối hỗn hợp thường là kết quả của việc làm những điều ngớ ngẩn như chỉ định phân phối hỗn hợp không cần thiết làm mô hình dữ liệu để bắt đầu. Vì vậy, kinh nghiệm của riêng tôi đề nghị ít nhất chỉ định nhiều thuật ngữ phân phối hỗn hợp trong đầu ra như trong mô hình. Hơn nữa, đầu ra của hỗn hợp PDF không giống như PDF trong mô hình. Tìm kiếm mặc định Mathicala bao gồm các phân phối hỗn hợp với hai thuật ngữ và có thể được chỉ định là số lớn hơn.

Câu hỏi 2: Đã có một danh sách đầy đủ gồm nhiều tệp PDF thực sự được phân tích với các khó khăn khác nhau (bao gồm cả những bản rất khó) mà tôi có thể sử dụng lại ở đây?

Đây là danh sách từ thói quen FindDistribution của Mathematica :

phân phối có thể liên tục cho TargetFunctions là: BetaDistribution, CauchyDistribution, ChiDistribution, ChiSquareDistribution, ExponentialDistribution, ExtremeValueDistribution, FrechetDistribution, GammaDistribution, GumbelDistribution, HalfNormalDistribution, InverseGaussianDistribution, LaplaceDistribution, LevyDistribution, LogisticDistribution, LogNormalDistribution, MaxwellDistribution, NormalDistribution, ParetoDistribution, RayleighDistribution, StudentTDistribution, UniformDistribution, WeibullDistribution , Biểu đồ phân phối.

Các bản phân phối rời rạc có thể có cho các TargetFifts là: BenfordDistribution, BinomialDistribution, BorelTannerDistribution, DiscomUniformDistribution, DiscDUnributionDistribution

Tiêu chí thông tin nội bộ sử dụng tiêu chí thông tin Bayes cùng với các linh mục trên TargetFifts.

— Carl
nguồn