Đăng chéo câu hỏi của tôi từ mathoverflow để tìm một số thống kê trợ giúp cụ thể.
Tôi đang nghiên cứu một quy trình vật lý tạo dữ liệu dự án độc đáo thành hai chiều với các giá trị không âm. Mỗi quá trình có một rãnh (dự kiến) các điểm - - xem hình ảnh bên dưới.
Các bản nhạc mẫu có màu xanh lam, một loại bản nhạc rắc rối đã được vẽ bằng màu xanh lá cây và một vùng quan tâm được vẽ bằng màu đỏ:
Mỗi ca khúc là kết quả của một thí nghiệm độc lập. Hai mươi triệu thí nghiệm đã được thực hiện trong nhiều năm, nhưng từ hai nghìn chỉ thể hiện tính năng mà chúng tôi vẽ như một bản nhạc. Chúng tôi chỉ quan tâm đến các thử nghiệm tạo ra một bản nhạc, vì vậy tập dữ liệu của chúng tôi là (khoảng) hai nghìn bản nhạc.
Có thể để một bản nhạc đi vào khu vực quan tâm và chúng tôi hy vọng theo thứ tự trong nhạc sẽ làm như vậy. Ước tính con số đó là câu hỏi trong tầm tay:
Làm thế nào chúng ta có thể tính toán khả năng của một ca khúc tùy ý đi vào khu vực quan tâm?
Không thể tiến hành các thử nghiệm đủ nhanh để xem tần suất các bản nhạc được tạo ra đi vào khu vực quan tâm, vì vậy chúng tôi cần ngoại suy từ dữ liệu có sẵn.
Chúng tôi đã trang bị cho các giá trị ví dụ được đưa ra , nhưng điều này không đủ xử lý dữ liệu như xanh - dường như cần có một mô hình bao gồm cả hai chiều.
Chúng tôi đã trang bị khoảng cách tối thiểu từ mỗi rãnh đến khu vực quan tâm, nhưng chúng tôi không tin rằng điều này sẽ tạo ra một kết quả chính đáng.
1) Có cách nào để phù hợp với phân phối cho loại dữ liệu này để ngoại suy không?
-hoặc là-
2) Có cách nào rõ ràng để sử dụng dữ liệu này để tạo mô hình để tạo các bản nhạc không? Ví dụ: sử dụng phân tích thành phần chính trên các rãnh như các điểm trong một không gian rộng, sau đó khớp phân phối (Pearson?) Cho các rãnh được chiếu lên các thành phần đó.