Trước hết tôi muốn xin lỗi về tiêu đề mơ hồ, tôi thực sự không thể tạo ra một cái tốt hơn ngay bây giờ, xin vui lòng thay đổi, hoặc khuyên tôi thay đổi, tiêu đề để làm cho nó phù hợp hơn với cốt lõi của câu hỏi .
Bây giờ về bản thân câu hỏi, tôi đã làm việc trên một phần mềm mà tôi đã nảy ra ý tưởng sử dụng phân phối theo kinh nghiệm để lấy mẫu, tuy nhiên bây giờ nó đã được triển khai nên tôi không biết phải diễn giải tất cả như thế nào. Cho phép tôi mô tả những gì tôi đã làm và tại sao:
Tôi có một loạt các tính toán cho một tập hợp các đối tượng, mang lại điểm số cuối cùng. Tuy nhiên, điểm số là rất đặc biệt. Vì vậy, để hiểu được điểm số của một đối tượng cụ thể, điều tôi làm là thực hiện một số lượng lớn (N = 1000) điểm số với các giá trị giả / ngẫu nhiên, mang lại 1000 điểm giả. Ước tính một "phân phối điểm" theo kinh nghiệm cho đối tượng cụ thể đó sẽ đạt được bằng 1000 giá trị điểm giả này.
Tôi đã triển khai điều này trong Java (vì phần còn lại của phần mềm cũng được viết trong môi trường Java) bằng thư viện Apache Commons Math , đặc biệt là EmpiricalDistImpl
lớp . Theo tài liệu này, lớp này sử dụng:
Số tiền cho Phương pháp hạt nhân biến đổi với làm mịn Gaussian: Tiêu hóa tệp đầu vào
- Truyền tệp một lần để tính tối thiểu và tối đa.
- Chia phạm vi từ min-max thành "thùng" binCount.
- Truyền lại tệp dữ liệu, tính toán số lượng thùng và thống kê đơn biến (trung bình, std dev.) Cho mỗi thùng
- Chia khoảng (0,1) thành các khoảng phụ được liên kết với các thùng, với độ dài của khoảng thời gian phụ của thùng tỷ lệ với số lượng của nó.
Bây giờ câu hỏi của tôi là, nó có ý nghĩa để lấy mẫu từ phân phối này để tính toán một số loại giá trị dự kiến? Nói cách khác, tôi có thể tin tưởng / dựa vào phân phối này đến mức nào? Ví dụ, tôi có thể rút ra kết luận về tầm quan trọng của việc quan sát điểm bằng cách kiểm tra phân phối không?
Tôi nhận ra rằng đây có lẽ là một cách không chính thống khi xem xét một vấn đề như thế này nhưng tôi nghĩ sẽ rất thú vị khi hiểu rõ hơn về khái niệm phân phối theo kinh nghiệm và cách chúng có thể / không thể được sử dụng trong phân tích.