Làm thế nào để sử dụng / giải thích phân phối theo kinh nghiệm?


8

Trước hết tôi muốn xin lỗi về tiêu đề mơ hồ, tôi thực sự không thể tạo ra một cái tốt hơn ngay bây giờ, xin vui lòng thay đổi, hoặc khuyên tôi thay đổi, tiêu đề để làm cho nó phù hợp hơn với cốt lõi của câu hỏi .

Bây giờ về bản thân câu hỏi, tôi đã làm việc trên một phần mềm mà tôi đã nảy ra ý tưởng sử dụng phân phối theo kinh nghiệm để lấy mẫu, tuy nhiên bây giờ nó đã được triển khai nên tôi không biết phải diễn giải tất cả như thế nào. Cho phép tôi mô tả những gì tôi đã làm và tại sao:

Tôi có một loạt các tính toán cho một tập hợp các đối tượng, mang lại điểm số cuối cùng. Tuy nhiên, điểm số là rất đặc biệt. Vì vậy, để hiểu được điểm số của một đối tượng cụ thể, điều tôi làm là thực hiện một số lượng lớn (N = 1000) điểm số với các giá trị giả / ngẫu nhiên, mang lại 1000 điểm giả. Ước tính một "phân phối điểm" theo kinh nghiệm cho đối tượng cụ thể đó sẽ đạt được bằng 1000 giá trị điểm giả này.

Tôi đã triển khai điều này trong Java (vì phần còn lại của phần mềm cũng được viết trong môi trường Java) bằng thư viện Apache Commons Math , đặc biệt là EmpiricalDistImpllớp . Theo tài liệu này, lớp này sử dụng:

Số tiền cho Phương pháp hạt nhân biến đổi với làm mịn Gaussian: Tiêu hóa tệp đầu vào

  1. Truyền tệp một lần để tính tối thiểu và tối đa.
  2. Chia phạm vi từ min-max thành "thùng" binCount.
  3. Truyền lại tệp dữ liệu, tính toán số lượng thùng và thống kê đơn biến (trung bình, std dev.) Cho mỗi thùng
  4. Chia khoảng (0,1) thành các khoảng phụ được liên kết với các thùng, với độ dài của khoảng thời gian phụ của thùng tỷ lệ với số lượng của nó.

Bây giờ câu hỏi của tôi là, nó có ý nghĩa để lấy mẫu từ phân phối này để tính toán một số loại giá trị dự kiến? Nói cách khác, tôi có thể tin tưởng / dựa vào phân phối này đến mức nào? Ví dụ, tôi có thể rút ra kết luận về tầm quan trọng của việc quan sát điểm bằng cách kiểm tra phân phối không?S

Tôi nhận ra rằng đây có lẽ là một cách không chính thống khi xem xét một vấn đề như thế này nhưng tôi nghĩ sẽ rất thú vị khi hiểu rõ hơn về khái niệm phân phối theo kinh nghiệm và cách chúng có thể / không thể được sử dụng trong phân tích.


Nếu tôi hiểu bạn một cách chính xác, phân phối cuối cùng của bạn về cơ bản tốt như "giá trị được tạo ngẫu nhiên / ngẫu nhiên" của bạn cho các đối tượng. Vậy - bạn có nghĩ rằng bạn đã lấy mẫu phân phối "đối tượng" của mình tốt không?
AVB

@AVB: không quá nhiều sự phân phối của đối tượng mà là sự phân phối điểm số cho một đối tượng cụ thể. Tôi đoán mục tiêu của tôi là: A) Đảm bảo tính toán điểm là âm thanh và không thiên vị đối với các thuộc tính khác nhau của các đối tượng trong câu hỏi; và B) Để có thể nói điều gì đó về tầm quan trọng của điểm được tính từ dữ liệu thực nghiệm thực tế
posdef

Bạn có thể xem xét lấy nhiều mẫu từ các đối tượng của bạn.
John Salvatier

@ John: bạn có nghĩa là tăng số lượng từ 1000 lên, nói 10K? Tôi cũng đã suy nghĩ về điều đó, tôi không chắc nó sẽ được đền đáp như thế nào, xem xét thời gian tính toán. Bất cứ ý tưởng về điều đó?
posdef

Tôi không biết một cách dễ dàng để định lượng sự khác biệt. Có thể được hướng dẫn để xem xét một loạt các biểu đồ hoặc Mật độ hạt nhân (bằng mắt của bạn) với số lượng điểm khác nhau.
John Salvatier

Câu trả lời:


5

Phân phối theo kinh nghiệm được sử dụng mọi lúc để suy luận để bạn chắc chắn đi đúng hướng! Một trong những cách sử dụng phổ biến nhất của các bản phân phối theo kinh nghiệm là cho bootstrapping. Trên thực tế, bạn thậm chí không phải sử dụng bất kỳ máy móc nào bạn đã mô tả ở trên. Tóm lại, bạn thực hiện nhiều lần rút (thay thế) từ các mẫu ban đầu theo cách thống nhất và kết quả có thể được sử dụng để tính khoảng tin cậy trên số lượng thống kê được tính toán trước đó của bạn. Hơn nữa, các mẫu này có tính chất hội tụ lý thuyết phát triển tốt. Kiểm tra bài viết trên wikipedia về chủ đề ở đây .


Cảm ơn câu trả lời của bạn, Gary. Tôi quen thuộc với các phương thức bootstrapping, tuy nhiên tôi không chắc bằng cách nào (đọc: nơi phân tích) bạn có đề nghị tôi thực hiện bootstrapping không. Những mẫu ban đầu chúng ta đang nói về?
posdef

Các mẫu ban đầu đề cập đến mẫu bạn đã sử dụng để xây dựng phân phối theo kinh nghiệm của mình. Bạn đã đề cập đến việc sử dụng phân phối này để tính toán thống kê; Hãy nói cho đơn giản là trung bình. Cách sử dụng bootstrap sẽ là tính trung bình với điểm ban đầu , hãy gọi nó là . Bây giờ chúng ta hãy mẫu bootstrap và tính toán ước tính cho giá trị trung bình, . Sau đó, bạn có thể đặt hàng bộ này và thống kê đơn hàng sẽ cung cấp cho bạn khoảng tin cậy trênN μ N M M { μ * i } M i = 1 μ NN=1000Nμ^NMM{μ^i}i=1Mμ^N
Gary

Cảm ơn một lần nữa cho lời giải thích. Tôi không chắc liệu điều này có hữu ích hay không, khi tôi cố gắng ước tính trong đó . Nếu bạn muốn nói rằng tôi có thể đi từ ước tính sang tính toán xác suất, thì tôi chắc chắn quan tâm ..x F 1000 ( x ) μ NP(x>xobs)xF^1000(x)μ^N
posdef

Tôi đoán tôi hơi bối rối bởi những gì bạn đang tìm kiếm vì vậy tôi sẽ cố gắng hết sức để sử dụng ví dụ bạn đã đặt ra. Đối với một giá trị cố định, giả sử , chúng tôi muốn ước tính . Sau đó, chúng tôi lấy mẫu và nhận được một số giá trị . Bây giờ, lấy các bản sao của mẫu ban đầu và bạn lặp lại cùng một tính toán mang lại các giá trị của , đưa ra một CI trên . Điểm mấu chốt là mẫu ban đầu có thể giúp bạn thống kê và bootstrap cung cấp cho CI. Có lẽ câu hỏi thực sự là những gì bạn muốn làm với phân phối theo kinh nghiệm. F ( y ) N = 1000 q M M q * qyF(y)N=1000q^MMq^q^
Gary
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.