Tính toán chế độ dữ liệu được lấy mẫu từ một phân phối liên tục


12

Các phương pháp tốt nhất để điều chỉnh 'chế độ' dữ liệu được lấy mẫu từ phân phối liên tục là gì?

Vì chế độ không được xác định về mặt kỹ thuật (phải không?) Cho phân phối liên tục, tôi thực sự hỏi 'làm thế nào để bạn tìm thấy giá trị phổ biến nhất'?

Nếu bạn giả sử phân phối chính là gaussian, bạn có thể bin dữ liệu và thấy rằng chế độ là vị trí bin có số đếm lớn nhất. Tuy nhiên, làm thế nào để bạn xác định kích thước thùng? Có triển khai mạnh mẽ có sẵn? (tức là mạnh mẽ để vượt trội hơn). Tôi sử dụng python/ scipy/ numpy, nhưng tôi có thể dịch Rmà không gặp quá nhiều khó khăn.


8
Tôi không chắc chế độ có được xác định về mặt kỹ thuật theo cách này không, nhưng chế độ toàn cầu của phân phối liên tục thường được sử dụng để có nghĩa là điểm có mật độ cao nhất.
Macro

1
@Macro - thật hữu ích. Sau đó, bạn có thể đọc câu hỏi của tôi như 'Phương pháp tốt nhất để xác định mật độ (đỉnh) là gì?'
keflavich

1
Có thể phù hợp với ước tính mật độ hạt nhân cho dữ liệu của bạn và ước tính chế độ là đỉnh của điều đó? Đây có vẻ là một cách tiếp cận hợp lý nhưng tôi không quen thuộc với tài liệu về vấn đề này.
Macro

1
x0=xmin,x1,x2,,x9,x10=xmax10%xi+1ximin1j10xj+1xj? Sau đó, lấy kích thước thùng là, một phần tư của khoảng thời gian xen kẽ ngắn nhất này.
Dilip Sarwate

2
Những giả định nào bạn có thể đưa ra về phân phối chính, keflavich? Nếu chúng là tham số, tốt nhất là ước tính các tham số và sau đó ước tính chế độ từ các tham số đó. (Ví dụ: trung bình mẫu ước tính chế độ phân phối bình thường.) Nếu không, binning có thể là một phương pháp kém. Thay vào đó, một chuỗi các công cụ ước tính kernel với nửa băng thông khác nhau có thể được sử dụng để cung cấp một chuỗi các công cụ ước tính; thông thường, nếu phân phối cơ bản là không chính thống, các chế độ làm mịn kernel sẽ xuất hiện để hội tụ về một chế độ duy nhất khi các nửa băng thông trở nên lớn và đó có thể là ước tính của bạn.
whuber

Câu trả lời:


4

Trong R, áp dụng phương pháp không dựa trên mô hình tham số của phân phối cơ bản và sử dụng công cụ ước tính mật độ mặc định của hạt nhân cho 10000 biến phân phối gamma:

x <- rgamma(10000, 2, 5)
z <- density(x)
plot(z) # always good to check visually
z$x[z$y==max(z$y)]

trả về 0,199 là giá trị của x ước tính có mật độ cao nhất (ước tính mật độ được lưu trữ dưới dạng "z $ y").


3
Điều duy nhất tôi sẽ làm khác với đó là sử dụng băng thông khác nhau. Băng thông mặc định cho mật độ () không đặc biệt tốt. mật độ (x, bw = "SJ") là tốt hơn. Thậm chí tốt hơn là sử dụng một băng thông được thiết kế để ước tính chế độ. Xem scTHERirect.com/science/article/pii/0167715295000240 để biết một số thảo luận.
Rob Hyndman

2

Giả sử bạn tạo một biểu đồ, có kích thước bin b và thùng lớn nhất có k mục, từ tổng số mẫu của bạn có kích thước n. Sau đó, PDF trung bình trong thùng đó có thể được ước tính là b * k / n.

Vấn đề là một thùng khác, có tổng số thành viên ít hơn, có thể có mật độ điểm cao. Bạn chỉ có thể biết về điều này nếu bạn có một giả định hợp lý về tốc độ thay đổi của PDF. Nếu bạn làm như vậy, thì bạn có thể ước tính xác suất thùng lớn thứ hai thực sự có chế độ.

Vấn đề cơ bản là điều này. Một mẫu cung cấp kiến ​​thức tốt về CDF, theo định lý Kolmogorov - Smirnov, và do đó, một ước tính tốt về trung vị và các lượng tử khác. Nhưng biết một xấp xỉ cho một hàm trong L1 không cung cấp kiến ​​thức gần đúng về đạo hàm của nó. Vì vậy, không có mẫu nào cung cấp kiến ​​thức tốt về PDF, mà không có giả định bổ sung.


0

Dưới đây là một số phác thảo giải pháp chung cũng hoạt động cho các bản phân phối chiều cao:

  • Huấn luyện một f-GAN với phân kỳ KL ngược, mà không đưa ra bất kỳ đầu vào ngẫu nhiên nào cho trình tạo (nghĩa là buộc nó phải có tính xác định).

  • Huấn luyện một f-GAN với phân kỳ KL ngược, di chuyển phân phối đầu vào sang máy phát theo chức năng delta Dirac khi tiến trình đào tạo và thêm một hình phạt độ dốc cho chức năng mất máy phát.

  • Huấn luyện một mô hình thế hệ (khác biệt) có thể đánh giá một cách dễ dàng một xấp xỉ pdf ở bất kỳ điểm nào (tôi tin rằng ví dụ VAE, mô hình dựa trên dòng chảy hoặc mô hình tự phát sẽ làm được). Sau đó sử dụng một số loại tối ưu hóa (một số hương vị của độ dốc tăng dần có thể được sử dụng nếu suy luận mô hình là khác biệt) để tìm ra mức tối đa của xấp xỉ đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.