Tôi đang ước tính 15 tham số của mô hình của mình bằng cách sử dụng phương pháp Bayes và phương pháp Markov Chain Monte Carlo (MCMC). Do đó, dữ liệu của tôi sau khi chạy chuỗi MCMC gồm 100000 mẫu là bảng giá trị tham số 100000 × 15.
Tôi muốn tìm Khu vực mật độ cao nhất 15 chiều của phân phối sau của tôi.
Vấn đề của tôi: Phân cụm các mẫu để gán chúng cho HDR (ví dụ sử dụng phân cụm dựa trên mật độ bên dưới) cần một ma trận khoảng cách của tất cả các mẫu. Đối với 100000 mẫu, ma trận này sẽ mất 37 GiB RAM, mà tôi không có, không nói về thời gian tính toán. Làm cách nào tôi có thể tìm thấy HDR của mình bằng cách sử dụng lượng tài nguyên tính toán hợp lý? Ai đó phải có vấn đề này trước đây?!
Đã chỉnh sửa để thêm: Theo câu hỏi SO này và trang Wikipedia DBSCAN, DBSCAN có thể được đưa xuống độ phức tạp thời gian và độ phức tạp không gian bằng cách sử dụng chỉ số không gian và tránh ma trận khoảng cách. Vẫn đang tìm kiếm một triển khai hoặc mô tả về ...
Nhiều vùng mật độ cao nhất sử dụng phân cụm dựa trên mật độ (DBSCAN)
Vùng mật độ cao nhất của AX% là vùng phân phối bao gồm X% khối lượng xác suất. Vì các mẫu được vẽ bởi phương thức MCMC xuất hiện với tần suất (không có triệu chứng) tỷ lệ thuận với phân phối sau tìm kiếm, X% HDR của tôi cũng bao gồm X% các mẫu của tôi.
Tôi đã lên kế hoạch sử dụng thuật toán phân cụm dựa trên mật độ DBSCAN để phân cụm các mẫu của mình vì mật độ của các mẫu có liên quan trực tiếp đến chiều cao cực đại của hậu thế của tôi.
Một cách tương tự theo phương pháp Hyndman (1996) ( giấy , SO câu hỏi ), tôi lên kế hoạch để tăng khoảng cách tối đa một mẫu duy nhất có thể có từ một cụm để được coi là một phần của nó lặp đi lặp lại cho đến khi X% mẫu của tôi là một phần của một số cụm:
Sau bước đó, tôi sẽ tính toán phạm vi của từng cụm theo từng chiều như một cách để trình bày các vùng Mật độ cao nhất của mình.
Trong ví dụ này, bạn sẽ có thể thấy rằng 80% HDR bao quanh hai vùng riêng biệt trong khi 50% HDR chỉ chứa một cụm. Tôi có thể hình dung điều này giống như hiển thị bên dưới, vì cốt truyện ở trên không áp dụng cho hơn 2 chiều: