Đưa ra chuỗi MCMC 10D, làm cách nào tôi có thể xác định (các) chế độ sau của nó trong R?


10

Câu hỏi: Với chuỗi MCMC 10 chiều, giả sử tôi đã chuẩn bị để đưa cho bạn một ma trận rút thăm: 100.000 lần lặp (hàng) theo 10 tham số (cột), làm cách nào tốt nhất tôi có thể xác định các chế độ sau? Tôi đặc biệt quan tâm đến nhiều chế độ.

Lý lịch:Tôi tự coi mình là một nhà thống kê hiểu biết tính toán, nhưng khi một đồng nghiệp hỏi tôi câu hỏi này, tôi đã xấu hổ vì tôi không thể đưa ra một câu trả lời hợp lý. Mối quan tâm chính là nhiều chế độ có thể xuất hiện, nhưng chỉ khi ít nhất tám hoặc hơn mười chiều được xem xét. Suy nghĩ đầu tiên của tôi là sử dụng ước tính mật độ hạt nhân, nhưng tìm kiếm thông qua R cho thấy không có gì hứa hẹn cho các vấn đề lớn hơn ba chiều. Đồng nghiệp đã đề xuất một chiến lược tạo thùng đặc biệt trong mười chiều và tìm kiếm tối đa, nhưng mối quan tâm của tôi là băng thông có thể dẫn đến các vấn đề thưa thớt đáng kể hoặc thiếu độ phân giải để phân biệt nhiều chế độ. Điều đó nói rằng, tôi vui vẻ chấp nhận các đề xuất cho các đề xuất băng thông tự động, liên kết đến một công cụ ước tính mật độ 10 nhân hoặc bất cứ điều gì khác mà bạn biết.

Mối quan tâm:

  1. Chúng tôi tin rằng việc phân phối có thể bị sai lệch; do đó, chúng tôi muốn xác định (các) chế độ sau và không có nghĩa là sau.

  2. Chúng tôi lo ngại rằng có thể có một số chế độ sau.

  3. Nếu có thể, chúng tôi muốn đề xuất dựa trên R. Nhưng bất kỳ thuật toán nào cũng sẽ làm được miễn là nó không khó thực hiện. Tôi đoán tôi không muốn thực hiện một công cụ ước tính mật độ hạt nhân Nd với lựa chọn băng thông tự động từ đầu.


Vui lòng xem chủ đề về các phương pháp ước tính chế độ nhanh thống kê.stackexchange.com/questions/33625
Pavel Ruzankin

Câu trả lời:


9

Bạn đã xem xét sử dụng một cách tiếp cận hàng xóm gần nhất?

ví dụ: xây dựng danh sách các klân cận gần nhất cho mỗi trong số 100 điểm và sau đó xem xét điểm dữ liệu với khoảng cách nhỏ nhất của kthhàng xóm một chế độ. Nói cách khác: tìm điểm có 'bong bóng nhỏ nhất' chứa kcác điểm khác quanh điểm này.

Tôi không chắc điều này mạnh đến mức nào và sự lựa chọn krõ ràng ảnh hưởng đến kết quả.


Đôi khi tôi chỉ muốn đập đầu mình lên. Đề nghị tuyệt vời.
M. Tibbits

1
Tôi cũng chỉ nghĩ đến việc sử dụng kmeanschức năng trong R. Tôi thực sự không nên đặt câu hỏi từ nửa đêm đến 4 giờ sáng.
M. Tibbits

4

Đây chỉ là một câu trả lời một phần.

Gần đây tôi đã sử dụng figtree cho các ước tính mật độ hạt nhân đa chiều. Đó là một gói C và tôi đã làm cho nó hoạt động khá dễ dàng. Tuy nhiên, tôi chỉ sử dụng nó để ước tính mật độ tại các điểm cụ thể, không tính toán thống kê tóm tắt.


3

Nếu bạn giữ khả năng đăng nhập, bạn chỉ có thể chọn một trong đó có giá trị cao nhất. Ngoài ra, nếu sở thích của bạn chủ yếu là chế độ, chỉ cần thực hiện tối ưu hóa để tìm điểm có khả năng đăng nhập cao nhất là đủ.


Đây là câu trả lời phù hợp nhất, ít nhất là phần đầu tiên! Trong nhiều mô phỏng MCMC, khả năng (log-) được tính toán cho tất cả các đề xuất và do đó có thể được lưu trữ. Hoặc giá trị cao nhất cho đến nay và đối số của nó có thể được lưu trữ. Với điều kiện thuật toán MCMC đã hội tụ về số lượng mô phỏng bạn đã chạy, đây là một cách tiếp cận hợp lệ.
Tây An

2

Bạn đã xem xét 'PRIM / săn bắn' chưa? (xem ví dụ Mục 9.3. 'Các yếu tố của học thống kê' của Tibshirani và cộng sự hoặc hỏi công cụ tìm kiếm yêu thích của bạn). Không chắc chắn liệu điều đó được thực hiện trong R mặc dù.

[Theo như tôi hiểu là bạn đang cố gắng tìm chế độ của mật độ xác suất mà từ đó hàng nghìn của bạn được rút ra. Vì vậy, vấn đề của bạn sẽ được giải quyết một phần bằng cách tìm một density estimationphương pháp thích hợp ].


Vâng, có một gói primer , với họa tiết R: Sử dụng prim để săn vết sưng . Nó không rõ ràng đối với tôi làm thế nào nó sẽ hoạt động trong trường hợp này, mặc dù.
chl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.