Đào tạo Trường ngẫu nhiên Markov cơ bản để phân loại pixel trong ảnh


16

Tôi đang cố gắng học cách sử dụng Trường ngẫu nhiên Markov để phân đoạn các vùng trong một hình ảnh. Tôi không hiểu một số tham số trong MRF hoặc tại sao tối đa hóa kỳ vọng tôi thực hiện không hội tụ đến một giải pháp đôi khi.

Bắt đầu từ định lý của Bayes, tôi có , trong đó y là giá trị thang màu xám của pixel và x là nhãn lớp. Tôi đã chọn sử dụng phân phối Gaussian cho p ( y | x ) , trong khi p ( x ) được mô hình hóa bằng MRF.p(x|y)=p(y|x)p(x)/p(y)yxp(y|x)p(x)

Tôi sử dụng một hàm tiềm năng cho MRF có cả tiềm năng phân cụm theo cặp và giá trị tiềm năng cho nhãn lớp của pixel được phân loại. Giá trị tiềm năng pixel đơn là một số hằng số phụ thuộc vào nhãn lớp x . Các hàm tiềm năng theo cặp được đánh giá cho các lân cận 4 được kết nối và trả về dương β nếu hàng xóm có cùng nhãn lớp với pixel này và - β nếu các nhãn khác nhau.αxββ

Tại điểm trong tối đa hóa kỳ vọng nơi tôi phải tìm các giá trị của β tối đa hóa giá trị kỳ vọng của loga tôi đã sử dụng một phương pháp tối ưu hóa số (cố gắng dốc liên hợp, BFGS, phương pháp Powell) nhưng sẽ luôn thấy rằng giá trị của β sẽ trở thành tiêu cực, các α s sẽ tăng đáng kể và một lần lặp hoặc hai sau đó là toàn bộ hình ảnh sẽ được gán cho một nhãn chỉ (nền: gán nhãn lớp cho các thông số MRF đã được thực hiện sử dụng ICM). Nếu tôi loại bỏ các bảng chữ cái, tức là chỉ sử dụng các tiềm năng ghép đôi, thì tối đa hóa kỳ vọng sẽ hoạt động tốt.α(x)ββα

Hãy giải thích mục đích của bảng chữ cái cho mỗi lớp là gì? Tôi nghĩ rằng chúng sẽ liên quan đến số lượng của lớp có trong hình ảnh, nhưng nó không xuất hiện. Khi tôi đã làm cho MRF chỉ hoạt động với các tiềm năng theo cặp, tôi đã so sánh nó với Mô hình hỗn hợp Gaussian thẳng tiến và thấy rằng chúng tạo ra kết quả gần như giống hệt nhau. Tôi đã mong đợi các tiềm năng theo cặp sẽ làm giảm bớt các lớp một chút, nhưng điều đó đã không xảy ra. Xin tư vấn nơi tôi đã đi sai.


Chỉ tò mò, tại sao bạn lại chọn mô hình đồ thị vô hướng?

Trong ứng dụng của tôi, giá trị thang màu xám của số pixel và các pixel lân cận có nhiều khả năng có cùng nhãn lớp, nhưng không có lý do nào để sử dụng một phiên bản beta khác nhau cho mỗi cụm sao. Tôi hy vọng tôi hiểu đúng câu hỏi của bạn.
chippies

1
Bảng chữ cái không đổi dường như phục vụ mục đích mô hình hóa phân phối trước trên nhãn. Như bạn đã nghĩ, bảng chữ cái chính xác sẽ có khả năng chồng các nhãn được gặp thường xuyên hơn trong tập huấn luyện. Nếu mô hình của bạn hoạt động tốt mà không có chúng, tại sao bạn không bỏ chúng khỏi mô hình? Mô tả của bạn không đủ dài dòng để trả lời tại sao bảng chữ cái sẽ phát triển và làm hỏng mọi thứ, nhưng có lẽ bạn cần sự chính quy. Cố gắng thêm trước gaussian trên alpha để mô hình, tức là thêm đến log-sau, điều này sẽ có thể ngăn chặn overfitting. λα2
Roman Shapovalov

Điều gì không rõ ràng từ câu hỏi của bạn: 1) Khả năng p (y | x) của bạn có bị phân hủy trên các pixel không, vì vậy bạn sử dụng một gaussian 1D cho mỗi? 2) Mục tiêu chính xác bạn tối ưu hóa trong EM là gì (bạn đã đề cập đến khả năng đăng nhập, nhưng bạn sử dụng MRF để lập mô hình trước đó)? 3) Bạn có xác định tiềm năng trong miền logarit không? Liệu tăng beta có nghĩa là tăng P (x), hay năng lượng, đó là -log P (x) hay năng lượng âm? 4) Bạn có quản lý để thực sự giảm mục tiêu EM bằng cách đặt các bảng chữ cái suy biến như vậy không, hoặc tối ưu hóa có thất bại không?
Roman Shapovalov

Những gì về truyền bá niềm tin loopy?
wolfsatthedoor

Câu trả lời:


1

Chẩn đoán

Điều này nghe có vẻ như một vấn đề khởi tạo.

Mô hình MRF mà bạn đang sử dụng là không lồi và, do đó, có nhiều cực tiểu cục bộ. Theo tôi biết, tất cả các kỹ thuật tối ưu hóa hiện tại đều nhạy cảm với việc khởi tạo, có nghĩa là chất lượng của giải pháp cuối cùng bị ảnh hưởng rất nhiều bởi nơi bạn bắt đầu quy trình tối ưu hóa.

Giải pháp đề xuất

Tôi đề nghị thử các chiến lược khác nhau để khởi tạo mô hình. Ví dụ, một chiến lược xuất hiện trong đầu tôi là:

  1. p(y|x) p(x)α=β=0 p(x)α

  2. αβ

Tuy nhiên, việc khởi tạo được đề xuất là cách tốt nhất để khởi tạo tối ưu hóa của bạn, nhưng đúng hơn, chỉ là một tùy chọn có thể.

λα||α||2+λβ||β||2λαλβ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.