The Parameter Devil - Cách đặt chúng khi không có xác thực đối với groundtruth là có thể [đóng]


9

Câu hỏi:

Tôi muốn bắt đầu một cuộc thảo luận về cách mọi người thiết lập các tham số thuật toán khi không thể xác thực đối với groundtruth (có thể vì không thể lấy được nền tảng hoặc rất khó / tẻ nhạt).

Tôi đã đọc rất nhiều bài báo và thực hiện các thuật toán cơ bản trong đó --- một tập hợp các tham số được cho là đã được đặt "theo kinh nghiệm" --- và tôi thường thấy rằng đây là những thuật toán ảnh hưởng đến tính tổng quát của thuật toán (mặc dù lý thuyết cơ bản của phương pháp là thanh lịch, lôi cuốn và âm thanh).

Tôi sẽ đánh giá cao nếu bạn có thể chia sẻ suy nghĩ của bạn. Và, không có câu trả lời đúng hay sai cho câu hỏi này. Tôi chỉ muốn biết, làm thế nào mọi người khác đối phó với điều này.

Bối cảnh / Nguồn câu hỏi:

Tôi là một nhà khoa học máy tính làm việc trong các lĩnh vực phân tích hình ảnh, thị giác máy tính và học máy và câu hỏi này đã xuất hiện trong đầu tôi khi tôi phải đối mặt với vấn đề nan giải này nhiều lần mỗi khi tôi thiết kế một thuật toán mới và tôi thấy mình đã dành một lượng thời gian đáng kể để điều chỉnh các thông số.

Ngoài ra, tôi nghĩ rằng, câu hỏi của tôi ở đây là tổng quát hơn cho bất kỳ lĩnh vực nào trong đó các thuật toán tính toán có liên quan nhiều và tôi muốn mời những suy nghĩ của mọi người từ tất cả các lĩnh vực liên quan.

Tôi muốn cho bạn một ví dụ cụ thể, để nó giúp bạn suy nghĩ:

--- Lấy trường hợp phát hiện tính năng (giả sử các đốm tròn hoặc điểm nổi bật). Bạn chạy một số bộ lọc (cần tham số) ở các tỷ lệ khác nhau (tham số tỷ lệ) và có thể ngưỡng đáp ứng (tham số ngưỡng). Thông thường không thể có được một nền tảng để xác nhận hợp lệ và do đó tự động điều chỉnh các tham số của bạn trong các tình huống như vậy.

--- Lấy bất kỳ khung tính toán nào bao gồm nhiều thành phần xử lý tín hiệu. Luôn có các tham số để điều chỉnh và thường không có cơ sở và khi bạn điều chỉnh chúng một cách chủ quan trên một tập hợp con ngẫu nhiên nhỏ của tập dữ liệu của bạn, một ngày nào đó bạn sẽ gặp trường hợp mà nó không khái quát.

Ma quỷ tham số này rắc rối hơn khi bạn đang thiết lập tham số cho một số bước trung gian trong thuật toán của mình.

Và tôi thường thấy, không thể đặt vấn đề tìm giá trị tốt cho các tham số này thành vấn đề tối ưu hóa với hàm mục tiêu mà bạn có thể lấy đạo hàm và từ đó sử dụng thuật toán tối ưu hóa tiêu chuẩn để tìm giá trị tốt.

Ngoài ra, trong nhiều tình huống phơi bày các tham số này cho người dùng cuối không phải là một lựa chọn, vì chúng tôi thường phát triển ứng dụng / phần mềm cho người dùng cuối không tính toán (giả sử các nhà sinh học, bác sĩ) và họ thường không biết gì khi bạn yêu cầu họ điều chỉnh nó trừ khi nó rất trực quan (như kích thước đối tượng xấp xỉ).

Hãy chia sẻ suy nghĩ của bạn.


1
Phần mở đầu I want to kick up a discussion ...thực sự là dấu hiệu tốt cho thấy những gì bạn đang hỏi không phù hợp với định dạng * .SE.
Peter K.

Câu trả lời:


2

Giả sử rằng có một sự thật trệt, ( ít nhất là về mặt lý thuyết ) là một trong những cách có thể để khắc phục tình trạng "tediousness" Vấn đề là một "bootstrap" tạo ra thực địa. Nếu bạn đã có một thuật toán phù hợp thực hiện công việc đó, hãy nói 80% -90% các trường hợp, bạn có thể chạy thuật toán của mình trên một tập hợp lớn và yêu cầu người dùng chỉ đánh dấu các lỗi. Cách tiếp cận này có những sai sót riêng, chẳng hạn như thiên vị đối với thuật toán của bạn.

Tuy nhiên, có một số trường hợp hoàn toàn không có sự thật, chỉ có sự đánh đổi hệ thống khác nhau. Ví dụ, một hệ thống xử lý hình ảnh được yêu cầu để tạo ra hình ảnh sắc nét, chính xác, không nhiễu. Rõ ràng, bạn không thể có tất cả chúng cùng một lúc. Trong trường hợp như vậy, bạn nên sử dụng các số liệu khách quan có thể được tính toán trên kết quả của hệ thống của bạn. (Xem Imatest , máy phân tích DXO để xử lý hình ảnh).

Khi bạn đã có những phương pháp này, có các phương pháp tối ưu hóa đa mục tiêu có thể tạo ánh xạ từ sự đánh đổi (rõ ràng cho người dùng) đến các tham số nội tại.

Trong mọi trường hợp, bạn không bao giờ nên cung cấp cho người dùng một tham số mà anh ta không thể hiểu. Nếu tất cả đều thất bại, chỉ cần mã cứng tham số.


2

Đây là một vấn đề thực sự, thực sự khó khăn, nhưng có rất nhiều công việc trong khu vực. Ví dụ, hãy xem bài báo này của Ramani & Fessler về phương pháp SURE. Giới thiệu có một cái nhìn tổng quan tuyệt vời về các phương pháp lựa chọn tham số, hãy chắc chắn kiểm tra các tài liệu tham khảo của họ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.