Câu hỏi:
Tôi muốn bắt đầu một cuộc thảo luận về cách mọi người thiết lập các tham số thuật toán khi không thể xác thực đối với groundtruth (có thể vì không thể lấy được nền tảng hoặc rất khó / tẻ nhạt).
Tôi đã đọc rất nhiều bài báo và thực hiện các thuật toán cơ bản trong đó --- một tập hợp các tham số được cho là đã được đặt "theo kinh nghiệm" --- và tôi thường thấy rằng đây là những thuật toán ảnh hưởng đến tính tổng quát của thuật toán (mặc dù lý thuyết cơ bản của phương pháp là thanh lịch, lôi cuốn và âm thanh).
Tôi sẽ đánh giá cao nếu bạn có thể chia sẻ suy nghĩ của bạn. Và, không có câu trả lời đúng hay sai cho câu hỏi này. Tôi chỉ muốn biết, làm thế nào mọi người khác đối phó với điều này.
Bối cảnh / Nguồn câu hỏi:
Tôi là một nhà khoa học máy tính làm việc trong các lĩnh vực phân tích hình ảnh, thị giác máy tính và học máy và câu hỏi này đã xuất hiện trong đầu tôi khi tôi phải đối mặt với vấn đề nan giải này nhiều lần mỗi khi tôi thiết kế một thuật toán mới và tôi thấy mình đã dành một lượng thời gian đáng kể để điều chỉnh các thông số.
Ngoài ra, tôi nghĩ rằng, câu hỏi của tôi ở đây là tổng quát hơn cho bất kỳ lĩnh vực nào trong đó các thuật toán tính toán có liên quan nhiều và tôi muốn mời những suy nghĩ của mọi người từ tất cả các lĩnh vực liên quan.
Tôi muốn cho bạn một ví dụ cụ thể, để nó giúp bạn suy nghĩ:
--- Lấy trường hợp phát hiện tính năng (giả sử các đốm tròn hoặc điểm nổi bật). Bạn chạy một số bộ lọc (cần tham số) ở các tỷ lệ khác nhau (tham số tỷ lệ) và có thể ngưỡng đáp ứng (tham số ngưỡng). Thông thường không thể có được một nền tảng để xác nhận hợp lệ và do đó tự động điều chỉnh các tham số của bạn trong các tình huống như vậy.
--- Lấy bất kỳ khung tính toán nào bao gồm nhiều thành phần xử lý tín hiệu. Luôn có các tham số để điều chỉnh và thường không có cơ sở và khi bạn điều chỉnh chúng một cách chủ quan trên một tập hợp con ngẫu nhiên nhỏ của tập dữ liệu của bạn, một ngày nào đó bạn sẽ gặp trường hợp mà nó không khái quát.
Ma quỷ tham số này rắc rối hơn khi bạn đang thiết lập tham số cho một số bước trung gian trong thuật toán của mình.
Và tôi thường thấy, không thể đặt vấn đề tìm giá trị tốt cho các tham số này thành vấn đề tối ưu hóa với hàm mục tiêu mà bạn có thể lấy đạo hàm và từ đó sử dụng thuật toán tối ưu hóa tiêu chuẩn để tìm giá trị tốt.
Ngoài ra, trong nhiều tình huống phơi bày các tham số này cho người dùng cuối không phải là một lựa chọn, vì chúng tôi thường phát triển ứng dụng / phần mềm cho người dùng cuối không tính toán (giả sử các nhà sinh học, bác sĩ) và họ thường không biết gì khi bạn yêu cầu họ điều chỉnh nó trừ khi nó rất trực quan (như kích thước đối tượng xấp xỉ).
Hãy chia sẻ suy nghĩ của bạn.
I want to kick up a discussion ...
thực sự là dấu hiệu tốt cho thấy những gì bạn đang hỏi không phù hợp với định dạng * .SE.