Làm thế nào để chúng ta chọn kích thước hạt nhân tùy thuộc vào vấn đề?

8

Rõ ràng, việc tìm kiếm các tham số siêu phù hợp cho mạng thần kinh là một nhiệm vụ và vấn đề phức tạp hoặc đặc thù miền. Tuy nhiên, nên có ít nhất một số "quy tắc" giữ nhiều lần nhất cho kích thước của bộ lọc (hoặc kernel)!

Trong hầu hết các trường hợp, trực giác nên dành cho các bộ lọc nhỏ để phát hiện các tính năng tần số cao và hạt nhân lớn cho các tính năng tần số thấp, phải không? Ví dụ: bộ lọc nhân để phát hiện cạnh, độ tương phản màu, v.v. và có thể để phát hiện các đối tượng đầy đủ, khi các đối tượng chiếm diện tích khoảng pixel. $3 \times 3$ $11 \times 11$ $11 \times 11$

Đây có phải là "trực giác" nói chung ít nhiều đúng không? Làm thế nào chúng ta có thể quyết định kích thước của hạt nhân nào sẽ được chọn cho một vấn đề cụ thể - hoặc thậm chí cho một lớp chập cụ thể?

— daniel451
nguồn

2

Hãy xem bài viết này . Nó cung cấp cho các công cụ để thực sự hiểu những gì bộ lọc của bạn đã học và hiển thị những gì bạn có thể làm tiếp theo để tối ưu hóa các tham số siêu của bạn. Đồng thời kiểm tra các bài báo gần đây tìm cách cung cấp các diễn giải về những gì NN học được.

— Robin
nguồn

1

Một chìa khóa cho câu trả lời là trong câu hỏi, "Ngay cả đối với một lớp đối lưu cụ thể." Việc xây dựng các mạng chập sâu không phải là một ý tưởng tốt với giả định rằng một kích thước hạt nhân duy nhất được áp dụng một cách hợp lý nhất cho tất cả các lớp. Khi xem xét các cấu hình đã được chứng minh là thành công trong các ấn phẩm, rõ ràng là các cấu hình thay đổi qua các lớp của chúng thường được tìm thấy là tối ưu.

Chìa khóa khác là để hiểu rằng hai lớp nhân 11x11 có phạm vi 21x21 và mười lớp nhân 5x5 có phạm vi tiếp cận 41x41. Một ánh xạ từ một mức độ trừu tượng đến nhu cầu tiếp theo không cần phải được hoàn thành trong một lớp.

Tổng quát về kích thước hạt nhân tồn tại, nhưng chúng là các chức năng của các đặc điểm đầu vào điển hình, đầu ra mong muốn của mạng, tài nguyên tính toán có sẵn, độ phân giải, kích thước của tập dữ liệu và cho dù chúng là hình ảnh hay phim.

Về đặc điểm đầu vào, hãy xem xét trường hợp này: Hình ảnh được chụp với độ sâu trường ảnh lớn trong điều kiện ánh sáng kém, chẳng hạn như trong các tình huống bảo mật, do đó khẩu độ của ống kính mở rộng, khiến các vật thể ở một khoảng cách xa tập trung, hoặc có thể có chuyển động mờ.

Trong điều kiện như vậy, một hạt nhân 3x3 sẽ không phát hiện ra nhiều cạnh. Nếu cạnh có thể kéo dài năm pixel, sự lựa chọn tồn tại là có bao nhiêu lớp dành riêng cho việc phát hiện nó. Yếu tố nào ảnh hưởng đến sự lựa chọn đó dựa trên những đặc điểm khác tồn tại trong dữ liệu đầu vào.

Hy vọng rằng khi phần cứng tăng tốc phát triển (trong các chip VLSI dành riêng cho mục đích này) thì các ràng buộc tài nguyên máy tính sẽ giảm mức độ ưu tiên như là một yếu tố trong lựa chọn kích thước hạt nhân. Hiện tại, thời gian tính toán là rất quan trọng và buộc quyết định về cách cân bằng số lượng lớp và kích thước lớp chủ yếu là vấn đề chi phí.

Câu hỏi này đặt ra một câu hỏi khác. Một người học máy giám sát có thể học cách tự động cân bằng cấu hình của các mạng chập sâu không? Sau đó, nó có thể được thực thi lại bất cứ khi nào tài nguyên tính toán bổ sung được cung cấp. Sẽ rất ngạc nhiên nếu có ít nhất một tá phòng thí nghiệm hoạt động chính xác với khả năng này.

— Douglas Daseeco
nguồn