Làm thế nào quan trọng là mở rộng cơ sở cho lưới sâu?


8

Nếu mạng lưới thần kinh sâu được coi là xấp xỉ chức năng phổ quát, thì việc mở rộng cơ sở có thực sự cần thiết? Hay đây sẽ là trường hợp cụ thể? Ví dụ: nếu một người có ba biến X định lượng, liệu có bất kỳ lợi thế nào trong việc mở rộng số lượng biến bằng cách đưa ra các tương tác, đa thức, v.v.? Điều này dường như có tiện ích tốt trong ví dụ RF và SVM, nhưng tôi không chắc liệu đây có phải là một chiến lược tốt cho mạng lưới thần kinh hay không.

Nếu điều này có lẽ quá rộng hoặc mơ hồ, ai đó có thể chỉ cho tôi một số thông tin thích hợp về mở rộng cơ sở và kỹ thuật tính năng trong bối cảnh lưới sâu?

Câu trả lời:


8

Ý tưởng của mạng lưới thần kinh sâu là nó có thể thực hiện kỹ thuật tính năng tự động cho chúng tôi. (Xem chương đầu tiên của cuốn sách học sâu .) Tôi rất muốn giới thiệu bạn đọc chương đầu tiên.

Làm mở rộng cơ sở là không thực sự cần thiết và được sử dụng không phổ biến. Hãy nhớ rằng, mạng sâu thường lấy các tính năng thô làm đầu vào, đối với các hình ảnh có (ít nhất) hàng nghìn pixel, cũng không thể thực hiện mở rộng cơ sở (nói là mở rộng đa thức bậc cao) một cách hiệu quả trước khi cung cấp cho thần kinh mạng.


Trong thực tế, có một số hoạt động trong mạng lưới thần kinh sâu có thể được xem là mở rộng cơ sở.


1
Đã đồng ý. Tôi muốn nói thêm rằng nếu người lập mô hình có một ý nghĩa tiên nghiệm về hình thức chức năng của mối quan hệ đáp ứng dự đoán thì có lẽ tốt hơn là chỉ nên tránh hoàn toàn các lớp ẩn; tức là hồi quy hoặc phân loại "vanilla". Ngoài ra, tôi nghĩ rằng việc bổ sung các tham số mở rộng cơ sở làm cho cách tiếp cận như vậy rất dễ bị quá mức, và các kỹ thuật chính quy điển hình trong các mạng thần kinh sẽ không làm gì chống lại việc khai thác nhiễu (cố ý hay nói cách khác) các tham số đó.
Josh

Cảm ơn @ hxd1011 và Josh, đây là những điểm hữu ích. Tôi đã biết các hàm kích hoạt giới thiệu tính phi tuyến cho NN, nhưng tôi cho rằng tôi không thực sự nghĩ về việc làm thế nào để quan tâm đến mối quan tâm phổ biến trong cài đặt hồi quy thông thường thông qua "cố gắng" để giới thiệu các hiệu ứng phi tuyến.
srhoades10

6

Nhiều mô hình học sâu tìm hiểu các tính năng của riêng họ từ dữ liệu đầu vào thô trong quá trình đào tạo (ví dụ: Mạng thần kinh chuyển đổi 2D cho hình ảnh). Vì vậy, trong nhiều trường hợp, bạn thậm chí không phải lo lắng về việc chuyển các biến rõ ràng cho mô hình của mình. Trong một số trường hợp khác, bạn vẫn cần các tính năng, nhưng chỉ các tính năng cốt lõi (ví dụ: các từ trong NLP). Các tính năng này được biểu diễn dưới dạng vectơ trong một không gian nhúng có thể thu được sự tương đồng (ví dụ: 'tổng thống' gần với 'Obama'). Không gian nhúng hoặc xuất phát từ đào tạo trước không được giám sát (word2vec, găng tay) hoặc được khởi tạo ngẫu nhiên, và các vectơ được điều chỉnh trong quá trình đào tạo thông qua backpropagation. Kiến trúc của mạng chịu trách nhiệm tìm hiểu các kết hợp tính năng, như sự khác biệt giữa 'không tệ, khá tốt' và 'không tốt,

Đoạn 'Kết hợp tính năng' của Phần 3 của Goldberg, Y. (2015). Một mồi trên các mô hình mạng thần kinh để xử lý ngôn ngữ tự nhiên. Tạp chí nghiên cứu trí tuệ nhân tạo, 57, 345-420. giải thích rất rõ điều này (tôi thực sự khuyên bạn nên đọc toàn bộ Phần 3, thật tuyệt vời):

Các tính năng kết hợp rất quan trọng trong các mô hình tuyến tính vì chúng giới thiệu nhiều kích thước hơn cho đầu vào, biến nó thành một không gian nơi các điểm dữ liệu gần hơn để có thể phân tách tuyến tính. Mặt khác, không gian của các kết hợp có thể rất lớn và nhà thiết kế tính năng phải dành nhiều thời gian để đưa ra một bộ kết hợp tính năng hiệu quả. Một trong những lời hứa của các mô hình mạng nơ ron phi tuyến tính là người ta chỉ cần xác định các tính năng cốt lõi. Tính phi tuyến tính của bộ phân loại, như được định nghĩa bởi cấu trúc mạng, dự kiến ​​sẽ đảm nhiệm việc tìm kiếm các kết hợp tính năng chỉ định, giảm bớt sự cần thiết của kỹ thuật kết hợp tính năng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.