Tại sao các tính năng dẫn xuất được sử dụng trong các mạng thần kinh?


13

Ví dụ, người ta muốn dự đoán giá nhà và có hai tính năng đầu vào chiều dài và chiều rộng của ngôi nhà. Đôi khi, người ta cũng bao gồm các tính năng đầu vào đa thức 'dẫn xuất', chẳng hạn như diện tích, có chiều dài * chiều rộng.

1) Điểm bao gồm các tính năng dẫn xuất là gì? Mạng lưới thần kinh không nên tìm hiểu mối liên hệ giữa chiều dài, chiều rộng và giá cả trong quá trình đào tạo? Tại sao không phải là tính năng thứ ba, diện tích, dự phòng?

Ngoài ra, đôi khi tôi cũng thấy rằng mọi người chạy các thuật toán chọn lọc di truyền trên các tính năng đầu vào để giảm số lượng của chúng.

2) Điểm giảm các tính năng đầu vào là gì nếu tất cả chúng đều chứa thông tin hữu ích? Mạng thần kinh không nên gán trọng số phù hợp cho từng tính năng đầu vào theo mức độ quan trọng của nó? Điểm chạy các thuật toán lựa chọn di truyền là gì?

Câu trả lời:


8

ntôin*tôin*tôi

2): Có hai lý do tôi biết về việc này. Đầu tiên, nếu bạn có hàng ngàn tính năng được cung cấp (như thường xảy ra trong dữ liệu trong thế giới thực) và thiếu thời gian CPU để đào tạo (cũng là một sự cố phổ biến), bạn có thể sử dụng một số thuật toán lựa chọn tính năng khác nhau để giảm bớt không gian tính năng trước. Các phương pháp tiếp cận nguyên tắc này thường sử dụng các biện pháp lý thuyết thông tin để chọn các tính năng có sức mạnh dự đoán cao nhất. Thứ hai, ngay cả khi bạn có đủ khả năng để đào tạo tất cả dữ liệu và tất cả các tính năng bạn có, các mạng thần kinh thường bị chỉ trích là mô hình 'hộp đen'. Giảm không gian tính năng trước có thể giúp giảm thiểu vấn đề này. Ví dụ: người dùng nhìn vào NN không thể dễ dàng biết được trọng lượng 0,01 có nghĩa là "0, nhưng quá trình tối ưu hóa không hoàn toàn đạt được" hoặc "


0

1) Hầu hết các mạng thần kinh không thể thực hiện phép nhân; họ chỉ có thể tính toán các khoản tiền (sau đó được cho ăn riêng lẻ thông qua chức năng kích hoạt ). Thay vào đó, họ phải ước tính các phép nhân đó nếu chúng quan trọng, đòi hỏi rất nhiều tế bào thần kinh, đặc biệt là nếu các yếu tố có thể trải rộng trên phạm vi lớn.

Nếu nó thực sự là khu vực nhà thực sự là một tính năng quan trọng, bạn sẽ giúp mạng nếu bạn cung cấp cho khu vực đó, bởi vì sau đó nó có thể sử dụng các nơ-ron mà nó sẽ yêu cầu để ước tính nhân chiều rộng và chiều dài để làm những việc khác

Do đó, bao gồm các tính năng đa thức trong một số trường hợp có thể có lợi cho mạng, nhưng trong các trường hợp khác không có tác dụng đáng kể. Hơn nữa, các tính năng đa thức chỉ là một loại tính năng dẫn xuất có thể hữu ích cho mạng. Một loại tính năng dẫn xuất khác có thể hữu ích là ví dụ logarit của các biến đầu vào (được coi là dương) mà mạng cũng phải ước tính để có được.

Một ý tưởng sẽ là cho phép mạng thực hiện nhiều hoạt động giữa các số hơn là chỉ bổ sung, để cho phép nó tính toán hiệu quả những thứ như chính các tính năng đa thức, nhưng không rõ nó sẽ hoạt động như thế nào. Một kiến ​​trúc trông giống như nó làm một cái gì đó tương tự là mạng tổng sản phẩm .

2) Ngoại trừ chi phí tính toán mà John đã đề cập, việc tăng số lượng tham số trong mô hình, điều không thể tránh khỏi khi bạn giới thiệu thêm đầu vào, cũng làm tăng rủi ro cho mạng để phù hợp , đặc biệt nếu bạn có ít dữ liệu đào tạo.

Tuy nhiên, điều này có thể được thực hiện thành ít vấn đề hơn nếu sử dụng phương pháp chính quy hóa tốt. (Dropout dường như hoạt động rất tốt cho điều đó) Về mặt lý thuyết, với một phương pháp chính quy hóa đủ tốt, quá mức không nên là một vấn đề. Như Hinton chỉ ra, một con người có thứ tự 10 ^ 14 khớp thần kinh trong não (tương ứng với các kết nối trong mạng lưới thần kinh), nhưng chỉ sống theo thứ tự 10 ^ 9 giây, nhưng dường như chúng ta vẫn có thể khái quát khá tốt. Vì vậy, rõ ràng, có nhiều tham số có thể được điều chỉnh nên với thuật toán phù hợp chỉ là một lợi thế.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.