Các đầu vào của Mạng thần kinh có cần phải nằm trong [-1,1] không?


8

Tôi muốn tạo dự báo thời tiết bằng Mạng thần kinh. Tất cả các ví dụ tôi thấy chỉ sử dụng các giá trị [-1,1] làm đầu vào. Có phải cũng có thể sử dụng các giá trị lớn hơn (như áp suất không khí, độ calcius của vài ngày qua, ...) làm đầu vào và lấy số làm đầu ra không?

Cảm ơn bạn


Nói chung cho các thuật toán phân loại và không chỉ các mạng thần kinh, bất kỳ biến nào giống như các thuật toán bạn đề xuất có thể được sử dụng để phân loại. Bất kỳ biến nào giúp phân tách các lớp nên được đưa vào. Ngay cả calssifier cây nhị phân sử dụng phân đôi biến liên tục bằng cách tìm các điểm phân chia.
Michael R. Chernick

Câu trả lời:


9

Bạn có thể bình thường hóa các giá trị để bạn sử dụng, ví dụ,

APAP0AP1AP0

Trong đó là áp suất không khí hiện tại, là giá trị áp suất không khí bạn muốn gửi đến và là giá trị áp suất không khí bạn muốn gửi đến .A P 0 0 A P 1 1APAP00AP11

Sẽ ổn nếu đầu vào của bạn thỉnh thoảng đi ra ngoài một chút .[1,1]

Sẽ nguy hiểm nếu đầu vào thường nhỏ, nhưng đôi khi có một số giá trị cực đoan. Sau đó, tốt hơn là chia đầu vào thành nhiều hơn một giá trị đầu vào hoặc loại bỏ các ngoại lệ và chấp nhận rằng mạng thần kinh có bối cảnh hạn chế về khả năng áp dụng. Thay đổi kích thước sao cho các ngoại lệ nằm trong khoảng đến sẽ không khắc phục được sự cố.111


Vì vậy, AP0 và AP1 giống như các giới hạn của tôi cho các giá trị áp suất không khí?
dùng1406177

1
Họ không phải là ranh giới. Chúng là các giá trị tham chiếu để hầu hết các giá trị được chia tỷ lệ theo phạm vi bạn muốn. Vì vậy, đối với nhiệt độ, bạn có thể sử dụng , , mặc dù đôi khi nó vượt quá hoặc dưới độ C. Không có gì ghê gớm nếu phạm vi lớn hơn với hệ số , nhưng cố gắng không bị tắt bởi hệ số hoặc nó có thể làm chậm quá trình đào tạo. T 0 = - 5 35 - 5 2 10T1=35T0=5355210
Douglas Zare

Về mặt lý thuyết, việc thu nhỏ dữ liệu của bạn sẽ không tạo ra sự khác biệt cho các mạng thần kinh. Nó chỉ có nghĩa là trọng lượng tối ưu cũng sẽ được thu nhỏ. Trong thực tế, nó có thể tạo ra sự khác biệt bởi vì các biểu diễn dấu phẩy động không chính xác, tức là khi bạn có đầu vào lớn, trọng lượng của bạn sẽ rất nhỏ và một chút thay đổi có thể không thể được biểu diễn. Mặt khác, bạn thường có các chức năng kích hoạt sigmoid, có xu hướng bão hòa cho các đầu vào lớn và sau đó sẽ chỉ điều chỉnh chậm trong quá trình đào tạo. Điều đó có nghĩa là, nhân rộng dữ liệu của bạn thường tăng tốc đào tạo.
alfa

1
Các phương pháp đào tạo không phải là bất biến tỷ lệ, vì vậy việc chia tỷ lệ sẽ ảnh hưởng đến việc bạn đào tạo nhanh như thế nào ngay cả khi bạn không bão hòa các nút.
Douglas Zare

1
Mở rộng quy mô dữ liệu DOES tạo sự khác biệt. 1. Các trường có giá trị lớn hơn ban đầu sẽ có tác động lớn hơn đến mạng so với các trường nhỏ hơn, vì các mạng được khởi tạo với các số ngẫu nhiên được vẽ đồng đều. Theo thời gian các bản cập nhật trọng lượng sẽ mở rộng các tính năng nhưng điều này đòi hỏi nhiều nỗ lực hơn. 2. Gradient giảm dần có một thời gian rất khó khăn với dữ liệu không chuẩn hóa vì nó đè bẹp đường cong lỗi làm cho nó có hình elip và do đó rất chậm để điều hướng. Vì vậy, nếu bạn đang sử dụng giảm dần độ dốc thì đây có thể là một vấn đề lớn. 3. Hàm sigmoid có độ dốc rất nhỏ cho các đầu vào lớn (và các cực âm).
Simon
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.