Mạng thần kinh - nhị phân vs đầu vào rời rạc / liên tục


14

Có bất kỳ lý do chính đáng nào để thích các giá trị nhị phân (0/1) hơn các giá trị chuẩn hóa rời rạc hoặc liên tục , ví dụ (1; 3), làm đầu vào cho mạng feedforward cho tất cả các nút đầu vào (có hoặc không có backpropagation)?

Tất nhiên, tôi chỉ nói về các yếu tố đầu vào có thể được chuyển đổi thành một trong hai dạng; ví dụ: khi bạn có một biến có thể lấy một vài giá trị, hoặc trực tiếp cung cấp chúng dưới dạng giá trị của một nút đầu vào hoặc tạo thành nút nhị phân cho mỗi giá trị riêng biệt. Và giả định là phạm vi của các giá trị có thể sẽ giống nhau cho tất cả các nút đầu vào. Xem các bức ảnh cho một ví dụ về cả hai khả năng.

Trong khi nghiên cứu về chủ đề này, tôi không thể tìm thấy bất kỳ sự thật phũ phàng nào về vấn đề này; đối với tôi, dường như - ít nhiều - cuối cùng nó sẽ luôn là "thử và sai". Tất nhiên, các nút nhị phân cho mỗi giá trị đầu vào riêng biệt có nghĩa là nhiều nút lớp đầu vào hơn (và do đó có nhiều nút lớp ẩn hơn), nhưng nó thực sự sẽ tạo ra một phân loại đầu ra tốt hơn so với việc có cùng các giá trị trong một nút, với hàm ngưỡng phù hợp trong Lớp ẩn?

Bạn có đồng ý rằng đó chỉ là "thử và xem", hoặc bạn có ý kiến ​​khác về điều này? Khả năng thứ nhất: đầu vào trực tiếp của các giá trị có thể {1; 3} Khả năng hai: nhận mỗi giá trị đầu vào một nút nhị phân

Câu trả lời:


11

f(wx+b)fx

f(wx+b)wbk

kk


Vì vậy, để ngắn gọn, bạn chỉ vào thang đo của các biến: số liệu, thứ tự và danh nghĩa. Vâng, tôi nghĩ rõ ràng là các thang đo danh nghĩa không thể được "tính toán" hoặc được biểu thị bằng một hàm. Về các giá trị thực, giống như bạn, tôi có xu hướng nghĩ rằng các giá trị thực có thể "tốt hơn" so với các giá trị thực do phân loại trơn tru hơn, nhưng tôi không thể tìm thấy bất kỳ bằng chứng cứng nào về điều đó. Có vẻ như một trường hợp "thử và sai" khác với tôi.
cirko

4

Vâng, có đấy. Hãy tưởng tượng mục tiêu của bạn là xây dựng một bộ phân loại nhị phân. Sau đó, bạn mô hình hóa vấn đề của mình khi ước tính phân phối Bernoulli trong đó, được cung cấp một vectơ đặc trưng, ​​kết quả thuộc về một lớp hoặc ngược lại. Đầu ra của một mạng thần kinh như vậy là xác suất có điều kiện. Nếu lớn hơn 0,5, bạn liên kết nó với một lớp, nếu không thì với lớp khác.

Để được xác định rõ, đầu ra phải nằm trong khoảng từ 0 đến 1, vì vậy bạn chọn nhãn của mình là 0 và 1 và giảm thiểu entropy chéo,

E= =y(x)t(1-y(x))1-t
Ở đâu y(x) là đầu ra của mạng của bạn và tlà các giá trị mục tiêu cho các mẫu đào tạo của bạn. Do đó, bạn cầnt{0,1}.

Tôi hiểu rằng đầu vào được chuẩn hóa sẽ được ưu tiên hơn các phạm vi giá trị đầu vào khác nhau, vì điều này tương tự với đầu ra nhị phân mà mạng tạo ra. Nhưng trong câu hỏi của tôi, tôi muốn đề cập đến các giá trị rời rạc được chuẩn hóa của một phạm vi nhất định, tức là nếu các đầu vào có thể nằm trong một phạm vi, thì tất cả các nút phải có cùng phạm vi, nghĩa là được chuẩn hóa. Trong trường hợp đó, nó sẽ vẫn được preferrable để sử dụng các nút nhị phân cho mỗi giá trị rời rạc? (Bây giờ tôi đã chỉnh sửa câu hỏi để đáp ứng điều kiện tiên quyết này)
cirko

1

Tôi cũng phải đối mặt với tình trạng khó xử tương tự khi tôi đang giải quyết một vấn đề. Tôi đã không thử cả kiến ​​trúc, nhưng tôi nghĩ là, nếu biến đầu vào là rời rạc thì chức năng đầu ra của mạng nơ ron sẽ có đặc tính của hàm xung và mạng nơ ron rất tốt trong việc mô hình hóa hàm xung. Trong thực tế, bất kỳ chức năng nào cũng có thể được mô hình hóa với mạng thần kinh với độ chính xác khác nhau tùy thuộc vào độ phức tạp của mạng lưới thần kinh. Sự khác biệt duy nhất là, trong kiến ​​trúc thứ nhất, bạn đã tăng số lượng đầu vào để bạn tăng số lượng trọng lượng trong nút của lớp ẩn thứ nhất để mô hình hóa hàm xung nhưng đối với kiến ​​trúc thứ hai, bạn cần số lượng nút trong lớp ẩn nhiều hơn so với kiến ​​trúc thứ nhất để có được hiệu suất tương tự.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.