Tầm quan trọng của nút thiên vị trong các mạng thần kinh

Tôi tò mò muốn biết nút thiên vị quan trọng như thế nào đối với hiệu quả của các mạng thần kinh hiện đại. Tôi có thể dễ dàng hiểu rằng nó có thể quan trọng trong một mạng nông chỉ với một vài biến đầu vào. Tuy nhiên, các mạng lưới thần kinh hiện đại như trong học sâu thường có một số lượng lớn các biến đầu vào để quyết định xem một nơron nhất định có được kích hoạt hay không. Chỉ đơn giản là loại bỏ chúng khỏi, ví dụ, LeNet5 hoặc ImageNet có bất kỳ tác động thực sự nào không?

neural-networks deep-learning bias-node

— cướp biển
nguồn

@gung - Tôi đã thấy bạn đã chỉnh sửa tiêu đề để sử dụng cụm từ "nút thiên vị". Tôi tò mò tại sao bạn thích tiêu đề đó? Tôi chưa bao giờ nghe cách sử dụng đó trước đây. Hơn nữa, có vẻ khó hiểu khi sử dụng từ "nút" khi độ lệch không phải là một nút riêng biệt trong mạng.

— cướp biển

Nếu bạn không thích nó, bạn có thể quay lại chỉnh sửa với lời xin lỗi của tôi. Tôi luôn nghĩ rằng cái tên này khá chuẩn, mặc dù tôi đã không chơi w / ANN trong nhiều năm và một số người gọi nó là "nơ-ron thiên vị". FWIW, "bias" là một chút mơ hồ trong thống kê / ML; nó thường dùng để chỉ một công cụ ước tính có phân phối lấy mẫu không tập trung vào giá trị thực của tham số hoặc hàm dự đoán / giá trị dự đoán khác với hàm / giá trị thực, v.v., trong khi nút thiên vị là một phần cụ thể của một ANN.

— gung - Phục hồi Monica

Đó là một nút thực tế - ít nhất là theo nghĩa là bất kỳ trong số chúng là - trong mạng. Ví dụ, xem các nút đen trong hình ảnh này .

— gung - Phục hồi Monica

Được rồi, điều đó có ý nghĩa - đúng là "thiên vị" là khá mơ hồ. Cảm ơn đã giải thích.

— cướp biển

Đối với tế bào thần kinh, đơn vị thiên vị dường như bắn ra tự nhiên, điều này xảy ra trong tự nhiên.

— dùng3927612

Câu trả lời:

Xóa bỏ sự thiên vị chắc chắn sẽ ảnh hưởng đến hiệu suất và đây là lý do tại sao ...

$y=\sigma(W x + b)$

$y\approx1$ $x\approx0$ $W$ $y=\sigma(W x)$ $y\approx0.5$

Do đó, bằng cách loại bỏ các thuật ngữ thiên vị, bạn sẽ giảm đáng kể hiệu suất của mạng lưới thần kinh.

— Yannis Assael
nguồn

Cảm ơn, điều đó có ý nghĩa. Tôi đoán rằng mặc dù hầu hết các mạng hiện đại sử dụng ReLU làm chức năng kích hoạt (xem ví dụ: tờ.nips.cc / apers / 4824-imagenet ), điều này vẫn có thể có liên quan nếu mạng cần kích hoạt khi tất cả các pixel đầu vào có màu đen. ReLU được định nghĩa là f (x) = max (0, x).

— cướp biển

chính xác! đó là trường hợp tương tự ...

— Yannis Assael

y \approx 1

$y\approx1$

x \approx 0

$x\approx0$

x \approx 0

$x\approx0$

y \approx 0.5

$y\approx0.5$

Mặc dù tôi đồng ý với lý thuyết này, điều đáng nói là với các mạng lớn hiện đại, cơ hội nhận được đầu vào hoàn toàn bằng không là không đáng kể. Điều này cũng dựa trên giả định rằng một mạng lưới muốn bắn lưới 1 sâu rất có thể sẽ không quan tâm đến đầu ra nơ-ron đơn lẻ - đây là một phần lý do tại sao bỏ học rất phổ biến để thường xuyên hóa lưới.

— Tối đa Gordon

@MaxGordon đã đúng. Câu trả lời này không áp dụng cho câu hỏi này. Hãy thử loại bỏ sự thiên vị khỏi một mạng lớn và bạn sẽ thấy rằng nó tạo ra rất ít sự khác biệt.

— Neil G

Tôi không đồng ý với câu trả lời khác trong ngữ cảnh cụ thể của câu hỏi của bạn. Có, một nút thiên vị quan trọng trong một mạng nhỏ. Tuy nhiên, trong một mô hình lớn, việc loại bỏ các đầu vào thiên vị tạo ra rất ít sự khác biệt bởi vì mỗi nút có thể tạo một nút thiên vị ra khỏi kích hoạt trung bình của tất cả các đầu vào của nó, theo luật số lượng lớn sẽ gần như bình thường. Ở lớp đầu tiên, khả năng điều này xảy ra phụ thuộc vào phân phối đầu vào của bạn. Ví dụ, đối với MNIST, kích hoạt trung bình của đầu vào gần như không đổi.

Trên một mạng nhỏ, tất nhiên bạn cần một đầu vào thiên vị, nhưng trên một mạng lớn, việc loại bỏ nó hầu như không có sự khác biệt. (Nhưng, tại sao bạn lại loại bỏ nó?)

— Neil G
nguồn

Tôi sẽ nhận xét về câu trả lời của @ NeilG nếu tôi có đủ danh tiếng, nhưng than ôi ...

Tôi không đồng ý với bạn, Neil, về điều này. Bạn nói:

... kích hoạt trung bình của tất cả các yếu tố đầu vào của nó, theo luật số lượng lớn sẽ gần như bình thường.

Tôi tranh luận chống lại điều đó, và nói rằng luật số lượng lớn đòi hỏi tất cả các quan sát là độc lập với nhau. Đây là rất nhiều không phải là trường hợp trong một cái gì đó như mạng lưới thần kinh. Ngay cả khi mỗi kích hoạt được phân phối bình thường, nếu bạn quan sát một giá trị đầu vào là đặc biệt cao, nó sẽ thay đổi xác suất của tất cả các đầu vào khác. Do đó, "các quan sát", trong trường hợp này, các đầu vào, không độc lập và luật số lượng lớn không được áp dụng.

Trừ khi tôi không hiểu câu trả lời của bạn.

— ArturJ
nguồn