Các mô hình có tiềm năng để thay thế các mạng thần kinh trong tương lai gần là gì?


Câu trả lời:


4

Điều này sẽ đi ngược lại, nhưng nó tuân theo logic của các đối số.

Về hiệu quả, tôi có thể thấy một vài vấn đề lớn với mạng lưới thần kinh cổ điển.

Thu thập dữ liệu và tiền xử lý

Mạng lưới thần kinh lớn đòi hỏi rất nhiều dữ liệu để đào tạo. Số lượng có thể thay đổi tùy thuộc vào kích thước của mạng và độ phức tạp của nhiệm vụ, nhưng theo nguyên tắc thông thường, nó thường tỷ lệ thuận với số lượng trọng lượng. Đối với một số nhiệm vụ học tập có giám sát, đơn giản là không có đủ dữ liệu được dán nhãn chất lượng cao. Thu thập số lượng lớn dữ liệu đào tạo chuyên ngành có thể mất vài tháng hoặc thậm chí nhiều năm và việc ghi nhãn có thể rất cồng kềnh và không đáng tin cậy. Điều này có thể được giảm thiểu một phần bằng cách tăng dữ liệu, có nghĩa là "tổng hợp" thêm các ví dụ từ những cái bạn đã có, nhưng nó không phải là thuốc chữa bách bệnh.

Thời gian đào tạo so với đánh đổi năng lượng

Tốc độ học tập thường khá nhỏ, do đó tiến độ đào tạo chậm. Một mô hình lớn có thể mất vài tuần để đào tạo trên CPU máy tính để bàn có thể được đào tạo trong hai giờ bằng cách sử dụng cụm GPU tiêu thụ nhiều năng lượng. Đây là một sự đánh đổi cơ bản do bản chất của quy trình đào tạo. Điều đó nói rằng, GPU đang ngày càng hiệu quả - ví dụ, kiến trúc GPU nVidia Volta mới cho phép 15,7 TFLOP trong khi tiêu thụ ít hơn 300 W.

Không chuyển nhượng

Ngay bây giờ, hầu như mọi vấn đề khác nhau đều yêu cầu một mạng lưới thần kinh tùy chỉnh được thiết kế, đào tạo và triển khai. Trong khi giải pháp thường hoạt động, nó là loại khóa trong vấn đề đó. Ví dụ, AlphaGo rất tuyệt vời ở Go, nhưng sẽ vô vọng khi lái xe hoặc cung cấp các đề xuất âm nhạc - nó chỉ không được thiết kế cho các nhiệm vụ như vậy. Sự dư thừa quá mức này là một nhược điểm lớn của mạng lưới thần kinh theo quan điểm của tôi, và nó cũng là một trở ngại lớn cho tiến trình nghiên cứu mạng lưới thần kinh nói chung. Có cả một lĩnh vực nghiên cứu gọi là học chuyểntrong đó liên quan đến việc tìm cách áp dụng một mạng được đào tạo về một nhiệm vụ cho một nhiệm vụ khác. Thông thường, điều này liên quan đến thực tế là có thể không có đủ dữ liệu để huấn luyện mạng từ đầu vào nhiệm vụ thứ hai, do đó, việc có thể sử dụng một mô hình được đào tạo trước với một số điều chỉnh bổ sung là rất hấp dẫn.


Phần đầu tiên của câu hỏi là khó khăn hơn. Bỏ các mô hình thống kê hoàn toàn sang một bên, tôi chưa thấy bất kỳ phương pháp tiếp cận nổi bật nào đối với việc học máy hoàn toàn khác biệt với các mạng lưới thần kinh. Tuy nhiên, có một số phát triển thú vị đáng được đề cập bởi vì chúng giải quyết một số sự không hiệu quả ở trên.

Chip thần kinh

Một chút nền tảng đầu tiên.

Mạng lưới thần kinh Spiking có tiềm năng to lớn về sức mạnh tính toán. Trên thực tế, người ta đã chứng minh rằng chúng mạnh hơn nhiều so với các mạng thần kinh cổ điển với các kích hoạt sigmoid.

Thêm vào đó, mạng lưới thần kinh đi xe đạp có một sự nắm bắt nội tại về thời gian - điều gì đó đã là một trở ngại lớn cho các mạng cổ điển kể từ khi thành lập. Không chỉ vậy, các mạng đạp xe được điều khiển theo sự kiện , điều đó có nghĩa là các nơ-ron chỉ hoạt động nếu có tín hiệu đến. Điều này trái ngược với các mạng cổ điển, trong đó mỗi nơ-ron được đánh giá bất kể đầu vào của nó (một lần nữa, đây chỉ là hệ quả của quy trình đánh giá thường được thực hiện dưới dạng phép nhân của hai ma trận dày đặc). Vì vậy, các mạng spiking sử dụng sơ đồ mã hóa thưa thớt , có nghĩa là chỉ một phần nhỏ tế bào thần kinh hoạt động tại bất kỳ thời điểm nào.

Bây giờ, hoạt động mã hóa dựa trên sự tăng đột biến và hoạt động theo hướng sự kiện phù hợp cho việc triển khai các mạng spiking dựa trên phần cứng được gọi là chip thần kinh . Ví dụ, chip TrueNorth của IBM có thể mô phỏng 1 triệu nơ-ron256 triệu kết nối trong khi trung bình chỉ tiêu thụ khoảng 100 mW năng lượng. Đây là đơn đặt hàng có cường độ hiệu quả hơn so với GPU nVidia hiện tại. Các chip thần kinh có thể là giải pháp cho thời gian đào tạo / đánh đổi năng lượng mà tôi đã đề cập ở trên.

Ngoài ra, memristors là một sự phát triển tương đối mới nhưng rất hứa hẹn. Về cơ bản, một memristor là một phần tử mạch cơ bản rất giống với điện trở nhưng có điện trở thay đổi tỷ lệ với tổng lượng dòng điện đi qua nó trong toàn bộ vòng đời của nó. Về cơ bản, điều này có nghĩa là nó duy trì một "bộ nhớ" về lượng dòng điện chạy qua nó. Một trong những ứng dụng tiềm năng thú vị của memristors là mô hình hóa các khớp thần kinh trong phần cứng cực kỳ hiệu quả.

Học tập tăng cường và tiến hóa

Tôi nghĩ đây là những điều đáng nói bởi vì họ là những ứng cử viên đầy triển vọng để giải quyết vấn đề không chuyển nhượng. Chúng không bị giới hạn trong các mạng thần kinh - được định hướng theo phần thưởng, RL và tiến hóa về mặt lý thuyết có thể áp dụng trong một môi trường chung cho bất kỳ nhiệm vụ nào có thể xác định phần thưởng hoặc mục tiêu cho một tác nhân đạt được. Điều này không nhất thiết phải làm, nhưng nó chung chung hơn nhiều so với cách tiếp cận dựa trên lỗi thông thường, trong đó tác nhân học tập cố gắng giảm thiểu sự khác biệt giữa đầu ra của nó và sự thật nền tảng. Điểm chính ở đây là về học chuyển: lý tưởng nhất là áp dụng một tác nhân được đào tạo vào một nhiệm vụ khác sẽ đơn giản như thay đổi mục tiêu hoặc phần thưởng (tuy nhiên họ chưa hoàn toàn ở cấp độ đó ...).


"Mạnh mẽ hơn nhiều", là những gì Maass viết trong bài báo năm 1996 của mình, tuy nhiên, ông khẳng định sự chặt chẽ về toán học và không xác định được sức mạnh tính toán. Hơn nữa, vào năm 1996 đã được viết khi các chức năng kích hoạt sigmoid phổ biến, mà bây giờ chúng không phải là chính xác, vì chúng không hội tụ cho một loạt các kịch bản lớn đáng tin cậy hoặc nhanh như các chức năng kích hoạt đơn giản hơn. Maass chỉ đề cập đến sự hội tụ hai lần trong bài báo và không chỉ ra cách thức hội tụ xảy ra, càng nhấn mạnh sự vắng mặt của định nghĩa về sức mạnh tính toán trong các mục tiêu học máy.
FauChristian

Mối liên hệ giữa RL và sự tiến hóa không rõ ràng. Bạn đang đề cập đến một số kết hợp của một thuật toán di truyền và RL? Nếu vậy, tài liệu tham khảo là gì?
FauChristian

@FauChristian Ngay cả khi bạn không đọc toàn bộ bài viết, việc xác định khả năng tính toán được cung cấp trong bản tóm tắt (câu thứ hai):In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
cantordust

Kích hoạt @FauChristian Sigmoid vẫn còn sống và đá rất nhiều. Ví dụ, các LSTM sử dụng các hoạt chất sigmoid cho cổng, softmax (sigmoids bình thường) vẫn là thứ tốt nhất chúng ta có để phân loại nhiều lớp, v.v. Kích hoạt "Simpler" không nhất thiết phải tốt hơn - ReLU ( max(0, x)) ban đầu rất nguy hiểm bị mắc kẹt cho x < 0, dẫn đến tế bào thần kinh chết. Ở mức độ nào, vấn đề là về sức mạnh tính toán của lưới spiking và việc thực hiện phần cứng cực kỳ hiệu quả của chúng về mặt tiêu thụ năng lượng.
cantordust

@FauChristian Tôi không vẽ tương đồng giữa RL và tiến hóa. Tôi sẽ đưa ra cho họ như những ví dụ về các phương pháp đầy hứa hẹn để giải quyết một loại không hiệu quả nhất định, cụ thể là phải tự làm thủ công một giải pháp (có thể là NN hoặc một cái gì đó khác) cho mọi vấn đề cá nhân bạn có trong tay. Lý tưởng nhất là bạn có thể thiết kế một bộ giải chung được điều chỉnh tự động bởi RL và / hoặc tiến hóa cho vấn đề cụ thể chỉ dựa trên mục tiêu cấp cao.
cantordust

1

Thay thế mạng lưới thần kinh

Có thể tồn tại các thuật toán mới có khả năng thay thế các mạng lưới thần kinh. Tuy nhiên, một trong những đặc điểm của mạng lưới thần kinh là chúng sử dụng các yếu tố đơn giản, mỗi yếu tố có nhu cầu thấp về tài nguyên tính toán trong các mẫu hình học.

Các nơ-ron nhân tạo có thể được chạy song song (không chia sẻ thời gian hoặc vòng lặp CPU) bằng cách ánh xạ các tính toán đến các thiết bị DSP hoặc phần cứng máy tính song song khác. Do đó, nhiều tế bào thần kinh về cơ bản giống nhau là một lợi thế mạnh mẽ.

Chúng ta sẽ thay thế cái gì?

Khi chúng tôi xem xét thay thế thuật toán cho mạng lưới thần kinh, chúng tôi ngụ ý rằng thiết kế mạng lưới thần kinh là một thuật toán. Không phải vậy.

Mạng lưới thần kinh là một cách tiếp cận để hội tụ trên mạch thời gian thực để thực hiện chuyển đổi phi tuyến của đầu vào thành đầu ra dựa trên một số công thức của những gì là tối ưu. Một công thức như vậy có thể là sự giảm thiểu của một thước đo sai số hoặc chênh lệch từ một số lý tưởng được xác định. Nó có thể là một thước đo sức khỏe phải được tối đa hóa.

Nguồn xác định thể lực cho bất kỳ hành vi mạng cụ thể nào có thể là nội bộ. Chúng tôi gọi đó là học tập không giám sát. Nó có thể là bên ngoài, mà chúng ta gọi là giám sát khi thông tin thể dục bên ngoài được kết hợp với các vectơ đầu vào ở dạng giá trị đầu ra mong muốn, mà chúng ta gọi là nhãn.

Thể dục cũng có thể bắt nguồn từ bên ngoài như một vô hướng hoặc vectơ không được kết hợp với dữ liệu đầu vào mà là thời gian thực, mà chúng ta gọi là gia cố. Như vậy đòi hỏi phải nhập lại các thuật toán học tập. Thể dục hành vi ròng có thể được đánh giá thay thế bởi các lưới khác trong hệ thống, trong trường hợp lưới xếp chồng hoặc các cấu hình khác như hệ thống phân cấp Laplacian.

Việc lựa chọn các thuật toán ít liên quan đến trí thông minh so sánh một khi các thiết kế toán học và quy trình được chọn. Thiết kế thuật toán liên quan trực tiếp hơn đến việc giảm thiểu nhu cầu về tài nguyên máy tính và giảm yêu cầu về thời gian. Giảm thiểu này là phụ thuộc vào phần cứng và hệ điều hành.

Là một thay thế được chỉ định?

Chắc chắn rồi. Sẽ tốt hơn nếu các mạng giống như tế bào thần kinh của động vật có vú.

  • Tinh vi kích hoạt
  • Sự không đồng nhất của các mẫu kết nối
  • Độ dẻo của thiết kế, để hỗ trợ thích ứng meta
  • Bị chi phối bởi nhiều chiều của tín hiệu khu vực

Theo tín hiệu khu vực có nghĩa là nhiều tín hiệu hóa học vượt ra ngoài tín hiệu truyền qua các khớp thần kinh.

Chúng tôi thậm chí có thể xem xét vượt ra ngoài thần kinh học động vật có vú.

  • Kết hợp học tập dựa trên tham số và giả thuyết
  • Học về hình thức làm việc khi vi khuẩn vượt qua DNA

Hiệu quả mạng lưới thần kinh

Hiệu quả không thể được định lượng ở một số thang đo phổ vì nhiệt độ có thể được định lượng theo độ Kelvin. Hiệu quả chỉ có thể được định lượng như một thương số của một số giá trị đo được trên một số lý tưởng lý thuyết. Lưu ý rằng đó là một lý tưởng, không phải là tối đa, trong mẫu số. Trong các động cơ nhiệt động lực, lý tưởng đó là tốc độ đầu vào năng lượng, không bao giờ có thể được chuyển hoàn toàn sang đầu ra.

Tương tự, mạng lưới thần kinh không bao giờ có thể học trong thời gian không. Một mạng lưới thần kinh không thể đạt được lỗi không trong một thời gian dài tùy ý trong sản xuất. Do đó, thông tin theo một số cách như năng lượng, một khái niệm được điều tra bởi Claude Shannon của Bell Labs trong buổi bình minh của tự động hóa kỹ thuật số, và mối quan hệ giữa entropy thông tin và entropy nhiệt động hiện là một phần quan trọng của vật lý lý thuyết.

Không thể có hiệu quả học tập xấu hoặc hiệu quả học tập tốt. Không thể có hiệu năng kém hay hiệu năng tốt, nếu chúng ta muốn nghĩ theo thuật ngữ hợp lý và khoa học - chỉ cải thiện tương đối một số cấu hình hệ thống đối với một số cấu hình hệ thống khác cho một tập hợp kịch bản hiệu suất rất cụ thể.

Do đó, nếu không có thông số kỹ thuật rõ ràng về hai cấu hình phần cứng, hệ điều hành và phần mềm và bộ kiểm tra được xác định đầy đủ được sử dụng để đánh giá tương đối, hiệu quả là vô nghĩa.


1

Chúng tôi có một số hy vọng ẩn giấu trong mặt trận đó. Cho đến bây giờ chúng ta có các mạng con nhộng của J.Hinton, sử dụng một kích hoạt phi tuyến tính khác được gọi là chức năng 'squash'.

  1. Hinton gọi tối đa hóa trong CNN là một 'sai lầm lớn', vì CNN chỉ tìm kiếm các đối tượng hiện diện trong một hình ảnh chứ không phải là định hướng tương đối giữa chúng. Vì vậy, họ mất thông tin không gian trong khi cố gắng để đạt được bất biến dịch.
  2. Mạng lưới thần kinh có các kết nối cố định, trong khi một viên nang trong mạng lưới viên nang 'quyết định' viên nang nào khác phải vượt qua sự kích hoạt của nó trong mỗi kỷ nguyên. Điều này được gọi là "định tuyến".
  3. Sự kích hoạt của mọi tế bào thần kinh trong mạng lưới thần kinh là một vô hướng. Trong khi đó việc kích hoạt viên nang là một vectơ nắm bắt tư thế và hướng của một đối tượng trong ảnh.
  4. CNN được coi là đại diện xấu của hệ thống thị giác của con người. Theo hệ thống thị giác của con người, ý tôi là đôi mắt và bộ não / nhận thức cùng nhau. Chúng ta có thể xác định Tượng Nữ thần Tự do từ bất kỳ tư thế nào, ngay cả khi chúng ta đã nhìn vào nó từ một tư thế. CNN trên hầu hết các trường hợp không thể phát hiện cùng một đối tượng ở các tư thế và hướng khác nhau.

Bản thân mạng Capsule có một số thiếu sót. Vì vậy, đã có công việc theo hướng nhìn xa hơn mạng lưới thần kinh. Bạn có thể đọc blog này để hiểu rõ trước khi bạn đọc bài viết của J.Hinton.


0

Mạng lưới thần kinh đòi hỏi nhiều dữ liệu và đào tạo. Đối với hầu hết các bộ dữ liệu định dạng dạng bảng, tốt hơn là sử dụng các mô hình dựa trên cây quyết định. Hầu hết thời gian, các mô hình đơn giản là đủ để cung cấp độ chính xác tốt. Tuy nhiên, mạng lưới thần kinh đã kiểm tra thời gian của họ. Chỉ mới năm đến sáu năm kể từ khi cuộc cách mạng học tập sâu bắt đầu, vì vậy chúng ta vẫn chưa biết tiềm năng thực sự của việc học sâu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.