Câu trả lời:
Điều này sẽ đi ngược lại, nhưng nó tuân theo logic của các đối số.
Về hiệu quả, tôi có thể thấy một vài vấn đề lớn với mạng lưới thần kinh cổ điển.
Mạng lưới thần kinh lớn đòi hỏi rất nhiều dữ liệu để đào tạo. Số lượng có thể thay đổi tùy thuộc vào kích thước của mạng và độ phức tạp của nhiệm vụ, nhưng theo nguyên tắc thông thường, nó thường tỷ lệ thuận với số lượng trọng lượng. Đối với một số nhiệm vụ học tập có giám sát, đơn giản là không có đủ dữ liệu được dán nhãn chất lượng cao. Thu thập số lượng lớn dữ liệu đào tạo chuyên ngành có thể mất vài tháng hoặc thậm chí nhiều năm và việc ghi nhãn có thể rất cồng kềnh và không đáng tin cậy. Điều này có thể được giảm thiểu một phần bằng cách tăng dữ liệu, có nghĩa là "tổng hợp" thêm các ví dụ từ những cái bạn đã có, nhưng nó không phải là thuốc chữa bách bệnh.
Tốc độ học tập thường khá nhỏ, do đó tiến độ đào tạo chậm. Một mô hình lớn có thể mất vài tuần để đào tạo trên CPU máy tính để bàn có thể được đào tạo trong hai giờ bằng cách sử dụng cụm GPU tiêu thụ nhiều năng lượng. Đây là một sự đánh đổi cơ bản do bản chất của quy trình đào tạo. Điều đó nói rằng, GPU đang ngày càng hiệu quả - ví dụ, kiến trúc GPU nVidia Volta mới cho phép 15,7 TFLOP trong khi tiêu thụ ít hơn 300 W.
Ngay bây giờ, hầu như mọi vấn đề khác nhau đều yêu cầu một mạng lưới thần kinh tùy chỉnh được thiết kế, đào tạo và triển khai. Trong khi giải pháp thường hoạt động, nó là loại khóa trong vấn đề đó. Ví dụ, AlphaGo rất tuyệt vời ở Go, nhưng sẽ vô vọng khi lái xe hoặc cung cấp các đề xuất âm nhạc - nó chỉ không được thiết kế cho các nhiệm vụ như vậy. Sự dư thừa quá mức này là một nhược điểm lớn của mạng lưới thần kinh theo quan điểm của tôi, và nó cũng là một trở ngại lớn cho tiến trình nghiên cứu mạng lưới thần kinh nói chung. Có cả một lĩnh vực nghiên cứu gọi là học chuyểntrong đó liên quan đến việc tìm cách áp dụng một mạng được đào tạo về một nhiệm vụ cho một nhiệm vụ khác. Thông thường, điều này liên quan đến thực tế là có thể không có đủ dữ liệu để huấn luyện mạng từ đầu vào nhiệm vụ thứ hai, do đó, việc có thể sử dụng một mô hình được đào tạo trước với một số điều chỉnh bổ sung là rất hấp dẫn.
Phần đầu tiên của câu hỏi là khó khăn hơn. Bỏ các mô hình thống kê hoàn toàn sang một bên, tôi chưa thấy bất kỳ phương pháp tiếp cận nổi bật nào đối với việc học máy hoàn toàn khác biệt với các mạng lưới thần kinh. Tuy nhiên, có một số phát triển thú vị đáng được đề cập bởi vì chúng giải quyết một số sự không hiệu quả ở trên.
Một chút nền tảng đầu tiên.
Mạng lưới thần kinh Spiking có tiềm năng to lớn về sức mạnh tính toán. Trên thực tế, người ta đã chứng minh rằng chúng mạnh hơn nhiều so với các mạng thần kinh cổ điển với các kích hoạt sigmoid.
Thêm vào đó, mạng lưới thần kinh đi xe đạp có một sự nắm bắt nội tại về thời gian - điều gì đó đã là một trở ngại lớn cho các mạng cổ điển kể từ khi thành lập. Không chỉ vậy, các mạng đạp xe được điều khiển theo sự kiện , điều đó có nghĩa là các nơ-ron chỉ hoạt động nếu có tín hiệu đến. Điều này trái ngược với các mạng cổ điển, trong đó mỗi nơ-ron được đánh giá bất kể đầu vào của nó (một lần nữa, đây chỉ là hệ quả của quy trình đánh giá thường được thực hiện dưới dạng phép nhân của hai ma trận dày đặc). Vì vậy, các mạng spiking sử dụng sơ đồ mã hóa thưa thớt , có nghĩa là chỉ một phần nhỏ tế bào thần kinh hoạt động tại bất kỳ thời điểm nào.
Bây giờ, hoạt động mã hóa dựa trên sự tăng đột biến và hoạt động theo hướng sự kiện phù hợp cho việc triển khai các mạng spiking dựa trên phần cứng được gọi là chip thần kinh . Ví dụ, chip TrueNorth của IBM có thể mô phỏng 1 triệu nơ-ron và 256 triệu kết nối trong khi trung bình chỉ tiêu thụ khoảng 100 mW năng lượng. Đây là đơn đặt hàng có cường độ hiệu quả hơn so với GPU nVidia hiện tại. Các chip thần kinh có thể là giải pháp cho thời gian đào tạo / đánh đổi năng lượng mà tôi đã đề cập ở trên.
Ngoài ra, memristors là một sự phát triển tương đối mới nhưng rất hứa hẹn. Về cơ bản, một memristor là một phần tử mạch cơ bản rất giống với điện trở nhưng có điện trở thay đổi tỷ lệ với tổng lượng dòng điện đi qua nó trong toàn bộ vòng đời của nó. Về cơ bản, điều này có nghĩa là nó duy trì một "bộ nhớ" về lượng dòng điện chạy qua nó. Một trong những ứng dụng tiềm năng thú vị của memristors là mô hình hóa các khớp thần kinh trong phần cứng cực kỳ hiệu quả.
Tôi nghĩ đây là những điều đáng nói bởi vì họ là những ứng cử viên đầy triển vọng để giải quyết vấn đề không chuyển nhượng. Chúng không bị giới hạn trong các mạng thần kinh - được định hướng theo phần thưởng, RL và tiến hóa về mặt lý thuyết có thể áp dụng trong một môi trường chung cho bất kỳ nhiệm vụ nào có thể xác định phần thưởng hoặc mục tiêu cho một tác nhân đạt được. Điều này không nhất thiết phải làm, nhưng nó chung chung hơn nhiều so với cách tiếp cận dựa trên lỗi thông thường, trong đó tác nhân học tập cố gắng giảm thiểu sự khác biệt giữa đầu ra của nó và sự thật nền tảng. Điểm chính ở đây là về học chuyển: lý tưởng nhất là áp dụng một tác nhân được đào tạo vào một nhiệm vụ khác sẽ đơn giản như thay đổi mục tiêu hoặc phần thưởng (tuy nhiên họ chưa hoàn toàn ở cấp độ đó ...).
In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
max(0, x)
) ban đầu rất nguy hiểm bị mắc kẹt cho x < 0
, dẫn đến tế bào thần kinh chết. Ở mức độ nào, vấn đề là về sức mạnh tính toán của lưới spiking và việc thực hiện phần cứng cực kỳ hiệu quả của chúng về mặt tiêu thụ năng lượng.
Thay thế mạng lưới thần kinh
Có thể tồn tại các thuật toán mới có khả năng thay thế các mạng lưới thần kinh. Tuy nhiên, một trong những đặc điểm của mạng lưới thần kinh là chúng sử dụng các yếu tố đơn giản, mỗi yếu tố có nhu cầu thấp về tài nguyên tính toán trong các mẫu hình học.
Các nơ-ron nhân tạo có thể được chạy song song (không chia sẻ thời gian hoặc vòng lặp CPU) bằng cách ánh xạ các tính toán đến các thiết bị DSP hoặc phần cứng máy tính song song khác. Do đó, nhiều tế bào thần kinh về cơ bản giống nhau là một lợi thế mạnh mẽ.
Chúng ta sẽ thay thế cái gì?
Khi chúng tôi xem xét thay thế thuật toán cho mạng lưới thần kinh, chúng tôi ngụ ý rằng thiết kế mạng lưới thần kinh là một thuật toán. Không phải vậy.
Mạng lưới thần kinh là một cách tiếp cận để hội tụ trên mạch thời gian thực để thực hiện chuyển đổi phi tuyến của đầu vào thành đầu ra dựa trên một số công thức của những gì là tối ưu. Một công thức như vậy có thể là sự giảm thiểu của một thước đo sai số hoặc chênh lệch từ một số lý tưởng được xác định. Nó có thể là một thước đo sức khỏe phải được tối đa hóa.
Nguồn xác định thể lực cho bất kỳ hành vi mạng cụ thể nào có thể là nội bộ. Chúng tôi gọi đó là học tập không giám sát. Nó có thể là bên ngoài, mà chúng ta gọi là giám sát khi thông tin thể dục bên ngoài được kết hợp với các vectơ đầu vào ở dạng giá trị đầu ra mong muốn, mà chúng ta gọi là nhãn.
Thể dục cũng có thể bắt nguồn từ bên ngoài như một vô hướng hoặc vectơ không được kết hợp với dữ liệu đầu vào mà là thời gian thực, mà chúng ta gọi là gia cố. Như vậy đòi hỏi phải nhập lại các thuật toán học tập. Thể dục hành vi ròng có thể được đánh giá thay thế bởi các lưới khác trong hệ thống, trong trường hợp lưới xếp chồng hoặc các cấu hình khác như hệ thống phân cấp Laplacian.
Việc lựa chọn các thuật toán ít liên quan đến trí thông minh so sánh một khi các thiết kế toán học và quy trình được chọn. Thiết kế thuật toán liên quan trực tiếp hơn đến việc giảm thiểu nhu cầu về tài nguyên máy tính và giảm yêu cầu về thời gian. Giảm thiểu này là phụ thuộc vào phần cứng và hệ điều hành.
Là một thay thế được chỉ định?
Chắc chắn rồi. Sẽ tốt hơn nếu các mạng giống như tế bào thần kinh của động vật có vú.
Theo tín hiệu khu vực có nghĩa là nhiều tín hiệu hóa học vượt ra ngoài tín hiệu truyền qua các khớp thần kinh.
Chúng tôi thậm chí có thể xem xét vượt ra ngoài thần kinh học động vật có vú.
Hiệu quả mạng lưới thần kinh
Hiệu quả không thể được định lượng ở một số thang đo phổ vì nhiệt độ có thể được định lượng theo độ Kelvin. Hiệu quả chỉ có thể được định lượng như một thương số của một số giá trị đo được trên một số lý tưởng lý thuyết. Lưu ý rằng đó là một lý tưởng, không phải là tối đa, trong mẫu số. Trong các động cơ nhiệt động lực, lý tưởng đó là tốc độ đầu vào năng lượng, không bao giờ có thể được chuyển hoàn toàn sang đầu ra.
Tương tự, mạng lưới thần kinh không bao giờ có thể học trong thời gian không. Một mạng lưới thần kinh không thể đạt được lỗi không trong một thời gian dài tùy ý trong sản xuất. Do đó, thông tin theo một số cách như năng lượng, một khái niệm được điều tra bởi Claude Shannon của Bell Labs trong buổi bình minh của tự động hóa kỹ thuật số, và mối quan hệ giữa entropy thông tin và entropy nhiệt động hiện là một phần quan trọng của vật lý lý thuyết.
Không thể có hiệu quả học tập xấu hoặc hiệu quả học tập tốt. Không thể có hiệu năng kém hay hiệu năng tốt, nếu chúng ta muốn nghĩ theo thuật ngữ hợp lý và khoa học - chỉ cải thiện tương đối một số cấu hình hệ thống đối với một số cấu hình hệ thống khác cho một tập hợp kịch bản hiệu suất rất cụ thể.
Do đó, nếu không có thông số kỹ thuật rõ ràng về hai cấu hình phần cứng, hệ điều hành và phần mềm và bộ kiểm tra được xác định đầy đủ được sử dụng để đánh giá tương đối, hiệu quả là vô nghĩa.
Chúng tôi có một số hy vọng ẩn giấu trong mặt trận đó. Cho đến bây giờ chúng ta có các mạng con nhộng của J.Hinton, sử dụng một kích hoạt phi tuyến tính khác được gọi là chức năng 'squash'.
Bản thân mạng Capsule có một số thiếu sót. Vì vậy, đã có công việc theo hướng nhìn xa hơn mạng lưới thần kinh. Bạn có thể đọc blog này để hiểu rõ trước khi bạn đọc bài viết của J.Hinton.
Mạng lưới thần kinh đòi hỏi nhiều dữ liệu và đào tạo. Đối với hầu hết các bộ dữ liệu định dạng dạng bảng, tốt hơn là sử dụng các mô hình dựa trên cây quyết định. Hầu hết thời gian, các mô hình đơn giản là đủ để cung cấp độ chính xác tốt. Tuy nhiên, mạng lưới thần kinh đã kiểm tra thời gian của họ. Chỉ mới năm đến sáu năm kể từ khi cuộc cách mạng học tập sâu bắt đầu, vì vậy chúng ta vẫn chưa biết tiềm năng thực sự của việc học sâu.