* Mạng * thần kinh nhân tạo là gì?


15

Khi chúng ta đi sâu vào tài liệu của Mạng nơ-ron , chúng ta có thể xác định các phương pháp khác với các cấu trúc liên kết thần kinh (kiến trúc giống như "Mạng nơ-ron"). Và tôi không nói về Định lý xấp xỉ phổ quát . Ví dụ được đưa ra dưới đây.

Sau đó, nó làm tôi tự hỏi: định nghĩa của Mạng thần kinh nhân tạo là gì? Cấu trúc liên kết của nó xuất hiện để bao gồm tất cả mọi thứ.


Ví dụ:

Một trong những nhận dạng đầu tiên chúng tôi thực hiện là giữa PCA và Autoencoder tuyến tính với các trọng số gắn trong bộ mã hóa và bộ giải mã và kích hoạt ngưỡng trong lớp nút cổ chai.

Ngoài ra, một nhận dạng chung được thực hiện giữa các mô hình tuyến tính (hồi quy logistic đặc biệt) và Mạng thần kinh không có lớp ẩn và lớp đầu ra duy nhất. Nhận dạng này mở ra một số cánh cửa.

Loạt Fourier và Taylor? ANNs . SVM ? ANN. Quá trình Gaussian? ANN (với lớp ẩn đơn với các đơn vị ẩn vô hạn).

Và do đó, thật dễ dàng, chúng ta có thể kết hợp các phiên bản chính quy tùy ý với các hàm mất chuyên biệt của các thuật toán này vào khung Mạng thần kinh.

Nhưng chúng ta càng đào, càng nhiều điểm tương đồng xuất hiện. Tôi chỉ tình cờ tìm thấy Cây quyết định thần kinh sâu , giúp xác định kiến ​​trúc ANN cụ thể bằng cây quyết định, cho phép chúng được học bằng phương pháp ANN (chẳng hạn như lan truyền ngược dòng Gradient). Từ đó, chúng ta có thể xây dựng Rừng ngẫu nhiên và Cây quyết định tăng cường từ các cấu trúc liên kết mạng thần kinh duy nhất.

Nếu mọi thứ có thể được biểu thị dưới dạng Mạng thần kinh nhân tạo, thì điều gì định nghĩa Mạng thần kinh nhân tạo?


Bài báo về Cây quyết định thần kinh sâu khá xa. Thông thường các chức năng kích hoạt là các chức năng có giá trị thực, không phải các sản phẩm bên ngoài. Vì vậy, họ không thực sự thảo luận về ANN như chúng ta thường nghĩ về họ, nhưng một khái quát toán học không được sử dụng hoặc chấp nhận rộng rãi. Để hiển thị ANN khác với cây quyết định, tôi chỉ đơn giản chỉ ra rằng tất cả ANN là tham số (có không gian tham số hữu hạn) trong khi cây không tham số (có không gian tham số vô hạn.)
olooney

@olooney, sản phẩm Kronecker không phải là chức năng kích hoạt, nó chỉ đơn giản là một hoạt động trên các đầu ra của lớp trước đó (như tích chập hoặc bất kỳ hoạt động nào khác mà chúng tôi xác định qua kích hoạt). DNDT có thể đại diện cho bất kỳ cây quyết định nào, VÀ mọi DNDT có thể được đại diện bởi một cây quyết định.
Firebug

1
@olooney theo định nghĩa của bạn về chức năng kích hoạt, Softmax không phải là chức năng kích hoạt.
Firebug

2
Tôi không hoàn toàn chắc chắn tôi hiểu động lực cho câu hỏi này. Một định nghĩa lỏng lẻo về ANN có thể là mô hình đồ họa có hướng, sử dụng nơ-ron (tức là chức năng kích hoạt) để xử lý đầu vào / đầu ra và hầu hết thời gian bạn sử dụng độ dốc để đào tạo nó. Khi bạn nói rằng "mọi thứ có thể được biểu thị dưới dạng ANN", bạn có hỏi cụ thể liệu có một ánh xạ chính xác giữa các mô hình khác và ANN được đề cập không? Vấn đề là bạn sẽ phải đưa ra các thói quen đào tạo được sửa đổi cao để phù hợp với các tối ưu hóa.
Alex R.

1
@Sycorax tôi cũng làm, cả anh và Hinton đều bóng gió về điều đó. Tôi muốn tạo cơ hội cho những người trả lời ở trại khác để cung cấp các nguồn đáng tin cậy :)
Fireorms

Câu trả lời:


6

Jürgen Schmidhuber, " Học sâu trong mạng lưới thần kinh: Tổng quan " theo dõi lịch sử của các khái niệm chính trong mạng lưới thần kinh và học tập sâu. Theo quan điểm của ông, các mạng thần kinh sẽ xuất hiện bao gồm về cơ bản bất kỳ mô hình nào có thể được mô tả như một biểu đồ có hướng trong đó mỗi nút đại diện cho một số đơn vị tính toán. Schmidhuber là một nhà nghiên cứu mạng lưới thần kinh nổi bật, và đã viết bài báo gốc trên các mạng LSTM với Sepp Hochreiter.

Những thành phần có thể sửa đổi nào của một hệ thống học tập chịu trách nhiệm cho sự thành công hay thất bại của nó? Những thay đổi để cải thiện hiệu suất? Điều này đã được gọi là vấn đề chuyển nhượng tín dụng cơ bản (Minsky, 1963). Có các phương pháp gán tín dụng chung cho người giải quyết vấn đề phổ quát, tối ưu hóa thời gian theo các nghĩa lý thuyết khác nhau (Phần 6.8). Tuy nhiên, cuộc khảo sát hiện tại sẽ tập trung vào hẹp hơn, nhưng hiện tại quan trọng về mặt thương mại, trường con của Deep Learning (DL) trong Mạng nơ ron nhân tạo (NN).

Một mạng nơ ron tiêu chuẩn (NN) bao gồm nhiều bộ xử lý đơn giản, được kết nối được gọi là nơ-ron, mỗi bộ tạo ra một chuỗi các kích hoạt có giá trị thực. Các nơ-ron đầu vào được kích hoạt thông qua các cảm biến nhận biết môi trường, các nơ-ron khác được kích hoạt thông qua các kết nối có trọng số từ các nơ-ron hoạt động trước đó (chi tiết trong Phần 2). Một số tế bào thần kinh có thể ảnh hưởng đến môi trường bằng cách kích hoạt các hành động. Học tập hoặc giao tín dụng là tìm kiếm các trọng số khiến NN thể hiện hành vi mong muốn, chẳng hạn như lái xe hơi. Tùy thuộc vào vấn đề và cách các nơ-ron được kết nối, hành vi đó có thể yêu cầu các chuỗi nguyên nhân dài của các giai đoạn tính toán (Phần 3), trong đó mỗi giai đoạn biến đổi (thường theo cách phi tuyến tính) kích hoạt tổng hợp của mạng. Deep Learning là về việc gán tín dụng chính xác qua nhiều giai đoạn như vậy.

Các mô hình giống như NN nông với vài giai đoạn như vậy đã xuất hiện trong nhiều thập kỷ nếu không phải là thế kỷ (Phần 5.1). Các mô hình với một số lớp tế bào thần kinh phi tuyến liên tiếp có niên đại ít nhất là từ những năm 1960 (Phần 5.3) và 1970 (Phần 5.5). Một phương pháp giảm độ dốc hiệu quả cho Học tập giám sát (SL) dựa trên giáo viên trong các mạng riêng biệt, có độ sâu khác nhau được gọi là backpropagation (BP) đã được phát triển vào những năm 1960 và 1970, và được áp dụng cho NN vào năm 1981 (Phần 5.5). Tuy nhiên, việc đào tạo các NN sâu với nhiều lớp, tuy nhiên, đã gặp khó khăn trong thực tế vào cuối những năm 1980 (Phần 5,6) và đã trở thành một đề tài nghiên cứu rõ ràng vào đầu những năm 1990 (Phần 5,9). DL thực tế trở nên khả thi ở một mức độ nào đó thông qua sự trợ giúp của Học tập không giám sát (UL), ví dụ, Sec. 5.10 (1991), Giây. 5.15 (2006). Những năm 1990 và 2000 cũng chứng kiến ​​nhiều cải tiến của DL hoàn toàn được giám sát (Phần 5). Trong thiên niên kỷ mới, các NN sâu cuối cùng đã thu hút được sự chú ý rộng rãi, chủ yếu bằng cách vượt trội so với các phương pháp học máy thay thế như máy nhân (Vapnik, 1995; Scholkopf et al., 1998) trong nhiều ứng dụng quan trọng. Trên thực tế, kể từ năm 2009, các NN sâu được giám sát đã giành chiến thắng trong nhiều cuộc thi nhận dạng mẫu quốc tế chính thức (ví dụ, Phần 5.17, 5.19, 5.21, 5.22), đạt được kết quả nhận dạng hình ảnh siêu phàm đầu tiên trong các lĩnh vực hạn chế (Phần 5.19, 2011). Các NN sâu cũng đã trở nên phù hợp với lĩnh vực Tổng quát hơn về Học tập Củng cố (RL) khi không có giáo viên giám sát (Phần 6). chủ yếu bằng cách vượt trội so với các phương pháp học máy thay thế như máy nhân (Vapnik, 1995; Scholkopf et al., 1998) trong nhiều ứng dụng quan trọng. Trên thực tế, kể từ năm 2009, các NN sâu được giám sát đã giành chiến thắng trong nhiều cuộc thi nhận dạng mẫu quốc tế chính thức (ví dụ, Phần 5.17, 5.19, 5.21, 5.22), đạt được kết quả nhận dạng hình ảnh siêu phàm đầu tiên trong các lĩnh vực hạn chế (Phần 5.19, 2011). Các NN sâu cũng đã trở nên phù hợp với lĩnh vực Tổng quát hơn về Học tập Củng cố (RL) khi không có giáo viên giám sát (Phần 6). chủ yếu bằng cách vượt trội so với các phương pháp học máy thay thế như máy nhân (Vapnik, 1995; Scholkopf et al., 1998) trong nhiều ứng dụng quan trọng. Trên thực tế, kể từ năm 2009, các NN sâu được giám sát đã giành chiến thắng trong nhiều cuộc thi nhận dạng mẫu quốc tế chính thức (ví dụ, Phần 5.17, 5.19, 5.21, 5.22), đạt được kết quả nhận dạng hình ảnh siêu phàm đầu tiên trong các lĩnh vực hạn chế (Phần 5.19, 2011). Các NN sâu cũng đã trở nên phù hợp với lĩnh vực Tổng quát hơn về Học tập Củng cố (RL) khi không có giáo viên giám sát (Phần 6). đạt được kết quả nhận dạng mẫu hình ảnh siêu phàm đầu tiên trong các lĩnh vực hạn chế (Phần 5.19, 2011). Các NN sâu cũng đã trở nên phù hợp với lĩnh vực Tổng quát hơn về Học tập Củng cố (RL) khi không có giáo viên giám sát (Phần 6). đạt được kết quả nhận dạng mẫu hình ảnh siêu phàm đầu tiên trong các lĩnh vực hạn chế (Phần 5.19, 2011). Các NN sâu cũng đã trở nên phù hợp với lĩnh vực Tổng quát hơn về Học tập Củng cố (RL) khi không có giáo viên giám sát (Phần 6).

Mặt khác, tôi không chắc chắn rằng có nhất thiết phải có lợi khi thử và xây dựng một phân loại các nhóm loại trừ lẫn nhau cho các chiến lược học máy. Tôi nghĩ rằng chúng ta có thể nói rằng có những quan điểm mà từ đó các mô hình có thể được xem là mạng lưới thần kinh. Tôi không nghĩ rằng viễn cảnh đó nhất thiết phải là tốt nhất hay hữu ích trong mọi bối cảnh. Ví dụ, tôi vẫn dự định coi các khu rừng ngẫu nhiên và các cây được tăng cường độ dốc là "quần thể cây" thay vì trừu tượng hóa sự khác biệt của chúng và gọi chúng là "cây mạng lưới thần kinh". Hơn nữa, Schmidhuber phân biệt NN với máy hạt nhân - mặc dù máy hạt nhân có một số kết nối với NN - khi ông viết "Trong thiên niên kỷ mới, NN sâu cuối cùng đã thu hút được sự chú ý rộng rãi, chủ yếu bằng cách vượt trội so với các phương pháp học máy thay thế như máy nhân ... trong nhiều ứng dụng quan trọng. "


Vì vậy, về cơ bản, mọi mô hình và heuristic được biết đến trong Machine Learning and Statistics ngày nay sẽ được coi là ANN bởi Schmidhuber, với danh pháp đặc biệt được đưa ra đơn giản bởi chiến lược tối ưu hóa (bao gồm cả các mô hình không tối ưu hóa ở đây)?
Firebug

1
Tôi hiểu điều đó, từ quan điểm thực tế, nhưng nó không thay đổi thực tế rằng hầu hết mọi mô hình đều là ANN (tôi không thể nghĩ ra bất kỳ mô hình nào không phải).
Firebug

2
@Fireorms Làm thế nào bạn định dạng lại hồi quy hoặc (các phương tiện k đơn giản và các vấn đề khác), được đào tạo hoặc đặt trong một "môi trường học tập", sao cho chúng bằng với định nghĩa về ANN này?
Sextus Empiricus

1
@Fireorms Tôi không thấy thực tế rằng PCA có thể được hiển thị tương đương với một bộ mã hóa tự động cụ thể làm cho PCA trở thành "một mạng lưới thần kinh". Trong PCA tiêu chuẩn, chúng tôi thậm chí không sử dụng độ dốc gốc.
amip nói rằng Phục hồi Monica

1
@Fireorms Nếu bạn định nghĩa "NN" là "các nút tính toán được kết nối" thì tôi đoán bất kỳ tính toán nào là NN. Không chắc đó là sử dụng nhưng không sao.
amip nói phục hồi Monica

7

Nếu bạn muốn có một định nghĩa cơ bản về ANN, bạn có thể nói rằng đó là mô hình đồ họa có hướng, trong đó đầu vào và đầu ra được xử lý tại mỗi nút thông qua chức năng kích hoạt và hầu hết thời gian giảm độ dốc được sử dụng để huấn luyện nó. Vì vậy, câu hỏi thực sự trở thành: mô hình nào ngoài kia có thể được thể hiện dưới dạng mô hình đồ họa?

Tôi không phải là chuyên gia nhưng, tôi tin rằng về mặt lý thuyết, một số ANN có thể được hiển thị là Turing hoàn chỉnh, điều đó có nghĩa là họ sẽ có thể thực hiện bất kỳ tập hợp tính toán nào có thể (với số lượng tài nguyên vô hạn có thể , làm phiền bạn).

Tôi cũng sẽ diễn giải câu hỏi của bạn theo cách sau:

Đối với bất kỳ mô hình cụ thể nào, tôi có thể kết hợp một mô hình ANN để mô phỏng mô hình đó, càng gần càng tốt và trong một khoảng thời gian hợp lý không?

Một mạng lưới thần kinh vanilla có thể mô phỏng một cây quyết định, bằng cách sử dụng các kích hoạt bước chân. Vấn đề là kích hoạt đơn vị như vậy có độ dốc bằng không, do đó, việc giảm độ dốc bình thường sẽ không hoạt động. Bạn có thể nói, "không vấn đề gì, chỉ cần sử dụng một hình thức chuyển đổi độ dốc." Tuy nhiên, điều đó vẫn chưa đủ. Để có một ví dụ tốt hơn, hãy lấy một cái gì đó như XGBOOST, đây không chỉ là những khu rừng được tăng cường độ dốc. Có rất nhiều công việc bổ sung đi vào việc chọn các điểm phân chia, cắt tỉa, tối ưu hóa tốc độ, v.v. Có thể sau khi sửa đổi đủ, bạn có thể tạo ra một ANN trông tương tự, nhưng không rõ ràng rằng ANN như vậy sẽ thực hiện ít nhất là tốt, cũng như nếu nó được tối ưu hóa để thực hiện công việc.

f(x)= =ex


2
Cảm ơn câu trả lời! Về câu hỏi - "For any given model, can I slap together an ANN model to emulate that model, as close as possible, and in a reasonable amount of time?"- Tôi sợ nói rằng đó không phải là vấn đề. Vấn đề là, cấu trúc liên kết ANN rất chung chung dường như bao quát mọi thứ và chiến lược tối ưu hóa dường như không thể xác định được đâu là gì và không phải là ANN. Vì vậy, câu hỏi, những gì định nghĩa một ANN? Bởi vì nếu không, mọi thứ, theo một cách nào đó, ANN được thể hiện bằng các thuật ngữ khác.
Firebug

1
"A vanilla neural network can emulate a decision tree, by using heaviside step-activations. The problem is that such unit activations have zero gradient, so normal gradient descent won't work. You might say, "no problem, just use a modified form of gradient descent." However, that's still not enough. [...]"- Như chúng ta có thể khẳng định, tối ưu hóa không phải là yếu tố quyết định đối với định nghĩa về yếu tố cấu thành ANN. Nếu bạn có thể viết mọi cây quyết định dưới dạng mạng thần kinh (và chúng ta có thể làm điều đó), thì chúng ta có thể nói DT một cách an toàn là (một loại) NN, trong khi điều ngược lại là không đúng.
Firebug

"If you want a basic definition of an ANN, you might say that it's a directed-graphical-model, where inputs and outputs are processed at each node via an activation function, and most of the time gradient descent is used to train it. So the question really becomes: what models out there can be expressed as graphical models?"- Tôi đồng ý với điều này. Sau đó, "Mạng nơ-ron" có thể được hiểu là lớp mô hình chung nhất, có lẽ chỉ kém chung hơn "Mô hình đồ thị", là siêu mô hình của cả Mô hình đồ thị vô hướng và hướng. Có lẽ bạn có thể giải thích nhiều hơn về điều này;)
Fireorms

2

Có lẽ, một tên chính xác hơn cho ANN là "các mạng khác biệt", nghĩa là các hàm tham số phức tạp có thể được tối ưu hóa bằng cách sử dụng độ dốc hoặc biến thể của nó. Đây là một định nghĩa rất chung, nhấn mạnh tính khác biệt, nhưng không nói gì về các ý tưởng chính, các nhiệm vụ phù hợp với nó, khung toán học cơ bản, v.v.

Lưu ý rằng sự khác biệt là một đặc điểm, không cần thiết là chính. Ví dụ, SVM có thể được đào tạo bằng cách sử dụng độ dốc và do đó thể hiện các thuộc tính của mạng thần kinh / khác biệt, nhưng ý tưởng chính là phân tách dữ liệu bằng siêu phẳng. Bộ mã hóa tự động biến đổi sử dụng MLP cho bộ mã hóa và giải mã, nhưng chức năng bạn tối ưu hóa đến từ số liệu thống kê Bayes, v.v.

Cũng có một vài mô hình thường được gọi là mạng thần kinh nhưng không sử dụng GD cho việc học. Một ví dụ điển hình là RBM. Tôi đoán là nhãn "mạng lưới thần kinh" được gắn vào nó chủ yếu vì lý do lịch sử - cuối cùng, người tạo ra RBM là Geoffrey Hinton, và Hinton là một anh chàng mạng lưới thần kinh, phải không? Tuy nhiên, nếu bạn phân tích mô hình, bạn sẽ thấy cấu trúc của RBM là mạng Markov, hàm chi phí dựa trên năng lượng đến từ vật lý thống kê của đầu thế kỷ 20 và lấy mẫu MCMC / Gibbs đã phát triển song song và hoàn toàn độc lập với mạng lưới thần kinh .


2
Học tập dựa trên Gradient chắc chắn đã đóng một vai trò trong sự thành công của ANNs. Nhưng tôi không thấy sự khác biệt là điều cần thiết cho định nghĩa, bởi vì một số ANN không khác biệt. Ví dụ, ANN (mô hình McCulloch-Pitts) đầu tiên đã sử dụng các đơn vị ngưỡng nhị phân. Một chủ đề nghiên cứu hiện tại là làm thế nào để thực hiện việc học trong các ANN không khác biệt như lưới đi xe đạp. Hoặc, giả sử chúng ta bắt đầu với một ANN điển hình, khác biệt, nhưng sau đó tuyên bố rằng chúng ta muốn giảm thiểu hàm mất mát không phân biệt. Nó không còn là ANN?
user20160

Đó chính xác là lý do tại sao tôi đề xuất một định nghĩa thay thế bao gồm các nguồn cấp dữ liệu, mạng tái phát, đệ quy, mạng chập, bộ tự động, VAE, GAN, chú ý và nhiều mô hình khác mà chúng ta thường gọi là "mạng thần kinh", nhưng loại trừ các cách tiếp cận dựa trên mô phỏng não người hoặc lấy mẫu rộng rãi trên PGM. Kể từ năm 2018, các cách tiếp cận này thực sự khác nhau, chúng sử dụng các phương pháp tối ưu hóa khác nhau, các thư viện khác nhau, v.v. (Mặc dù tôi không thể nghĩ ra một cái tên nào tốt hơn "mạng lưới thần kinh" cho mạng lưới đạp xe vì, không giống như CNN hay RNN, thực sự mô phỏng con người óc).

1

Tôi có thể cố gắng đưa ra một số điều giúp xác định Mạng thần kinh.

  • Một đồ thị tính toán với các thông số điều chỉnh.
  • Các tham số đã nói có thể được điều chỉnh để phù hợp với dữ liệu (thực hoặc mô phỏng).
  • Một chức năng khách quan được tối ưu hóa có liên quan ngầm hoặc rõ ràng. Nó có thể là toàn cầu hoặc cục bộ trên các tham số.

Tôi khá chắc chắn rằng điều này bao gồm tất cả các mạng thần kinh được sử dụng phổ biến hiện nay và một số mạng bí truyền.

Đó là điều không tưởng đối với việc tối ưu hóa (nếu chúng ta áp đặt tối ưu hóa dựa trên độ dốc, thì các mạng phát triển sẽ không phải là mạng thần kinh).

Nó không đề cập đến các nơ-ron / nút hoặc các lớp (một số mạng thần kinh ngày nay hầu như không được mô tả bởi các thuật ngữ này), nhưng tôi đoán chúng ta có thể kết hợp điều đó và hạn chế hơn một chút.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.