Tại sao mạng lưới thần kinh cần rất nhiều ví dụ đào tạo để thực hiện?


64

Một đứa trẻ 2 tuổi cần khoảng 5 chiếc ô tô để có thể nhận biết nó với độ chính xác hợp lý bất kể màu sắc, kiểu dáng, v.v. Khi con trai tôi lên 2, nó đã có thể xác định xe điện và xe lửa, mặc dù nó đã nhìn thấy chỉ một số ít. Vì anh ta thường nhầm lẫn với nhau, nên rõ ràng mạng lưới thần kinh của anh ta không được đào tạo đủ, nhưng vẫn vậy.

Cái gì mà mạng lưới thần kinh nhân tạo bị thiếu khiến chúng không thể học nhanh hơn? Học chuyển là một câu trả lời?


23
Voi có thể là một ví dụ tốt hơn so với ô tô. Như những người khác đã lưu ý, một đứa trẻ có thể đã nhìn thấy nhiều chiếc xe trước khi nghe nhãn, vì vậy nếu tâm trí của chúng đã định nghĩa "các loại tự nhiên" thì bây giờ nó có nhãn cho một chiếc. Tuy nhiên, một đứa trẻ phương Tây không thể chối cãi phát triển một hệ thống phân loại voi tốt trên cơ sở chỉ một vài dữ liệu.
JG

70
Điều gì khiến bạn nghĩ rằng bộ não của một đứa trẻ hoạt động như một mạng lưới thần kinh?
Paul Wasilewski

16
Một NN có thể được hiển thị một hình ảnh của một chiếc xe hơi. Con bạn có được một bộ phim 3D đầy đủ từ các quan điểm khác nhau, cho một số loại xe khác nhau. Con của bạn cũng có thể có các ví dụ tương tự để phân biệt một chiếc xe hơi. Ví dụ, xe đẩy trẻ em của họ, đồ chơi, vv Nếu không có chúng, tôi nghĩ con bạn sẽ cần nhiều ví dụ hơn.
Stian Yttervik

20
@MSalters Theo nghĩa của một mạng nơ ron nhân tạo? Chắc là không.
Bọ lửa

28
"Một đứa trẻ ở tuổi 2 cần khoảng 5 chiếc ô tô để có thể xác định nó với độ chính xác hợp lý" Một đứa trẻ như vậy đã có hai năm kinh nghiệm với những thứ không phải là ô tô. Tôi chắc chắn rằng nó đóng một vai trò quan trọng.
DarthFennec

Câu trả lời:


101

Tôi thận trọng chống lại sự mong đợi sự tương đồng mạnh mẽ giữa các mạng lưới thần kinh sinh học và nhân tạo. Tôi nghĩ cái tên "mạng lưới thần kinh" hơi nguy hiểm, bởi vì nó lừa mọi người mong đợi rằng các quá trình thần kinh và học máy phải giống nhau. Sự khác biệt giữa mạng lưới thần kinh sinh học và nhân tạo vượt xa sự tương đồng.

Như một ví dụ về cách điều này có thể trở nên tồi tệ, bạn cũng có thể biến lý do trong bài viết gốc trên đầu của nó. Bạn có thể đào tạo một mạng lưới thần kinh để học cách nhận biết ô tô vào một buổi chiều, miễn là bạn có một máy tính khá nhanh và một số lượng dữ liệu đào tạo. Bạn có thể thực hiện nhiệm vụ nhị phân này (ô tô / không phải ô tô) hoặc nhiệm vụ đa lớp (ô tô / xe điện / xe đạp / máy bay / thuyền) mà vẫn tự tin vào mức độ thành công cao.

Ngược lại, tôi sẽ không mong đợi một đứa trẻ có thể chọn ra một chiếc xe trong ngày - hoặc thậm chí cả tuần - sau khi nó được sinh ra, ngay cả sau khi nó đã thấy "rất nhiều ví dụ đào tạo." Một cái gì đó rõ ràng là khác nhau giữa một đứa trẻ hai tuổi và một đứa trẻ chiếm sự khác biệt về khả năng học tập, trong khi đó mạng lưới thần kinh phân loại hình ảnh vanilla hoàn toàn có khả năng chọn phân loại đối tượng ngay sau khi "sinh". Tôi nghĩ rằng có hai điểm khác biệt quan trọng: (1) khối lượng dữ liệu đào tạo tương đối có sẵn và (2) cơ chế tự dạy phát triển theo thời gian vì dữ liệu đào tạo phong phú.


Bài viết gốc cho thấy hai câu hỏi. Tiêu đề và nội dung của câu hỏi hỏi tại sao mạng lưới thần kinh cần "rất nhiều ví dụ". Liên quan đến trải nghiệm của trẻ em, các mạng lưới thần kinh được đào tạo sử dụng các điểm chuẩn hình ảnh phổ biến có tương đối ít dữ liệu.

Tôi sẽ diễn đạt lại câu hỏi trong tiêu đề để

"Làm thế nào để đào tạo một mạng lưới thần kinh cho một điểm chuẩn hình ảnh chung so sánh & tương phản với trải nghiệm học tập của một đứa trẻ?"

Để so sánh, tôi sẽ xem xét dữ liệu CIFAR-10 vì đây là điểm chuẩn hình ảnh phổ biến. Phần được dán nhãn bao gồm 10 lớp hình ảnh với 6000 hình ảnh mỗi lớp. Mỗi hình ảnh là 32x32 pixel. Nếu bạn bằng cách nào đó xếp chồng các hình ảnh được dán nhãn từ CIFAR-10 và tạo video 48 khung hình / giây tiêu chuẩn, bạn sẽ có khoảng 20 phút cảnh quay.

Một đứa trẻ 2 tuổi quan sát thế giới trong 12 giờ mỗi ngày có khoảng 263000 phút (hơn 4000 giờ) các quan sát trực tiếp về thế giới, bao gồm cả phản hồi từ người lớn (nhãn). (Đây chỉ là những số liệu về sân bóng - Tôi không biết một đứa trẻ hai tuổi điển hình đã dành bao nhiêu thời gian để quan sát thế giới.) Ngoài ra, đứa trẻ sẽ tiếp xúc với nhiều, nhiều vật thể ngoài 10 lớp học bao gồm CIFAR- 10.

Vì vậy, có một vài điều chơi. Một là đứa trẻ tiếp xúc với nhiều dữ liệu hơn và nguồn dữ liệu đa dạng hơn so với mô hình CIFAR-10 có. Đa dạng dữ liệu và khối lượng dữ liệu được công nhận là điều kiện tiên quyết cho các mô hình mạnh mẽ nói chung. Trong ánh sáng này, không có gì đáng ngạc nhiên khi một mạng lưới thần kinh thực hiện nhiệm vụ này kém hơn trẻ em, bởi vì một mạng lưới thần kinh được đào tạo về CIFAR-10 bị bỏ đói tích cực về dữ liệu đào tạo so với trẻ hai tuổi. Độ phân giải hình ảnh có sẵn cho một đứa trẻ tốt hơn so với hình ảnh CIFAR-10 32x32, vì vậy đứa trẻ có thể tìm hiểu thông tin về các chi tiết đẹp của các vật thể.

So sánh CIFAR-10 đến hai tuổi không hoàn hảo vì mô hình CIFAR-10 có thể sẽ được huấn luyện với nhiều lần vượt qua trên cùng một hình ảnh tĩnh, trong khi đứa trẻ sẽ nhìn thấy, sử dụng thị giác hai mắt, cách sắp xếp các vật thể trong ba thế giới hai chiều trong khi di chuyển và với các điều kiện và quan điểm ánh sáng khác nhau trên cùng một đối tượng.

Giai thoại về con của OP ngụ ý một câu hỏi thứ hai,

"Làm thế nào mạng lưới thần kinh có thể trở thành tự dạy?"

Một đứa trẻ được ban cho một số tài năng để tự học, do đó, các loại đối tượng mới có thể được thêm vào theo thời gian mà không phải bắt đầu lại từ đầu.

  • Nhận xét của OP về tên là một loại thích ứng mô hình trong bối cảnh học máy.

  • Trong các bình luận, những người dùng khác đã chỉ ra rằng học một và vài lần bắn * là một lĩnh vực nghiên cứu máy học khác.

  • Ngoài ra, học giải quyết các mô hình tự dạy từ một góc nhìn khác, về cơ bản cho phép robot thực hiện thử nghiệm thử và sai để tìm chiến lược tối ưu để giải quyết các vấn đề cụ thể (ví dụ: chơi cờ).

Có lẽ đúng là cả ba mô hình học máy này đều có tác dụng cải thiện cách thức máy móc thích ứng với các nhiệm vụ thị giác máy tính mới. Nhanh chóng thích ứng các mô hình học máy với các nhiệm vụ mới là một lĩnh vực nghiên cứu tích cực. Tuy nhiên, vì các mục tiêu thực tế của các dự án này (xác định các trường hợp phần mềm độc hại mới, nhận ra kẻ mạo danh trong ảnh hộ chiếu, lập chỉ mục internet) và tiêu chí thành công khác với mục tiêu của một đứa trẻ học về thế giới và thực tế là chúng đã được thực hiện một máy tính sử dụng toán học và máy tính khác được thực hiện bằng vật liệu hữu cơ sử dụng hóa học, so sánh trực tiếp giữa hai máy tính sẽ vẫn còn nhiều khó khăn.


Bên cạnh đó, sẽ rất thú vị khi nghiên cứu cách lật vấn đề CIFAR-10 và huấn luyện một mạng lưới thần kinh để nhận ra 6000 đối tượng từ 10 ví dụ của mỗi đối tượng. Nhưng ngay cả điều này sẽ không so sánh công bằng với trẻ 2 tuổi, bởi vì vẫn có sự khác biệt lớn về tổng khối lượng, tính đa dạng và độ phân giải của dữ liệu đào tạo.

* Hiện tại chúng tôi không có thẻ cho học tập một lần hoặc học vài lần.


34
Nói một cách cụ thể hơn, một đứa trẻ đã trải qua nhiều năm huấn luyện với hàng chục ngàn ví dụ cho phép chúng xác định cách nhìn các vật thể khi nhìn từ các góc khác nhau, cách xác định ranh giới, mối quan hệ giữa kích thước rõ ràng và kích thước thực tế , v.v.
David Schwartz

25
Não của một đứa trẻ đang hoạt động bên trong bụng mẹ . Em bé có thể xác định cha mẹ bằng âm thanh , sau khi âm thanh được lọc qua nước . Một đứa trẻ mới sinh có nhiều tháng làm việc với dữ liệu trước khi chúng được sinh ra, nhưng chúng vẫn cần nhiều năm nữa trước khi chúng có thể tạo thành một từ, sau đó vài năm nữa chúng có thể tạo thành một câu, sau đó ghép đôi nhiều hơn cho một câu đúng ngữ pháp , v.v ... việc học rất phức tạp .
Nelson

5
@EelcoHoogendoorn nó giải thích sự tương phản 'trẻ em' so với 'mạng lưới thần kinh' đã được sử dụng trong câu hỏi. Câu trả lời là đây chỉ là một sự tương phản rõ ràng . Mạng lưới thần kinh không cần nhiều ví dụ như vậy, vì trẻ em cũng nhận được nhiều ví dụ (nhưng chỉ theo một cách khác) trước khi chúng có thể nhận ra ô tô.
Sextus Empiricus

4
@Nelson, tôi không chắc lý do cho nhận xét của bạn là gì, nhưng bạn có thể thay đổi 'năm' thành 'năm'. Với trẻ 1 tuổi nói từ, với 2 năm, những câu đầu tiên được nói và với 3 năm ngữ pháp, chẳng hạn như thì quá khứ và đại từ, được sử dụng chính xác.
Sextus Empiricus

1
@EelcoHoogendoorn Tôi nghĩ tiền đề của câu hỏi là một trường hợp lý luận từ một sự tương tự bị lỗi, vì vậy trực tiếp giải quyết sự tương tự là đáp ứng. Tương phản mạng lưới thần kinh sinh học và nhân tạo cũng đáp ứng, bởi vì câu trả lời sẽ chỉ ra cách thức mạng lưới thần kinh sinh học và nhân tạo giống nhau nhất trong tên của chúng (cả hai đều chứa cụm từ "mạng lưới thần kinh") nhưng không giống nhau về đặc điểm thiết yếu của chúng, hoặc ít nhất là các đặc điểm giả định bởi câu hỏi.
Phục hồi lại

49

Trước hết, ở hai tuổi, một đứa trẻ biết rất nhiều về thế giới và tích cực áp dụng kiến ​​thức này. Một đứa trẻ thực hiện nhiều "học chuyển" bằng cách áp dụng kiến ​​thức này vào các khái niệm mới.

Thứ hai, trước khi nhìn thấy năm ví dụ "dán nhãn" của những chiếc ô tô đó, một đứa trẻ nhìn thấy rất nhiều ô tô trên đường phố, trên TV, ô tô đồ chơi, v.v., vì vậy cũng có rất nhiều "học tập không giám sát" xảy ra trước đó.

Cuối cùng, mạng lưới thần kinh hầu như không có gì giống với bộ não của con người, vì vậy không có nhiều điểm để so sánh chúng. Cũng lưu ý rằng có các thuật toán cho việc học một lần, và khá nhiều nghiên cứu về nó hiện đang xảy ra.


9
Điểm thứ 4, một đứa trẻ cũng có hơn 100 triệu năm lựa chọn tiến hóa theo hướng học tập hiệu quả / chính xác.
csiz

39

Một khía cạnh chính mà tôi không thấy trong các câu trả lời hiện tại là sự tiến hóa .

Bộ não của một đứa trẻ không học được từ đầu. Nó tương tự như hỏi làm thế nào những đứa trẻ hươu và hươu cao cổ có thể đi bộ vài phút sau khi sinh. Bởi vì chúng được sinh ra với bộ não đã sẵn sàng cho nhiệm vụ này. Tất nhiên có một số tinh chỉnh cần thiết, nhưng con nai con không học cách "khởi tạo ngẫu nhiên".

Tương tự như vậy, thực tế là các vật thể chuyển động lớn tồn tại và rất quan trọng để theo dõi là thứ chúng ta sinh ra.

Vì vậy, tôi nghĩ rằng giả định của câu hỏi này chỉ đơn giản là sai. Mạng lưới thần kinh của con người có cơ hội nhìn thấy hàng tấn - có thể không phải ô tô mà là - di chuyển, xoay các vật thể 3D có kết cấu và hình dạng khó khăn, v.v., nhưng điều này đã xảy ra qua rất nhiều thế hệ và việc học diễn ra bằng thuật toán tiến hóa, tức là những người có não được cấu trúc tốt hơn cho nhiệm vụ này, có thể sống để sinh sản với cơ hội cao hơn, để lại thế hệ tiếp theo với hệ thống não tốt hơn và tốt hơn ngay từ đầu.


8
Vui vẻ sang một bên: có bằng chứng cho thấy khi phân biệt giữa các mẫu xe khác nhau, chúng ta thực sự tận dụng trung tâm nhận dạng khuôn mặt chuyên biệt của não . Điều hợp lý là, trong khi một đứa trẻ có thể không phân biệt giữa các mô hình khác nhau, sự hiện diện ngầm của 'khuôn mặt' trên một vật thể di động có thể khiến ô tô được phân loại là một loại sinh vật và do đó được xác định là do tiến hóa, vì nhận ra di động đối tượng có khuôn mặt là hữu ích để tồn tại.
Dan Bryant

7
Câu trả lời này giải quyết chính xác những gì tôi đã nghĩ. Trẻ em không được sinh ra như những tấm trống . Chúng đi kèm với các tính năng làm cho một số mẫu dễ nhận biết hơn, một số thứ dễ học hơn, v.v.
Eff

1
Trong khi những con vật bước ra khỏi bụng mẹ thực sự rất hấp dẫn, thì sự cứng rắn tiến hóa như vậy được cho là ở cực trái ngược với việc học của con người, được cho là cực đoan của việc học theo kinh nghiệm trong thế giới tự nhiên. Chắc chắn xe hơi sẽ để lại tác động tiến hóa tối thiểu đối với sự tiến hóa của bộ não của chúng ta.
Eelco Hoogendoorn

5
@EelcoHoogendoorn Khả năng tìm hiểu và hiểu môi trường đã được lựa chọn dần dần. Bộ não đã được thiết lập bởi sự tiến hóa để cực kỳ hiệu quả trong học tập. Khả năng kết nối các dấu chấm, xem các mẫu, hiểu hình dạng và chuyển động, suy luận, v.v.
Eff

3
Đây là một điểm tốt, nhưng cũng đúng là khi các nhà nghiên cứu hiểu được điều này, họ xây dựng các NN có cấu trúc mã hóa cứng tạo điều kiện cho một số kiểu học tập nhất định. Hãy xem xét rằng một NN tích chậpcác lĩnh vực tiếp nhận được mã hóa cứng giúp tăng tốc đáng kể việc học / tăng cường hiệu suất trong các nhiệm vụ trực quan. Những lĩnh vực đó có thể được học từ đầu trong một mạng được kết nối đầy đủ, nhưng khó hơn nhiều. @EelcoHoogendoorn, bộ não của con người có đầy đủ cấu trúc tạo điều kiện cho việc học tập.
gung - Phục hồi Monica

21

Tôi không biết nhiều về mạng lưới thần kinh nhưng tôi biết một chút công bằng về trẻ sơ sinh.

Nhiều trẻ 2 tuổi có rất nhiều vấn đề với những từ chung chung nên như thế nào. Chẳng hạn, việc trẻ em sử dụng "chó" cho bất kỳ động vật bốn chân nào là khá phổ biến. Đó là một sự phân biệt khó khăn hơn so với "xe hơi" - chỉ cần nghĩ rằng một con chó xù trông khác với một con Dane tuyệt vời như thế nào, nhưng cả hai đều là "con chó" trong khi một con mèo thì không.

Và một đứa trẻ lên 2 đã nhìn thấy nhiều hơn 5 ví dụ về "xe hơi". Một đứa trẻ nhìn thấy hàng chục hoặc thậm chí hàng trăm ví dụ về ô tô bất cứ khi nào gia đình lái xe. Và rất nhiều phụ huynh sẽ bình luận "nhìn vào xe" hơn 5 lần. Nhưng trẻ em cũng có thể nghĩ theo những cách mà chúng không được kể. Chẳng hạn, trên đường phố, đứa trẻ nhìn thấy rất nhiều thứ xếp hàng. Cha anh nói (của một) "nhìn vào chiếc xe sáng bóng!" và đứa trẻ nghĩ rằng "có lẽ tất cả những thứ khác xếp hàng cũng là ô tô?"


3
Các ví dụ khác: Taxi, lái xe ô tô và xe cảnh sát là như nhau. Bất cứ khi nào một chiếc xe màu đỏ thì đó là một chiếc xe cứu hỏa. Campervans là xe cứu thương. Một chiếc xe tải với một cần cẩu máy xúc được phân loại là một máy xúc. Xe buýt vừa đi qua đến ga xe lửa, vì vậy xe buýt tiếp theo, trông giống như vậy, cũng phải đi đến ga xe lửa. Và nhìn thấy mặt trăng trong ánh sáng ban ngày là một sự kiện rất đặc biệt.
Sextus Empiricus

10

Đây là một câu hỏi hấp dẫn mà tôi đã suy nghĩ rất nhiều, và có thể đưa ra một vài lời giải thích tại sao.

  • Mạng lưới thần kinh hoạt động không có gì giống như não. Backpropagation là duy nhất cho các mạng lưới thần kinh, và không xảy ra trong não. Theo nghĩa đó, chúng ta chỉ không biết thuật toán học tập chung trong bộ não của mình. Nó có thể là điện, nó có thể là hóa chất, thậm chí có thể là sự kết hợp của cả hai. Mạng lưới thần kinh có thể được coi là một hình thức học tập kém hơn so với bộ não của chúng ta vì chúng đơn giản hóa như thế nào.
  • Nếu mạng lưới thần kinh thực sự giống như bộ não của chúng ta, thì những đứa trẻ con người trải qua quá trình "đào tạo" rộng rãi về các lớp đầu tiên, như khai thác tính năng, trong những ngày đầu. Vì vậy, mạng lưới thần kinh của họ không thực sự được đào tạo từ đầu, mà thay vào đó, lớp cuối cùng được đào tạo lại để thêm ngày càng nhiều lớp và nhãn.

9

Một đứa trẻ ở tuổi 2 cần khoảng 5 chiếc ô tô để có thể xác định nó với độ chính xác hợp lý bất kể màu sắc, kiểu dáng, v.v.

Khái niệm "trường hợp" dễ bị nhầm lẫn. Trong khi một đứa trẻ có thể đã nhìn thấy 5 trường hợp độc nhất của một chiếc ô tô, chúng thực sự đã nhìn thấy hàng ngàn hàng ngàn khung hình, trong nhiều môi trường khác nhau. Họ có thể đã nhìn thấy những chiếc xe trong bối cảnh khác. Họ cũng có một trực giác cho thế giới vật chất được phát triển trong suốt cuộc đời của họ - một số việc học chuyển có lẽ xảy ra ở đây. Tuy nhiên, chúng tôi gói tất cả những điều đó thành "5 trường hợp."

Trong khi đó, mỗi khung hình / hình ảnh bạn chuyển đến CNN được coi là một "ví dụ". Nếu bạn áp dụng một định nghĩa nhất quán, cả hai hệ thống đang thực sự sử dụng một lượng dữ liệu đào tạo tương tự hơn nhiều.

Ngoài ra, tôi muốn lưu ý rằng các mạng thần kinh tích chập - CNN - hữu ích hơn trong thị giác máy tính so với ANN và trên thực tế tiếp cận hiệu suất của con người trong các nhiệm vụ như phân loại hình ảnh. Học sâu là (có thể) không phải là thuốc chữa bách bệnh, nhưng nó thực hiện đáng ngưỡng mộ trong lĩnh vực này.


5

Như những người khác đã chỉ ra, hiệu quả dữ liệu của các mạng thần kinh nhân tạo thay đổi khá đáng kể, tùy thuộc vào các chi tiết. Trên thực tế, có rất nhiều phương pháp học tập một lần, có thể giải quyết nhiệm vụ dán nhãn xe điện với độ chính xác khá tốt, chỉ sử dụng một mẫu có nhãn duy nhất.

Một cách để làm điều này là bằng cách gọi là học chuyển; một mạng được đào tạo trên các nhãn khác thường có khả năng thích ứng rất hiệu quả với các nhãn mới, vì công việc khó khăn đang phá vỡ các thành phần cấp thấp của hình ảnh một cách hợp lý.

Nhưng chúng tôi không thực sự cần dữ liệu được dán nhãn như vậy để thực hiện nhiệm vụ đó; giống như trẻ sơ sinh không cần nhiều dữ liệu được dán nhãn như các mạng lưới thần kinh mà bạn đang nghĩ đến.

Chẳng hạn, một phương pháp không được giám sát như vậy mà tôi cũng đã áp dụng thành công trong các bối cảnh khác, là lấy một tập hợp các hình ảnh không được gắn nhãn, xoay chúng ngẫu nhiên và huấn luyện một mạng để dự đoán phía nào của hình ảnh được 'lên'. Không biết các vật thể nhìn thấy được là gì, hoặc chúng được gọi là gì, điều này buộc mạng phải tìm hiểu một lượng lớn cấu trúc về hình ảnh; và điều này có thể tạo thành một cơ sở tuyệt vời cho việc học tập được dán nhãn hiệu quả hơn sau này.

Mặc dù đúng là các mạng nhân tạo khá khác biệt so với mạng thật theo những cách có lẽ có ý nghĩa, chẳng hạn như không có sự tương tự rõ ràng của truyền ngược, nhưng rất có thể đúng là các mạng thần kinh thực sự sử dụng cùng một thủ thuật, để cố gắng học cấu trúc trong dữ liệu ngụ ý bởi một số linh mục đơn giản.

Một ví dụ khác gần như chắc chắn đóng vai trò ở động vật và cũng cho thấy nhiều hứa hẹn trong việc hiểu video, là giả định rằng tương lai sẽ được dự đoán từ quá khứ. Chỉ bằng cách bắt đầu từ giả định đó, bạn có thể dạy một mạng lưới thần kinh rất nhiều. Hoặc ở cấp độ triết học, tôi có xu hướng tin rằng giả định này làm cơ sở cho hầu hết mọi thứ mà chúng ta coi là 'kiến thức'.

Tôi không nói bất cứ điều gì mới ở đây; nhưng nó còn tương đối mới theo nghĩa là những khả năng này còn quá trẻ để tìm thấy nhiều ứng dụng và chưa được hiểu theo sách giáo khoa về 'những gì ANN có thể làm'. Vì vậy, để trả lời câu hỏi OP; ANN đã đóng nhiều khoảng trống mà bạn mô tả.


4

Một cách để đào tạo một mạng lưới thần kinh sâu sắc là coi nó như một chồng các bộ mã hóa tự động ( Máy Boltzmann bị hạn chế ).

Về lý thuyết, một bộ mã hóa tự động học theo cách không giám sát: Nó lấy dữ liệu đầu vào tùy ý, không ghi nhãn và xử lý nó để tạo dữ liệu đầu ra. Sau đó, nó lấy dữ liệu đầu ra đó và cố gắng tạo lại dữ liệu đầu vào của nó. Nó tinh chỉnh các tham số của các nút của nó cho đến khi nó có thể tiến gần đến việc làm tròn dữ liệu của nó. Nếu bạn nghĩ về nó, bộ mã hóa tự động đang viết các bài kiểm tra đơn vị tự động của riêng nó. Trên thực tế, nó đang biến "dữ liệu đầu vào không ghi nhãn" của mình thành dữ liệu được gắn nhãn : Dữ liệu gốc đóng vai trò là nhãn cho dữ liệu ba vòng.

Sau khi các lớp của bộ mã hóa tự động được đào tạo, mạng lưới thần kinh được tinh chỉnh bằng cách sử dụng dữ liệu được dán nhãn để thực hiện chức năng dự định của nó. Trong thực tế, đây là những bài kiểm tra chức năng.

Người đăng ban đầu hỏi tại sao cần nhiều dữ liệu để đào tạo mạng lưới thần kinh nhân tạo và so sánh với lượng dữ liệu đào tạo được cho là thấp của một người hai tuổi. Áp phích ban đầu đang so sánh táo với cam: Quá trình đào tạo tổng thể cho mạng lưới thần kinh nhân tạo, so với việc tinh chỉnh với các nhãn cho trẻ hai tuổi.

Nhưng trong thực tế, đứa trẻ hai tuổi đã được đào tạo bộ mã hóa tự động của nó trên dữ liệu ngẫu nhiên, tự dán nhãn trong hơn hai năm. Em bé mơ khi còn trong tử cung . (Mèo con cũng vậy.) Các nhà nghiên cứu đã mô tả những giấc mơ này liên quan đến việc đốt cháy tế bào thần kinh ngẫu nhiên trong các trung tâm xử lý thị giác.


1
Đã đồng ý; ngoại trừ việc các bộ mã hóa tự động trong thực tế không phải là công cụ rất mạnh để thực hiện nhiều việc học tập không giám sát; tất cả mọi thứ chúng ta biết đều chỉ ra rằng sẽ diễn ra nhiều hơn, vì vậy, cụm từ 'đứa trẻ hai tuổi đã được đào tạo bộ mã hóa tự động' không nên được hiểu theo nghĩa đen.
Eelco Hoogendoorn

4

Chúng ta không học cách "nhìn thấy xe" cho đến khi chúng ta học cách nhìn

Phải mất khá nhiều thời gian và rất nhiều ví dụ để một đứa trẻ học cách nhìn các đồ vật như vậy. Sau đó, một đứa trẻ có thể học cách xác định một loại đối tượng cụ thể chỉ từ một vài ví dụ. Nếu bạn so sánh một đứa trẻ hai tuổi với một hệ thống học tập thực sự bắt đầu từ một bảng trống, thì đó là một so sánh táo và cam; ở tuổi đó, trẻ đã xem hàng ngàn giờ "cảnh quay video".

Theo cách tương tự, cần có nhiều mạng lưới thần kinh nhân tạo để tìm hiểu "cách nhìn" nhưng sau đó có thể chuyển kiến ​​thức đó sang các ví dụ mới. Học chuyển giao là toàn bộ lĩnh vực của học máy và những thứ như "học bắn một lần" là có thể - bạn có thể xây dựng ANN để học cách xác định các loại đối tượng mới mà nó chưa từng thấy trước đây từ một ví dụ hoặc để xác định người đặc biệt từ một bức ảnh duy nhất của khuôn mặt của họ. Nhưng thực hiện tốt phần "học để xem" ban đầu này đòi hỏi khá nhiều dữ liệu.

Hơn nữa, có một số bằng chứng cho thấy không phải tất cả dữ liệu đào tạo đều như nhau, cụ thể là dữ liệu bạn "chọn" trong khi học có hiệu quả hơn dữ liệu được cung cấp cho bạn. Ví dụ thí nghiệm mèo con sinh đôi Held & Hein. https://www.lri.fr/~mbl/ENS/FONDIHM/2013/ con / about-HeldHein63.pdf


4

Một điều mà tôi chưa từng thấy trong các câu trả lời cho đến nay là thực tế là một 'ví dụ' của một vật thể trong thế giới thực mà một đứa trẻ nhìn thấy không tương ứng với một ví dụ trong bối cảnh đào tạo NN.

Giả sử bạn đang đứng ở ngã tư đường sắt với một đứa trẻ 5 tuổi và xem 5 chuyến tàu đi qua trong vòng 10 phút. Bây giờ, bạn có thể nói "Con tôi chỉ nhìn thấy 5 chuyến tàu và có thể xác định đáng tin cậy các chuyến tàu khác trong khi một NN cần hàng ngàn hình ảnh!". Mặc dù điều này có thể đúng, nhưng bạn hoàn toàn phớt lờ thực tế rằng mỗi chuyến tàu con bạn nhìn thấy chứa rất nhiều thông tin hơn một hình ảnh của một chuyến tàu. Trên thực tế, bộ não của con bạn đang xử lý vài chục hình ảnh của tàu mỗi giây khi nó đi qua, mỗi góc từ một góc hơi khác nhau, bóng khác nhau, v.v., trong khi một hình ảnh sẽ cung cấp cho NN thông tin rất hạn chế. Trong bối cảnh này, con bạn thậm chí có thông tin không có sẵn cho NN, ví dụ như tốc độ của tàu hoặc âm thanh mà tàu tạo ra.

Hơn nữa, con bạn có thể nói chuyện và HỎI CÂU HỎI! "Xe lửa rất dài phải không?" "Vâng.", "Và chúng cũng rất lớn phải không?" "Đúng.". Với hai câu hỏi đơn giản, con bạn học được hai tính năng rất cần thiết trong vòng chưa đầy một phút!

Một điểm quan trọng khác là phát hiện đối tượng. Con bạn có thể xác định ngay lập tức vào đối tượng nào, tức là phần nào của hình ảnh, nó cần tập trung vào, trong khi NN phải học cách phát hiện đối tượng liên quan trước khi có thể cố gắng phân loại nó.


3
Tôi cũng nói thêm rằng đứa trẻ có bối cảnh : nó nhìn thấy một đoàn tàu trên đường ray, có thể ở nhà ga, vượt qua cấp độ, v.v ... Nếu nó nhìn thấy một quả bóng bay khổng lồ (cỡ zeppelin) có hình dạng và được vẽ giống như một con tàu trên bầu trời, Nó sẽ không nói đó là một chuyến tàu. Nó sẽ nói nó trông giống như một chiếc xe lửa, nhưng nó sẽ không gắn nhãn "tàu" cho nó. Tôi nghi ngờ một NN sẽ trả lại một nhãn "khinh khí cầu trông như tàu hỏa" trong trường hợp này. Tương tự như vậy, một đứa trẻ sẽ không nhầm biển quảng cáo với một chuyến tàu trên đó với một chuyến tàu thực tế. Một hình ảnh của một hình ảnh của một chuyến tàu là một hình ảnh của một chuyến tàu đến NN - nó sẽ trả lại nhãn "tàu".
corey979

3

Tôi cho rằng hiệu suất không khác biệt như bạn mong đợi, nhưng bạn hỏi một câu hỏi hay (xem đoạn cuối).

Như bạn đã đề cập đến việc học chuyển: Để so sánh táo với táo, chúng ta phải xem tổng cộng có bao nhiêu hình ảnh và bao nhiêu hình ảnh về lớp học mà con người / mạng lưới thần kinh "nhìn thấy".

1. Con người nhìn bao nhiêu hình ảnh?

Chuyển động mắt của con người mất khoảng 200ms có thể được coi là một "bức ảnh sinh học". Xem cuộc nói chuyện của chuyên gia về thị giác máy tính Fei-Fei Li: https://www.ted.com/talks/fei_fei_li_how_we_V_teaching_computers_to_understand_pictures#t-362785 .

Cô nói thêm:

Vì vậy, đến 3 tuổi, một đứa trẻ sẽ nhìn thấy hàng trăm triệu bức ảnh.

Trong ImageNet, cơ sở dữ liệu hàng đầu để phát hiện đối tượng, có ~ 14 triệu ảnh được dán nhãn . Vì vậy, một mạng lưới thần kinh được đào tạo trên ImageNet sẽ có thể nhìn thấy nhiều hình ảnh như một đứa trẻ 14000000/5/60/60/24 * 2 ~ 64 ngày tuổi, vì vậy hai tháng tuổi (giả sử em bé đã thức tỉnh được một nửa cuộc đời). Để công bằng, thật khó để nói có bao nhiêu hình ảnh này được dán nhãn. Hơn nữa, hình ảnh, một em bé nhìn thấy, không đa dạng như trong ImageNet. (Có lẽ em bé nhìn thấy mẹ mình có thời gian, ...;). Tuy nhiên, tôi nghĩ thật công bằng khi nói rằng con trai của bạn sẽ nhìn thấy hàng trăm triệu bức ảnh (và sau đó áp dụng học chuyển).

Vì vậy, chúng ta cần bao nhiêu hình ảnh để tìm hiểu một thể loại mới dựa trên cơ sở vững chắc của các hình ảnh liên quan có thể (chuyển giao) học được từ?

Bài đăng trên blog đầu tiên tôi tìm thấy là đây: https://blog.keras.io/building-powerful-image- classification-models-USE -very-loss-data.html . Họ sử dụng 1000 ví dụ mỗi lớp. Tôi có thể tưởng tượng 2,5 năm sau thậm chí cách ít hơn là bắt buộc. Tuy nhiên, 1000 hình ảnh có thể được nhìn thấy bởi một con người trong 1000/5/60 trong 3,3 phút.

Bạn đã viết:

Một đứa trẻ ở tuổi 2 cần khoảng 5 chiếc ô tô để có thể xác định nó với độ chính xác hợp lý bất kể màu sắc, kiểu dáng, v.v.

Điều đó sẽ tương đương với bốn mươi giây mỗi lần (với các góc khác nhau của đối tượng đó để làm cho nó có thể so sánh được).

Tóm lại: Như tôi đã đề cập, tôi đã phải đưa ra một vài giả định. Nhưng tôi nghĩ, người ta có thể thấy rằng hiệu suất không khác biệt như người ta có thể mong đợi.

Tuy nhiên, tôi tin rằng bạn hỏi một câu hỏi hay và đây là lý do:

2. Mạng lưới thần kinh sẽ hoạt động tốt hơn / khác biệt hơn nếu chúng hoạt động giống như bộ não? (Geoffrey Hinton nói có).

Trong một cuộc phỏng vấn https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/ , vào cuối năm 2018, ông so sánh các triển khai hiện tại của mạng lưới thần kinh với não. Ông đề cập, về trọng lượng, mạng lưới thần kinh nhân tạo nhỏ hơn não với hệ số 10.000. Do đó, bộ não cần cách lặp ít hơn các khóa đào tạo để học. Để cho phép các mạng thần kinh nhân tạo, hoạt động giống như bộ não của chúng ta, anh ấy đã đi theo một xu hướng khác về phần cứng, một công ty khởi nghiệp có trụ sở tại Anh có tên là Graphcore. Nó giảm thời gian tính toán bằng một cách lưu trữ trọng lượng thông minh của mạng lưới thần kinh. Do đó, có thể sử dụng nhiều trọng lượng hơn và thời gian đào tạo của các mạng thần kinh nhân tạo có thể bị giảm.


2

Tôi là một chuyên gia trong việc này. Tôi là con người, tôi là một đứa bé, tôi có một chiếc xe hơi và tôi làm AI.

Lý do tại sao trẻ sơ sinh nhận xe ô tô với các ví dụ hạn chế hơn nhiều là trực giác. Bộ não con người đã có các cấu trúc để đối phó với các phép quay 3D. Ngoài ra, có hai mắt cung cấp thị sai cho ánh xạ độ sâu thực sự có ích. Bạn có thể giao tiếp giữa một chiếc xe hơi và một hình ảnh của một chiếc xe hơi, bởi vì không có chiều sâu thực sự cho hình ảnh. Hinton (nhà nghiên cứu AI) đã đề xuất ý tưởng về Capsule Networks, có thể xử lý mọi thứ bằng trực giác hơn. Thật không may cho máy tính, dữ liệu đào tạo là (thường) hình ảnh 2D, mảng pixel phẳng. Để không quá vừa vặn, cần có nhiều dữ liệu để định hướng của những chiếc xe trong hình ảnh được khái quát. Bộ não bé có thể làm điều này rồi và có thể nhận ra một chiếc xe ở bất kỳ hướng nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.