Thuật toán học tập hiện đại trong các nhiệm vụ nhận dạng mẫu?


14

Cấu trúc của câu hỏi này như sau: ban đầu, tôi cung cấp khái niệm về học tập hòa đồng , hơn nữa tôi cung cấp một danh sách các nhiệm vụ nhận dạng mẫu , sau đó tôi đưa ra các ví dụ về thuật toán học tập đồng bộ và cuối cùng, giới thiệu câu hỏi của tôi. Những người không cần tất cả các thông tin bổ sung có thể chỉ cần nhìn vào tiêu đề và đi thẳng vào câu hỏi của tôi.


Học tập là gì?

Theo bài viết trên Wikipedia :

Trong thống kê và học máy, các phương pháp tập hợp sử dụng nhiều thuật toán học tập để có được hiệu suất dự đoán tốt hơn so với bất kỳ thuật toán học cấu thành nào. Không giống như một tập hợp thống kê trong cơ học thống kê, thường là vô hạn, một tập hợp máy học chỉ đề cập đến một tập hợp hữu hạn cụ thể của các mô hình thay thế, nhưng thường cho phép tồn tại cấu trúc linh hoạt hơn nhiều trong số các phương án đó.


Ví dụ về các nhiệm vụ nhận dạng mẫu:


Ví dụ về các thuật toán học tập đồng bộ:

Các thuật toán học tập đồng bộ sau đây được sử dụng cho các nhiệm vụ PR (theo Wiki):

Các thuật toán học tập đồng bộ (các thuật toán meta được giám sát để kết hợp nhiều thuật toán học tập với nhau):

  • Boosting (mộtthuật toánhọc máy đồng bộvới thuật toán metachủ yếu để giảmsự thiên vị, và cả sự khác biệt tronghọc tập có giám sátvà một nhóm các thuật toán học máy chuyển đổi những người học yếu thành những người mạnh mẽ)

  • Bootstrap tổng hợp (" đóng bao ") (một thuật toán meta tập hợp máy học được thiết kế để cải thiện tính ổn định và độ chính xác của các thuật toán học máy được sử dụng trongphân loạihồi quythống kê).

  • Tính trung bình của đồng bộ (quá trình tạo nhiều mô hình và kết hợp chúng để tạo ra một đầu ra mong muốn, trái ngược với việc chỉ tạo một mô hình. Thường thì một mô hình hoạt động tốt hơn bất kỳ mô hình riêng lẻ nào, vì các lỗi khác nhau của các mô hình "trung bình". )

  • Hỗn hợp các chuyên gia, hỗn hợp phân cấp của các chuyên gia

Thực hiện khác nhau

  • Tập hợp các mạng nơ-ron (một tập hợp các mô hình mạng nơ-ron đưa ra quyết định bằng cách lấy trung bình các kết quả của các mô hình riêng lẻ).
  • Rừng ngẫu nhiên (một phương pháp học tập đồng bộ để phân loại, hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô sốcây quyết địnhtrong thời gian đào tạo và đưa ra lớp làchế độcủa các lớp (phân loại) hoặc dự đoán (hồi quy) của cá nhân cây).
  • AdaBoost (đầu ra của các thuật toán học tập khác ('người học yếu') được kết hợp thành một tổng có trọng số đại diện cho đầu ra cuối cùng của trình phân loại được tăng cường).

Ngoài ra:

  • Các phương thức sử dụng một mạng thần kinh để kết hợp các phân loại khác nhau
  • Phương pháp năng lực khu vực

Câu hỏi của tôi

Các thuật toán học tập đồng bộ nào được coi là hiện đại và thực sự được sử dụng trong thực tế (để nhận diện khuôn mặt, nhận dạng biển số xe, nhận dạng ký tự quang học, v.v.) của các doanh nghiệp và tổ chức? Sử dụng các thuật toán học tập đồng bộ được cho là để tăng độ chính xác nhận dạng và dẫn đến hiệu quả tính toán tốt hơn. Nhưng, liệu các vấn đề có đứng theo cách này trong thực tế?

Phương pháp tập hợp nào, có khả năng, có thể hiển thị độ chính xác và hiệu suất phân loại tốt hơn trong các tác vụ nhận dạng mẫu? Có lẽ, một số phương pháp đã lỗi thời hoặc đã được chứng minh là không hiệu quả. Hiện tại cũng có thể các phương thức tập hợp có xu hướng không được sử dụng nữa trên sức mạnh của một số thuật toán mới. Những người có kinh nghiệm trong lĩnh vực hoặc có đủ kiến ​​thức trong lĩnh vực này, bạn có thể giúp làm rõ các vấn đề?


Những gì tôi nghe gần đây là mọi người yêu thích XGBoost và nó đã cho thấy hiệu suất thực sự ấn tượng trên một số cuộc thi Kaggle.
Sangwoong Yoon

Câu trả lời rất ngắn gọn: câu trả lời cho điểm CV tốt nhất. Thông thường đó là xếp chồng
Alexey Grigorev

Sự thành công và thất bại của một mô hình đoàn là một chức năng của các mô hình thành viên của đoàn thể bản chất của dữ liệu. Tập hợp hoạt động vì các mô hình thành viên mang lại một mức độ đa dạng. Câu hỏi của bạn có thể không thể trả lời được nếu không có thông tin cụ thể về cả hai mô hình bạn đưa vào bộ đồng phục và bộ dữ liệu được đề cập.
horaceT

Câu trả lời:


9

Các thuật toán tiên tiến có thể khác với các thuật toán được sử dụng trong sản xuất trong ngành. Ngoài ra, cái sau có thể đầu tư vào việc tinh chỉnh các cách tiếp cận cơ bản hơn (và thường dễ hiểu hơn) để làm cho chúng hoạt động tốt hơn những gì các học giả sẽ làm.

Ví dụ 1: Theo TechCrunch , Nuance sẽ bắt đầu sử dụng "công nghệ học sâu" trong các sản phẩm nhận dạng giọng nói Dragon vào tháng 9 này.

Ví dụ 2: Chiticariu, Laura, Yunyao Li và Frederick R. Reiss. "Khai thác thông tin dựa trên quy tắc đã chết! Các hệ thống khai thác thông tin dựa trên quy tắc sống lâu!." Trong EMNLP, không. Tháng 10, trang 827-832. 2013. https://scholar.google.com/scholar?cluster=12856773132046965379&hl=vi&as_sdt=0,22 ; http://www.aclweb.org/website/old_anthology/D/D13/D13-1079.pdf

nhập mô tả hình ảnh ở đây

Với điều đó đang được nói:

Những thuật toán học tập nào được coi là hiện đại nhất

Một trong những hệ thống tiên tiến để phân loại hình ảnh đạt được một số lợi ích tốt với bộ đồng phục (giống như hầu hết các hệ thống khác mà tôi biết): He, Kaiming, Xiangyu Zhang, Shao Khánh Ren và Jian Sun. "Học sâu còn lại để nhận dạng hình ảnh." bản in sẵn arXiv arXiv: 1512.03385 (2015). https://scholar.google.com/scholar?cluster=17704431389020559554&hl=vi&as_sdt=0,22 ; https://arxiv.org/pdf/1512.03385v1.pdf

nhập mô tả hình ảnh ở đây


3

Tôi đoán người ta có thể nói rằng học sâu là khá nhiều công nghệ tiên tiến trong hầu hết các tên miền phụ của thị giác máy tính (phân loại, phát hiện, siêu phân giải, phát hiện cạnh, ...) ngoại trừ nhiệm vụ rất cụ thể như SLAM học sâu chưa được ngang bằng với các phương pháp hiện có.

Thông thường để có thêm một vài phần trăm để giành được trung bình các mạng cạnh tranh được sử dụng nhưng các mạng đang trở nên tốt đến mức không còn quan trọng nữa.

Trong sản xuất thì hoàn toàn khác. Các công ty lớn thường dựa vào các thuật toán cũ đã được chứng minh là có hiệu quả và các chuyên gia tại chỗ có kiến ​​thức và nhiều năm thực hành sử dụng chúng.
Cộng với việc tích hợp một thuật toán mới trong chuỗi cung ứng đòi hỏi rất nhiều thời gian. Tôi nghĩ rằng một số công ty máy ảnh vẫn sử dụng máy dò Viola Jones để nhận diện khuôn mặt và tôi biết một thực tế là SIFT đang được sử dụng rất nhiều trong rất nhiều ứng dụng trong công nghiệp.

Họ vẫn còn một chút hoài nghi đối với các phương pháp học sâu được coi là hộp đen nguy hiểm.
Nhưng kết quả ấn tượng của những thuật toán đó là chậm chạp khiến mọi người thay đổi suy nghĩ về nó.

Các công ty khởi nghiệp sẵn sàng sử dụng các giải pháp như vậy vì họ phải có các giải pháp sáng tạo để được tài trợ.

Tôi sẽ nói rằng trong hai mươi năm, hầu hết các sản phẩm dựa trên tầm nhìn máy tính sẽ sử dụng học sâu ngay cả khi một cái gì đó hiệu quả hơn được phát hiện ở giữa.
Bổ sung vào học sâu câu trả lời của Franck đang thay đổi quá nhanh đến nỗi ResNets của Kaiming Ông không phải là nhà nước của nghệ thuật nữa đông kết nối Convolutional NetworksWide và mạng lưới sâu với SGD khởi động lại bây giờ SOTA trên EDIT CIFAR và SVHN và có lẽ Imagenet quá và ngay cả điều này có thể thay đổi trong một vài ngày với kết quả ILSVRC 2016 vào ngày 16 tháng 9.

Nếu bạn quan tâm đến nhiều kết quả hiện đại hơn trên MS-COCO, bộ dữ liệu phát hiện thử thách nhất hiện có sẽ được phát hành tại ECCV vào tháng Mười.


1
Trên thực tế, sau khi kiểm tra hai lần, các bài báo tôi đã trích dẫn không đề cập đến kết quả của họ trên Imagenet! Vậy đó là sai lầm của tôi! nhưng vì chúng vượt trội hơn nhiều so với CIFAR và SVHN, tôi nghĩ nó phải giống với Imagenet nhưng bạn không bao giờ biết. Tôi đoán họ đã không đề cập đến nó để chờ kết quả của ILSVRC nhưng tôi có thể sai!
jean

1
@FranckDernoncourt kết quả điên cuồng này rất thú vị nhưng cũng có thể gây áp lực lớn cho những người muốn xuất bản trong lĩnh vực này, điều này có thể dẫn đến những sai lầm như bài báo SARM khét tiếng hiện nay mà tác giả đã rút khỏi NIPS.
jean

Cảm ơn, vâng, tôi đã thấy điều đó thực sự, nhưng không có cơ hội kiểm tra giấy mà tôi đang gặp vấn đề làm trống danh sách cần đọc của mình với tất cả các tệp ANN PDF mới này: /
Franck Dernoncourt

Sự cố rút tiền SARM này khiến tôi phải suy nghĩ lại về cuộc khủng hoảng tái sản xuất trong thống kê. Cần bao nhiêu chi tiết thực hiện trong quá trình xem xét, bao nhiêu là quá ít, v.v.
horaceT

2

Có rất nhiều vấn đề liên quan đến câu hỏi của bạn và thường tìm ra mô hình tốt nhất liên quan đến việc kiểm tra hầu hết những điều này trên dữ liệu. Chỉ vì một mô hình trong lý thuyết có thể tạo ra kết quả chính xác hơn không có nghĩa là nó sẽ luôn tạo ra một mô hình có sai số thấp nhất.

Điều đó đang được nói ... Các mạng lưới thần kinh có thể rất chính xác, miễn là bạn có thể chấp nhận hộp đen. Thay đổi theo cả số lượng nút và số lớp có thể bao gồm rất nhiều phương sai trong dữ liệu, với việc giới thiệu nhiều yếu tố mô hình hóa này, có thể dễ dàng điều chỉnh dữ liệu.

Rừng ngẫu nhiên hiếm khi tạo ra kết quả chính xác nhất, nhưng cây được tăng cường có thể mô hình hóa các mối quan hệ phức tạp như trong các nhiệm vụ AI mà bạn đã thảo luận mà không có nhiều rủi ro bị thừa.

Mọi người sẽ nghĩ, tại sao không chỉ tập hợp tất cả các mô hình này lại với nhau, mà mô hình này thỏa hiệp với các thế mạnh có thể có của các mô hình riêng lẻ. Một lần nữa điều này có thể sẽ dẫn đến một số vấn đề quá mức.

Các mô hình có hiệu quả tính toán là một vấn đề khác và tôi sẽ không bắt đầu với một mạng lưới thần kinh rất phức tạp. Sử dụng một mạng lưới thần kinh làm chuẩn, theo kinh nghiệm của tôi, nó đã có hiệu quả nhất khi sử dụng các cây được tăng cường.

Điều này dựa trên kinh nghiệm của tôi và sự hiểu biết hợp lý về lý thuyết làm cơ sở cho từng loại mô hình được thảo luận.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.