Không có tìm kiếm phim chung
Đã có những thành công khi nhận ra một chuỗi rất hẹp của một tập hợp các hành động có thể rất hẹp, nhưng không có gì giống như một hệ thống tìm kiếm phim nói chung có thể trả lại một tập hợp các trận đấu với thời gian bắt đầu, thời gian kết thúc và ví dụ phim cho mỗi trận đấu của các tiêu chí tìm kiếm được liệt kê trong câu hỏi này.
- Ai đó đang lái xe
- Hôn
- Ăn
- Sợ hãi
- Nói chuyện qua điện thoại
Bình thường hóa danh sách
Trước hết, "Đã sợ", không phải là mô tả của một hành động. Nó nên là, "Trở nên sợ hãi." Thứ hai, "Nói chuyện qua điện thoại" không phải là một mô tả hành động thích hợp. Nó phải là một hành động gợi cảm, chẳng hạn như "Nói vào điện thoại VÀ nghe cùng một điện thoại." Để làm cho danh sách đồng nhất ở định dạng, mục đầu tiên phải là "Lái xe ô tô", vì diễn viên là con người trong mọi trường hợp khác.
- Lái xe ô tô
- Hôn
- Ăn
- Trở nên sợ hãi
- Nói vào điện thoại và nghe cùng một điện thoại.
Kỳ vọng thiết kế hệ thống thực tế
Thật không thực tế khi nghĩ rằng một mạng lưới thần kinh nhân tạo, có thể được đào tạo để trở lại như là đầu ra của tập bắt đầu và dừng và các trường hợp phim liên quan từ cơ sở dữ liệu phim và một trong các mục danh sách trên làm đầu vào. Điều này sẽ yêu cầu một hệ thống phức tạp với nhiều ANN và các thiết bị ML khác và có thể yêu cầu các thành phần AI khác hoàn toàn không phải là mạng loại kích hoạt. Chắc chắn các hạt tích chập và các loại bộ mã hóa khác nhau nên được coi là các thành phần chính của hệ thống.
Bạn sẽ cần một lượng lớn dữ liệu đào tạo để bao gồm sáu trường hợp trên (cuối cùng trong năm mục thực sự là hai hành động riêng biệt mà chúng ta thường liên kết và xem xét một). Nếu bạn muốn phát hiện thêm hành động, bạn cũng sẽ cần một lượng lớn dữ liệu đào tạo cho họ.
Động từ và danh từ
Lý do câu hỏi này thú vị với tôi là vì nhận ra HÀNH ĐỘNG không giống như nhận ra MỤC. Tất cả các động vật có vú học ITEMS trước và HÀNH ĐỘNG sau. Về mặt ngôn ngữ học, danh từ đến trước động từ trong sự phát triển ngôn ngữ trẻ em. Đó là bởi vì, giống như việc phát hiện các cạnh là sơ bộ để phát hiện các hình dạng, đó là sơ bộ để phát hiện các vật thể, phát hiện chuyển động là sơ bộ để phát hiện hành động.
Các động từ như "Ăn uống" là một sự trừu tượng trên đỉnh của chuyển động, và trong trường hợp ăn, chuyển động rất phức tạp. Ngoài ra, ăn uống không giống như nhai kẹo cao su, vì vậy trình tự được phát hiện phải như sau:
- Đưa thức ăn vào mặt qua miệng
- Nhai
- Nuốt
Xác suất của một chuỗi là sản phẩm của xác suất của các phần của nó, do đó toán học đơn giản và dễ thực hiện. Đồng thời, như trong trường hợp các hành động kết hợp như nói chuyện và nghe cùng một điện thoại, cũng tương đối dễ xử lý nói chung.
Cách tiếp cận thực tế
Chắc chắn khái quát hóa (và cụ thể hơn là trích xuất tính năng) sẽ cần phải xảy ra trong nhận dạng đối tượng, phát hiện va chạm, phát hiện chuyển động, nhận dạng khuôn mặt và các mặt phẳng khác cùng một lúc. Một cấu trúc liên kết phức tạp, có lẽ sử dụng cân bằng như trong thiết kế GAN, rất có thể sẽ cần thiết để lắp ráp các yếu tố của tiêu chí liên quan đến chuỗi truy vấn phim và để chạy các cửa sổ qua các khung của mỗi phim.
Để cung cấp dịch vụ trả về kết quả trong vòng vài ngày hoặc vài tuần có thể sẽ cần một cụm và phần cứng DSP (có thể tận dụng GPU).
Những trường hợp đặc biệt mà bộ não con người xử lý
Xác định khoảng thời gian một trong hai yếu tố đồng thời có thể không bị phát hiện trước khi nó vô hiệu hóa kết hợp có thể khó khăn. (Bao lâu người ta không thể nói vào điện thoại trước khi nó xuất hiện rằng nó không còn được coi là cuộc trò chuyện điện thoại nữa?)
Nếu trong phim, chỉ có nuốt được, một con người có thể suy ra việc ăn uống. Loại độ tin cậy kết luận từ dữ liệu thưa thớt là một thách thức AI lớn được thảo luận trong các bối cảnh khác nhau trong suốt tài liệu.
Sự xuất hiện của công nghệ liên kết - Dự đoán
Tôi nghi ngờ rằng địa hình hệ thống bao gồm ANN, bộ mã hóa, hạt tích chập và các thành phần khác để thực hiện tìm kiếm bất kỳ bộ hành động được chọn nào sẽ xuất hiện trong vòng mười năm tới. Công việc dường như được theo dõi theo hướng đó trong tài liệu.
Một hệ thống sẽ có được thông tin đào tạo của riêng mình, phát triển kiến thức một cách bền vững và thực hiện các tìm kiếm chung nếu tăng độ rộng và độ phức tạp có thể ở bất cứ đâu từ bốn mươi đến hai trăm năm. Thật khó để dự đoán.
Dự đoán tổng quá mức
Mọi thế hệ dường như xem sự phát triển tri thức là một hàm số mũ và có xu hướng đưa ra những dự đoán không thực tế về sự ra đời của một số khả năng công nghệ được xác định. Hầu hết các dự đoán thất bại đáng kể. Tôi đã tin rằng sự tăng trưởng theo cấp số nhân là một ảo ảnh được tạo ra bởi sự phân rã theo cấp số nhân của lợi ích trong quá khứ đối với thời gian.
Chúng tôi mất theo dõi năng lượng và tốc độ tăng trưởng trong thời đại trước chúng tôi vì chúng trở nên không liên quan đến xã hội. Mọi người đi vào lịch sử khoa học, như Whitehead, Kuhn và Ellul đều biết rằng công nghệ đã tiến lên nhanh chóng trong ít nhất vài trăm năm. Vernadski đã suy luận trong cuốn Sinh quyển của mình rằng cuộc sống có thể không phát sinh, giống như vật chất và năng lượng, nó có thể luôn tồn tại. Tôi tự hỏi nếu công nghệ đã di chuyển với tốc độ không đổi trong 50.000 năm qua.
Đức quyết định tăng gấp đôi sản lượng năng lượng mặt trời mỗi năm và công bố thành công theo cấp số nhân của mình, cho đến vài năm trước, khi tăng gấp đôi một lần nữa sẽ tiêu tốn hơn một trăm tỷ đô la so với số tiền họ phải bỏ ra. Họ đã ngừng xuất bản các biểu đồ tăng trưởng theo cấp số nhân.