Самый умный: как по полной эксплуатировать искусственный интеллект в своем смартфоне?
4 июня, Текст: Дмитрий Петренко, фото: HTC
«РБК. Стиль» разбирается в том, что уже может распознать искусственный интеллект и как максимально использовать эти возможности себе на пользу.
Распознавание изображений
За последний месяц было запущено два интересных сервиса, в основу которых положено умение искусственного интеллекта распознавать объекты на изображениях. Сразу после конференции I/O Google серьезно обновила приложение для просмотра фотографий «Фото». Ключевой особенностью новой версии (помимо возможности безлимитного хранения своих снимков на серверах Google) стала способность программы отыскивать среди сотен фотографии пользователя нужные ему по ключевым словам. Если вбить в поиске, скажем, тэг «море», «Фото» просканирует весь фотопоток как в памяти устройства, так и в «облаке» и самостоятельно, основываясь на собственных алгоритмах, выберет из него те, на которых море, собственно, изображено. «Google. Фото» работает на удивление быстро и довольно редко ошибается, что делает ее едва ли не самой удобной программой для просмотра своих снимков из всех существующих. Приложение доступно на iOS, Android, а также в виде веб-версии.
«Фото» будет не единственной программой от Google, где будет использоваться технология распознавания объектов на изображении. Popular Science сообщает, что компания также ведет работу над программой, которая определяет, что за еда находится на фотографии, и умеет подсчитывать количество содержащихся в ней калорий. В расчет принимается как сам продукт, так и его количество на тарелке. Качество снимков особого значения не имеет, для работы сервиса хватит и фотографии из Instagram. Когда состоится релиз приложения, пока неизвестно.
Кроме Google в этой нише работают создатели поисковика Wolfram. Они представили специальный сайт ImageIdentify, куда пользователи могут загрузить любую фотографию из Сети, а ресурс попытается определить, что на ней изображено. Сервис пока работает с ошибками, но его важной особенностью является самообучаемость. Чем больше фотографий с каким-нибудь объектом в Imageidentify было загружено, тем меньше вероятность того, что в следующий раз сайт ошибется.
Распознавание звуков и голоса
Распознавать человеческую речь искусственный интеллект умеет уже довольно давно. Сейчас этим навыком обладает любой современный смартфон.
Во всех актуальных мобильных операционных системах, Android, iOS и Windows Phone, есть встроенные цифровые ассистенты: Google Now, Siri и Cortana соответственно. Функционал у них схожий: повинуясь голосовым командам пользователя, они могут заводить будильник, ставить напоминания, отправлять СМС — в общем, помогать в решении повседневных задач. Именно голосовому распознаванию обязана своим появлением носимая электроника, например умные часы на Android Wear и Apple Watch.
Недавно Microsoft представила сервис, который в перспективе может уничтожить языковой барьер: популярный мессенджер Skype научился в реальном времени и с минимальной задержкой переводить речь человека с одного языка на другой. Люди могут общаться друг с другом по Skype, каждый на своем языке, а синхронным переводчиком между ними выступит искусственный интеллект. Русского языка в списке поддерживаемого пока нет.
Стоит также упомянуть Shazam, очень популярную программу для распознавания музыкальных композиций. Она определяет исполнителя и название трека, стоит только поднести смартфон к источнику звука.
Распознавание текста
Конечно, компьютер научился распознавать текст еще на заре становления программирования, так что мы остановимся на программах, которые способны отыскивать слова и цифры в видео и изображениях.
Существует, например, масса способов «просканировать» фотографию и перевести весь имеющийся там текст в форматы doc или pdf. Сделать это можно как с помощью приложений для смартфона, так и онлайн, на сайтах вроде ABBY Fine Reader. Вы загружаете туда снимок, искусственный интеллект обрабатывает его и выдает текстовой документ. Это удобно и особенно полезно, например, студентам. Зачастую вместо того, чтобы перепечатать чей-нибудь конспект, можно просто сфотографировать его и заставить работать ИИ.
Но один из самых интересных на сегодняшний день способов применения алгоритмов распознавания текста нашли создатели программы World Lense. Их приложение переводит с одного языка на другой все надписи, попадающие в объектив камеры смартфона: вывески магазинов, указатели, названия улиц, описания на этикетках продуктов и так далее. Причем происходит все это в реальном времени: язык надписи меняется в самом кадре, так что какое-нибудь «Предупреждение!» спустя пару секунд превратится в англоязычное «Warning!» или немецкое «Achtung» прямо на глазах удивленного пользователя.
Этот сервис настолько заинтересовал Google, что она купила его и интегрировала в собственное популярное приложение «Google. Переводчик». Скачать его можно бесплатно из Google Play и App Store.
Определение контекста
Подобные алгоритмы активно используются, например, в Google Now. Помощник благодаря геолокационными сервисам всегда знает, где вы находитесь, и самостоятельно выводит на экран смартфона или, что еще удобнее, умных часов нужную вам информацию: например, какие места поблизости стоит посетить и какая стоит температура за окном. Скажем, если вы выйдете с работы, программа узнает это и подскажет, сколько времени с учетом состояния на дорогах займет ваш путь домой, во сколько уходит последний автобус и так далее. Эти подсказки не всегда уместны, но зачастую могут сэкономить массу времени.
В новой версии Android под кодовым названием M Google Now также научится анализировать контекст внутри приложений. Например, если кто-то из друзей позвал вас в кино по электронной почте, Now проанализирует сообщение и подскажет расписание сеансов в кинотеатрах, снабдит вас ссылками на трейлеры фильмов и отзывы кинокритиков. Все, что нужно для этого сделать, — вызвать Now долгим нажатием на кнопку «Домой» в окне почтового клиента, остальное программа сделает сама. Релиз Android M состоится осенью этого года.