Искусственный интеллект может идентифицировать объекты на основе словесных описаний
Современное распознавание речевых команд работает довольно неуклюже и часто требует огромного количества аннотаций и расшифровок, чтобы можно было понять, что имеется в виду. Однако, возможен вариант делать это более естественным способом: надо научить алгоритмы распознавать вещи подобно тому, как этому учат детей.
Ученые разработали систему машинного обучения, которая может идентифицировать объекты на основе их описания. Укажите, например, на синюю рубашку на изображении, и ИИ сможет выделить одежду без каких-либо дополнительных расшифровок.
Команда начала с существующего подхода, когда две нейронные сети обрабатывают изображения и звуковые спектрограммы, учась находить соответствие звуковой подписи с изображениями, содержащими данный объект. Они модифицировали нейронную сеть обработки изображений, разделив изображение сеткой ячеек, в то время как аудио-сеть разрезала звуковую спектрограмму на короткие (1-2 секунды) фрагменты. После сопряжения правильного изображения и звука в процессе обучения ИИ оценивался на основе того, насколько хорошо сегменты аудио соответствовали объектам в сетке ячеек. Фактически, это похоже на то, как детям рассказывают о том, что они видят, указывая на объекты и называя их.
Существует ряд сфер для потенциального применения технологии, но исследователям больше всего нравится перспектива использования в переводе. Вместо того, чтобы просить двуязычного эксперта найти связи, люди, говорящие на разных языках, могут описывать одно и то же — в этом случае система может предположить, что одно описание является переводом другого. Это может сделать распознавание речевых команд более доступным для многих других языков, а не только для сотни, для которых имеется достаточно транскрипций по старомодному методу.
19.09.2018 15:18