Сервисы типа Google Assistants и Siri обзавелись «эмоциональным интеллектом» для имитации человеческого общения, и оно оказалось востребованным. Пользователи могут изливать душу голосовым помощникам после рабочего дня, а устройства скоро научатся определять настроение владельца по тону его голоса и скорости речи.
Немало и тех, кто не спешит «приглашать» голосовых помощников в дом. Чтобы вовремя реагировать на голосовые команды, умные ассистенты слушают пользователей постоянно. Компании производители этого не отрицают и даже нанимают подрядчиков для работы с аудиоданными для улучшения сервиса.
Как эволюционировали голосовые ассистенты?
Технология распознавания голоса появилась задолго до дебюта Siri. Такие сервисы воспринимают человеческую речь как набор вводных данных и отправляют их на сервер. Потом голос распознают нейросети, обученные различать слова и команды на тысячах примеров. Система трансформирует речь человека в текст и анализирует ее через классификатор по ключевым словам. Так она определяет не только смысл, но и контекст сказанного, включая дату, место, время и так далее. Поиск и выдача ответа занимает доли секунды, но, чтобы этого добиться, понадобились десятки лет подготовки.
Первый аппарат, способный распознавать несколько гласных и согласных букв, в 1939 году создал советский физик Лев Мясников. В 1962 году на всемирной выставке в Сиэтле компания IBM представила инструмент под названием Shoebox. Устройство размером с обувную коробку распознавало 16 слов и цифры от 0 до 9.
В 1970-х годах ученые университета Карнеги-Меллон в Питтсбурге создали Harpy – программу, распознающую 1011 слов. Примерно столько же укладывается в словарный запас трехлетнего ребенка. Проект поддерживали Министерство обороны США и Агентство перспективных исследований в области обороны (DARPA).
В 90-х годах технологией распознавания голоса заинтересовались IBM и Apple, внедрившая позже функцию распознавания речи в компьютеры Macintosh. В 1997 году компания Dragon выпустила первый продукт непрерывной диктовки Dragon Naturally Speaking. Он мог переводить в текст до 100 слов в минуту, а подобные устройства пригодились для медицинской диктовки.
С развитием технологий голосовые помощники появились не только у крупных технологических компаний, но и у банков, и различных цифровых сервисом. Интересна и разница между реакцией голосовых помощников из разных стран. Например, российскую Алису сравнивают с хранилищем «жёсткой правды и суровой любви».
В ответ пользователю на фразу «мне грустно», она ответила: «никто и не обещал, что будет легко». Google Assistents на ту же фразу отреагировал иначе: «вот бы у меня были руки, чтобы я могла тебя обнять».
Приемлемые ответы для помощников регулируют люди, поэтому сервисы так или иначе отражают культуру взаимодействия, принятую в обществе либо корпоративной среде.
Насколько востребованы голосовые помощники?
Согласно отчёту Canalys, в 2019 году мировой рынок умных колонок вырос на 60% по сравнению с предыдущим, а пять крупнейших производителей Amazon, Google, Baidu, Alibaba и Xiaomi побили рекорды по поставкам. За весь 2019 год компании продали в общей сложности 125 миллионов умных колонок по всему миру. Поставки в Китай выросли более чем вдвое (52 млн. устройств) и обеспечили 64% рост всех продаж.
По данным отчётаCoupon Follow «Millennial Shopping 2019», 45% жителей США в возрасте 22-37 лет совершают покупки с помощью умных ассистентов, а по прогнозам Juniper ежегодные покупки через голосовые помощники превысят $80 миллиардов к 2023 году, включая денежные переводы и покупки цифровых товаров.
Директор и сооснователь компании Verigram Уахат Бастимиев — частый пользователь голосового помощника. Его работа связана с обработкой естественного языка NLP — направление искусственного интеллекта и математической лингвистики.
«Занимаясь развитием компании, мне приходится часто созваниваться и переписываться с людьми. Большая часть общения происходит в мессенджерах, при этом структура сообщений однотипна. Чтобы не печатать каждый раз одну и ту же информацию, я просто надиктовываю ее, когда иду на работу или еду в транспорте. Это экономит 20-25% рабочего времени», — отмечает Уахат Бастимиев.
Нас действительно слушают?
Проведя совместный опрос, американской корпорации Oracle и исследовательская фирма Future Workplace выяснили, что 64 % людей скорее доверятся искусственному интеллекту, чем своему непосредственному начальнику. В Индии и Китае роботам доверяют 89 % и 88 % пользователей, а в Великобритании и США — 54 % и 57 % сотрудников. Половина из них не только предпочитают оценку от ИИ, но еще и готовы обратиться к нему за советом в обход начальства.
Производители голосовых помощников также признают, что устройства работают в фоновом режиме и могут записывать голоса владельцев без их позволения. По информации Bloomberg, компания Amazon нанимает тысячи человек по всему миру для расшифровки обращений к умной колонке Echo и улучшению алгоритмов распознавания речи. Независимые подрядчики и штатные сотрудники Amazon работают из Бостона, Коста-Рики, Индии и Румынии по 9 часов в день.
Каждый из них анализирует до 1000 аудиосообщений за смену. Подписанное соглашение о неразглашении запрещает сотрудникам компании говорить об этом публично.
О том, как независимые сотрудники Apple регулярно слышат конфиденциальную информацию на записях Siri, также писал Guardian. Иногда работники слышат частные разговоры, но не вмешиваются, даже если это что-то противозаконное. По словам информатора издания, им попадались беседы между врачами и пациентами, разговоры о коммерческих сделках, сексуальных контактах и так далее. При этом работники видели местоположение, данные приложения и контактную информацию о пользователях.
Подрядчики, работающие по всему миру, оценивают ответы по ряду фактов, включая преднамеренность или случайность голосовой активности помощника. В компании утверждают, что эти данные «используются, чтобы помочь Siri лучше понять пользователя». Сотрудникам рекомендовали сообщать о случайных активациях, но только как о технической проблеме. Если верить компании, для оценки используется менее 1% ежедневных голосовых запросов длительностью в несколько секунд. При этом пользователи Siri не знали, что их разговоры могут слушать.
К подрядчикам попадают и данные, полученные системой искусственного интеллекта Google Assistant. Тоже самое происходит с помощником Google Home. По словам представителя компании, рецензенты прослушивают только 0,2% всех аудио в обезличенной форме. Спустя определенное время компания позволяет им удалить все голосовые запросы.
В каких случаях доступ к голосовым данным оправдан?
По мнению Уахата Бастимиева, прослушивание голосовых сообщений — это необходимость, а всех недочётов разработчикам учесть невозможною.
Если с помощью голосового помощника человек совершит самоубийство, компании в любом случае придется разобраться в ситуации, чтобы не допустить повторения инцидента. Поэтому разработчики получают и обрабатывают обезличенные данные. Другой вопрос получают ли их третьи стороны. Но основная цель сбора данных – улучшить работу сервиса, — говорит специалист.
Улучшение происходит за счёт совершенствования работы нейросетей, обрабатывающих вопросы и команды пользователей. Для расширения функционала их нужно постоянно доучивать, а это невозможно без новых данных в виде примеров и выборок с размеченным текстом. При этом не исключён риск утечки личных данных. В большом объёме это будут гигабайты хаотичной информации, но, если речь идёт о конкретном человеке, могут возникнуть проблемы. Особенно, если его жизнь или профессия представляет публичный интерес.
«Нужно понимать, насколько целесообразно обрабатывать и классифицировать всю информацию. Намного проще ставить определённые фильтры и вычленять только необходимые данные или действия. Да, устройства могут слушать нас постоянно, но насколько это окупаемо и необходимо? Существуют веские причины, по которым технологические компании слушают диалог пользователя с цифровыми помощниками. Обычно это небольшая выборка для исправления распространённых ошибок и недочётов работы систем», — объясняет директор Digital office Forte Bank Аскар Майлюбаев.
Что ждет пользователей в будущем?
По прогнозам консалтинговой компании Gartner, к 2021 году 25% цифровых работников будут ежедневно пользоваться услугами виртуальных ассистентов, хотя в 2019 году этот показатель составил менее 2%. Juniper Research утверждает, что к 2023 году в мире будет использоваться 8 млрд голосовых ассистентов, а на одного человека придется 2-3 помощника.
«Качество существующих продуктов от технологических лидеров будет улучшаться, а голосовые помощники глубже проникнут в ежедневные задачи человека. Не зря Apple активно инвестирует в развитие наушников и носимых девайсов. Зачем вам смартфон, если вы сможете все сделать просто голосом?», — считает Аскар Майлюбаев.
Крупные разработчики постепенно переводят своих ассистентов на приборную доску автомобиля и создают помощников под бизнес-задачи. Не исключено, что они также дополнят привычные электроприборы, будь то видеокамеры для наблюдения или бытовая техника, подключенная к «интернету вещей». По приблизительным оценкам, в 2027 году он охватит 41 млрд устройств – в 5 раз больше, чем в 2019 году.
Если прогнозы сбудутся, в ближайшие несколько лет сервисы типа, Siri, Alexa и Google Assistant станут полноценными личными ассистентами. Например, смогут самостоятельно договариваться о встречах или бронировать столик в ресторане без участия человека. По мере развития и популяризации технологий растут и ожидания потребителей. Улучшения невозможны без новых данных, но успех также будет зависеть от прозрачности их сбора и использования разработчиками.
«Любые технологии — это палка о двух концах. Они могут приносить как пользу, так и вред. Цифровые помощники – это инструмент, который предоставляют огромные корпорации, и пользоваться им стоит, соблюдая цифровую гигиену. Все, что сказано или написано в интернете, сохранится и будет обработано для нужд корпораций, будь то таргет для рекламы или анализ поведения пользователя для манипуляций. Об этом всегда стоит помнить и мыслить рационально», — считает Аскар Майлюбаев.
С 2014 года американский социолог Шошана Зубоф популяризирует идею поднадзорного капитализма (surveillance capitalism) – нового устройства общества, в котором технологические гиганты и крупные компании шпионят за потребителями, чтобы больше зарабатывать, формировать мнения и влиять на события, например, результаты выборов. Согласно этой концепции, ценность представляют различные данные о жизни, привычках и предпочтениях пользователей. Причем не только в социальных сетях, но и при использовании различных девайсов, вплоть до секс-игрушек, управляемых через смартфон.
Можно по-разному относиться к этой идее, но регулирование деятельности таких крупных корпораций, как Facebook и Google началось относительно недавно, а скандалы, связанные с утечками и торговлей персональными данными, стали обычным делом.
В современном мире защита персональной информации зависит как от личной ответственности пользователей, так и законодательства страны. Например, в Евросоюзе с 2018 года действует Генеральный регламент о защите персональных данных (GDPR). Он обязывает компании, собирающие и хранящие данные о пользователях, обеспечивать безопасность и конфиденциальность этой информации. Закон позволяет гражданину получать выписки от компаний со всеми данными, которые о нём хранятся, вплоть до способа их использования. Требование удалить о себе информацию также считается правомерным.
Похожий закон c начала 2020 года приняли в США в штате Калифорния. Он вступит в силу не раньше 1 июля, но пока не ясно, насколько эффективно новый закон будет защищать интересы простых пользователей. Последуют ли этой практике другие страны, покажет время. Либо в продаже появятся устройства, которые будут мешать голосовым помощникам распознавать речь. Такой прототип в виде браслета с ультразвуковыми излучателями, создающими помехи для микрофонов, недавно представили инженеры из Чикагского университета в США. Конечно, это только перспективы, но о чем спрашивать голосового помощника и когда его выключать, каждый решает сам.
Добавить комментарий