Добавить в избранное





Лефт, лефт, оупен


С момента создания первого компьютера прослеживается тенденция к упрощению интерфейса взаимодействия с ним. Сначала инфа вводилась в компьютеры переключателями, а "общение" велось в машинных кодах, известных узкому кругу программистов. Переход на перфокарты, а после этого на привычные нам устройства ввода - клавиатуру и мышка - позволил упростить и интерфейсы взаимодействия. Программировать на первых персональных компьютерах было способно большинство технически подкованных людей, а уж с играми справлялись и далекие от техники пользователи. Правда, чтобы запустить игру, требовалось выучить десяток-другой команд, понимать, что такое дерево каталогов... или кликать на подмога знакомого, сведущего в ИТ.

Современный компьютер не требует от владельца специальных навыков, интерфейс, в особенности сенсорный, позволяет довольно легко нарыть и запустить необходимое приложение. Но для написания постов в соцсети по-прежнему требуется быть в курсе раскладку клавиатуры, так что некоторым приходится длительно набивать контент двумя пальцами. Облегчат их участь голосовые интерфейсы, которые все шире применяются в различных устройствах. Возможность нетрудно надиктовать текст уже доступна многим. А если голосовой ввод невозможен, остается развести руками. Или помахать, или обрисовать круг - это зависит от того, какую команду вы хотите вручить системе управления жестами, которые часто бывают реализованы в технике, управляемой голосом.

Отдать указание голосом или жестом просто, но теперешний порядок техники позволяет не задумываться более того над произношением. Ведутся работы по управлению взглядом, а уж самое прямое общение между человеком и компьютером - читка мыслей. Точнее, управление мыслью, которое на текущем технологическом уровне уже разрешено реализовать даже с помощью недорогих устройств. К чему ведет такое влечение дать что ни на есть немудрёный технология ввода? Не упрощается ли пользователь вместе с тем с усложнением машины?

Легкое исчезновение клавиатуры

Начало 2000-х. "Лефт, лефт, оупен". Курсор скачет по иконкам и послушно открывает указанную программу. Отлично - голосовой ввод работает на КПК. Поход на кухню и попытка продемонстрировать возможности голосового ввода расставляют точки над i - даже гул льющейся воды нарушает работу системы распознавания. Приходится возвратиться к вводу с сенсорного экрана.

Собственно, сам ввод с экрана был большим шагом если не к естественным интерфейсам, то к упрощению взаимодействия с компьютером. Выучить раскладку клавиатуры удается не каждому взрослому, а разблокировать экран и запустить нужное приложение под силу даже ребенку. При переходе от обычных телефонов к смартфонам, на которых нужно отобразить не несложно набираемый номер, а итог действия разнообразных программ, сенсорный дисплей оказался как воспрещено кстати. Зачем утяжелять телефон клавиатурой и занимать кнопками место, когда все действия позволительно реализовать с экрана? Когда нужно - количество сенсорного экрана показывает клавиатуру, когда клавиатура не нужна - она исчезает. Так что распространение мобильных технологий ускорило переход на сенсорные экраны. Знаковым в этом плане стал выход очередной "настольной" операционной системы Microsoft - фирма оптимизировала Windows 8 под работу с сенсорным интерфейсом.

Несмотря на внешнее однообразие, сенсорные дисплеи продолжают развиваться. Так, емкостные технологии позволили ввести технологию multitouch (распознавание нескольких одновременных касаний) - это также шаг к больше естественным интерфейсам. Стало возможным изменять габарит графических элементов, к примеру фотографий, сдвигая и раздвигая пальцы - полностью соответствует естественным движениям. Технологии Swype и ХТ9 дают пользователю вероятность без затей скользнуть пальцем по буквам экранной клавиатуры, а организация опосля сама соберет из них словечко или предложит возможные альтернативы - получается быстрее, чем набирать текст вручную. К нынешней зиме Sony Mobile научила свойский смартфон Xperia Solo "видеть" перст в нескольких сантиметрах от экрана, так что телефоном не возбраняется править даже в шерстяных перчатках. Еще более масштабно "подглядывание" экрана реализовано в Samsung SUR40 - 40-дюймовой панели со встроенным компьютером, созданной по технологии Microsoft PixelSense. Экран распознает в то же время до 50 касаний - разрешается трудиться впятером. А слой инфракрасных датчиков может снимать предметы, помещенные на поверхность SUR40. Причем программа сама пытается догадаться, чего хотел пользователь, начиная розыск фотографий в сети. Пока это скорее высокотехнологичная игрушка, но уже доступная бизнес-пользователям, а не просто экспонат в музее.

Четче ругайтесь

Если переход на сенсорный интерфейс обусловлен стремлением упростить взаимодействие с электроникой, совершить его более "человеческим" (ткнул пальцем - сработало), то ещё более естественным выглядит тяготение производителей освоить голосовое управление. Пожалуй, самая известная программа распознавания - Siri, но есть аналогичные функции в смартфонах со всеми самыми популярными ОС: Android, Blackberry, Windows Phone. В целом они позволяют надиктовывать текст для заметок и SMS, запросы на поисковых страницах, разыскивать адрес ближайшей кофейни, прогноз погоды, билеты и т. п. Фактически мы перешли на устные приказы слуге от указаний записочками.

По сравнению с системами голосового распознавания десятилетней давности отличалка разительная - не надобно долговременно обучать систему своему произношению, в настоящий момент она не сбивается от малейшего шума (но дюжий по-прежнему не любит). Хотя до идеального распознавания еще неблизко - необходимо старательно выговаривать отдельные слова, и ошибки все одинаково случаются. Но свойство "перевода" у разных программ сопоставимое. Объяснение этому простое: в текущее время можно не расходовать ресурсы на разработку собственных алгоритмов, а применять готовые решения. Например, библиотека Ndev компании Nuance просто встраивается в программу, и качество распознавания будет высоким. По неофициальным данным, алгоритмы этой компании использует Apple в Siri. Известно также, что алгоритмы распознавания Nuance Communication используются в телевизорах Samsung и в новых автомобилях Ford. Машины в то время как не тронутся с места по вашему повелению, но их медиасистема готова к вам прислушаться. Что касается телевизора, то он допускает управление не только исходным меню - в ноябре была анонсирована возможность голосового управления приложением Play, позволяющим проигрывать фильмы из интернет-кинотеатра. Так что производитель может расширять припас слов, тот, что понимает телевизор, и совершенно возможно, что в будущем мы сможем влетать без пульта.

По мнению Виталия Юрченко, сотрудника компании Nuance, принципиальных проблем в распознавании языков нет: "Если уж удалось сладить с такими сложными языками, как финский или китайский, в котором значимость имеет даже тон, то и с другими языками проблем не будет". Для наиболее распространенных языков (включая русский) разработаны акустические модели, которые облегчают ход распознавания и в результате дают возможность распознавать звук на смартфоне (навигаторе, телевизоре и т. п.) без подключения к сети.

Современная тенденция в голосовых интерфейсах - служба над пониманием "смысла" сказанного. О разумности компьютера речи опять-таки не идет, но современные алгоритмы целиком способны из произвольной фразы вытянуть информацию, необходимую данной программе или сервису. Именно системами голосового распознавания, а не только качеством "перевода" звуков в слова определяется ценность сервиса. Хорошо, когда есть контекст и билетному сервису надо выловить только даты путешествия и наименование пункта прилета. А если запрос задан так: "Куда-нибудь в теплые страны"? В этом направлении ведутся масштабные работы. В частности, российская группа ABBYY разрабатывает лингвистическую платформу Compreno. Теоретически такая система должна снабдить перевод, разбор и разумение текстов на естественных языках. От обычного перевода это будет выделяться тем, что будут учитываться нрав текста и другие нюансы, влияющие на смысл. Кроме того, в ее рамках будет разработана система интеллектуального поиска, который ищет ответы не по ключевым словам, а по общему смыслу вопроса. Более того, она нацелена на извлечение новых фактов, связей между объектами поиска или мониторинга, а кроме того на определение авторства текстов. Еще единственный стезя улучшения распознавания - привосокупить анализ мимики. Ведь когда мы видим движение губ собеседника, то лучше понимаем его.

Профессор Александр Рыжов, преподаватель МГУ и школы IT-менеджмента РАНХиГС при президенте РФ, специализирующийся на системах с нечеткой логикой, которые используются для распознавания звуков и образов, считает: "В распознавании есть проблемы, когда непочатый край "дикторов" и полно "команд". В большинстве же ситуаций число команд шибко ограничено (не будете же вы обсуждать с телевизором или чайником проблемы мироздания?), численность "дикторов" - тоже (семья). Я думаю, быстро голос и жесты заменят пульты, капельку позже нейроинтерфейсы (возможно, с дополнительной техникой типа очков) вытеснят остальные способы ввода".

Помахать компьютеру ручкой

Если уж мы сравнили голосовое распознавание с устными приказами, то управление жестами даже аналогий не требует. Вполне вестимо кивком условиться на предложенный фужер с шампанским или взмахом руки выказать направление, в котором удалился разыскиваемый коллега. Проще всего оказалось снимать жесты на камеру и распознавать их. Именно так поступил Microsoft, создавая игровую приставку Kinect. Геймер может управлять игровым процессом, двигая руками и ногами. Оператор "Билайн" ещё реализовал ТВ-приставку на базе Xbox, которой можно управлять голосом и жестами, можно даже надиктовывать сообщения в Twitter. Скорее всего, как раз их совместное применение будет востребовано. Если провести аналогию, то голос - это "клавиатура" для длинных текстов, а жесты - это "мышка" для быстрых действий в меню опций.

Наиболее показательно соединение управления голосом и жестами реализовано в одной из линеек телевизоров Samsung. Голосовое управление не работает, когда около чересчур громко, а если мы смотрим концерт или боевик? Искать пульт? И тут поможет управление жестами. Камеры, встроенные в телевизор, отслеживают жесты пользователя, позволяя переключать каналы. По цене телевизоры с технологиями распознавания голоса и жестов сопоставимы с моделями без таких возможностей, но с теми же диагональю и качеством матрицы, так что себестоимость новых технологий не так уж высока. Другое дело, что производители реализовывают их только в старших линейках, повышая их привлекательность.

Если гутарить о чисто жестовом управлении, то покуда это скорее экспериментальные решения. Например, Kinect применяется не только для игр - подразделение Microsoft Research создает с его помощью решения в медицине и других сферах. Так, в больнице общего профиля штата Массачусетс разработана методика обследования на рак толстой кишки. В системе VCViewer доктор получает возможность управлять изображением органа жестами, не отвлекаясь от пациента. Решения такого типа менее массовые, но они затрагивают важнейшую область - самочувствие людей. Из развлекательных решений отметим возможность созидать с помощью Kinect трехмерные изображения объектов. А в проекте Light Space пользователь видит картинку из трехмерных объектов, а камера Kinect позволяет взаимодействовать с ними: двигать, переносить. Кроме игр такие решения могут быть применены, например, в дизайне.

Материальное напряжение мысли

Касание пальцем, жесты, проговаривание... а нужны ли нам посредники между мозгом и компьютером? Билл Гейтс предрекал, что нейроинтерфейсы придут в нашу бытие и мы будем знаться с компьютером напрямую. Уже имеющиеся устройства свидетельствуют, что это реально, но, похоже, на пути внедрения нейроинтерфейсов есть и серьезные проблемы.

К счастью, все обойдется без щупов, воткнутых в затылок. (Хотя братья Вачовски, возможно, рассчитывали на патентные отчисления и расстроятся.) Несколько лет кряду на CeBIT демонстрируется установка, в которой обыкновенный электроэнцефалограф (медицинский прибор, измеряющий токи в нейронах головного мозга) соединен с компьютером, на экране которого пользователь выбирает букву, которую хочет ввести. Основное употребление таких приборов - штудирование работы мозга пациентов, выявление патологий, но его также можно приспособить для печати небольших документов и несложных игр на компьютере для парализованных больных.

Упрощенные версии энцефалографа превратились в игровые манипуляторы. Они выглядят как головной обруч, который при подключении к компьютеру позволяет управлять играми силой мысли. Точность их невелика и большого распространения они пока не получили. Но российские ученые, образовавшие стартап NeuroG, считают, что, "обучив" прибор, введя в него типичные энцефалограммы тысяч испытуемых, можно будет добиться приемлемых результатов даже на недорогой (100-300 долларов) игровой приставке. Возможности современных нейроинтерфейсов прокомментировал Евгений Марченко, участник проекта NeuroG: "Насколько я знаю, у реально действующих систем прыть ввода информации невелика, нечасто превышает 30 бит в минуту ("да" или "нет" каждые две секунды). Это грубо соответствует одной букве каждые 10 секунд. Думаю, даже в самых быстрых экспериментах не преодолен предел 100 бит в минуту, скорость ввода еще зависит от процента ошибочно введенных символов - исследователи как правило удерживают ее в определенных пределах (20, 10, 5 процентов и меньше) исходя из поставленной задачи". По мнению Евгения Марченко, значительное воздействие на пунктуальность и скорость нейроинтерфейса оказывает момент обучения: "Как правило, его стараются соорудить как можно меньше, что существенно ограничивает скорость передачи данных. Предполагаю, что при достаточно долгом обучении (возможно, немного лет) без смены парадигмы даже с помощью современных "бюджетных" систем скорость можно довести до 300 бит в минуту". Что касается игр (а для более широкого применения мы можем перевести это в ориентацию в объемном пространстве), то, по словам Марченко, игровые нейроманипуляторы вполне справляются с платформенными играми, требующими четырех степеней свободы. А вот в полноценные шутеры (где требуется перемещаться по объемным помещениям, стрелять, сменять оружие) игрывать "мыслью" могут только единицы.

На рынке нейроинтерфейсов затишье - те же игровые нейроманипуляторы EPOC и NIA не снискали популярности, новые продукты без малого не появляются. Евгений Марченко считает, что энтузиазм угас потому, что не удалось постановить вопросительный мотив с ходу, сверх меры мала скорость нейроинтерфейсов, достигаемая при коротком обучении. Но при этом он отмечает, что такие организации, как DARPA, продолжают вкладывать большие средства в новые исследования в этой области.

Стремление к естественным интерфейсам ясно - хочется более комфортно водить знакомство с компьютером, и все-таки не каждая приятная вещь полезна. Так и переход на все более "человеческие" методы общения с компьютером может таить угроза для пользователя.

Мария Баулина, доцент кафедры клинической и специальной психологии Московского городского педагогического университета, предположила: "При переходе на голосовой интерфейс дядя может лишиться таковой высшей психической функции, как письменная речь: отпадет надобность в освоении орфографии, фонетического состава слова. Кроме того, голосовой ввод требует навыка качественного стилистического построения предложений, что многим людям дается нелегко. Придется всегда корректировать текст, а работать это значительно проще, печатая на клавиатуре. Поэтому такое превосходство голосового ввода, как быстрота, может нивелироваться. Что касается нейроинтерфейсов, то пользователям будет тяжело пользоваться им длительное время, так как постоянное удерживание в фокусе внимания отдельных букв или слов потребует больших энергозатрат организма. Традиционный же схема печати выполняется преимущественно за счет автоматизированных навыков, которые обеспечиваются фоновой активностью нейронов.

Считается, что нейроинтерфейс может сделаться спасением для инвалидов. Однако аккурат они будут проверять самые большие сложности при использовании этого метода, потому что зачастую им сложнее концентрировать внимание, чем здоровым людям". Кроме того, Мария Баулина высказала предположение, что у пользователей могут появиться проблемы со здоровьем из-за гиподинамии: явление жировых отложений на внутренних органах, понижение тонуса мышц, адаптивных возможностей сердечно-сосудистой системы. Многие офисные сотрудники и так зачастую страдают от лишнего веса и недостатка движения, а при активной работе мозга надобность в пище усилится, в то миг как физическая активность снизится до минимума.

________________

Читайте также в новом номере журнала Эксперт в понедельник:

- Хрупкий мир в Норильске
Приход Романа Абрамовича в "Норникель" положит финал конфликту акционеров. А также откроет дорогу к созданию крупного горно-металлургического холдинга

- Не лечить, а зарабатывать
Государство начинает отдавать клиники в концессию. Без установления адекватных тарифов в здравоохранении и улучшения законодательной базы это может привести к сокращению госрасходов на медицину и уменьшению доли бесплатных медуслуг


- В инфраструктурном плену
Критичная обстановка на федеральной автомобильной трассе Москва-Санкт-Петербург с перманентными заторами будет длиться ещё как самое меньшее пять лет. Только к 2019 году на этом направлении для пассажиров и грузов должны нарисоваться альтернативы, для других проблемных дорог России альтернатив пока нет видно вовсе


Комментариев: [0] / Оставить комментарий

Keywords:

распознавания, голосового распознавания, распознавания результате, распознавания голоса, распознавания звуков, распознавания nuance, распознавания siri, распознавания Приходится, распознавания будет, распознавания неблизко


=============

=============










Продукты компании Iobit



ВСЕГДА НОВЫЕ ДРАЙВЕРА