Добавить в избранное





Лефт, лефт, оупен


С момента создания первого компьютера прослеживается тенденция к упрощению интерфейса взаимодействия с ним. Сначала инфа вводилась в компьютеры переключателями, а "общение" велось в машинных кодах, известных узкому кругу программистов. Переход на перфокарты, а после этого на привычные нам устройства ввода - клавиатуру и мышка - позволил упростить и интерфейсы взаимодействия. Программировать на первых персональных компьютерах было способно большинство технически подкованных людей, а уж с играми справлялись и далекие от техники пользователи. Правда, чтобы запустить игру, требовалось выучить десяток-другой команд, понимать, что такое дерево каталогов... или кликать на поддержка знакомого, сведущего в IT.

Современный компьютер не требует от владельца специальных навыков, интерфейс, в особенности сенсорный, позволяет довольно несложно сыскать и запустить необходимое приложение. Но для написания постов в соцсети по-прежнему требуется располагать информацией раскладку клавиатуры, так что некоторым приходится продолжительно набивать контент двумя пальцами. Облегчат их участь голосовые интерфейсы, которые все шире применяются в различных устройствах. Возможность без затей надиктовать текст уже доступна многим. А если голосовой ввод невозможен, остается развести руками. Или помахать, или обрисовать круг - это зависит от того, какую команду вы хотите вручить системе управления жестами, которые зачастую бывают реализованы в технике, управляемой голосом.

Отдать указание голосом или жестом просто, но нынешний порядок техники позволяет не задумываться более того над произношением. Ведутся работы по управлению взглядом, а уж самое прямое общение между человеком и компьютером - читка мыслей. Точнее, управление мыслью, которое на текущем технологическом уровне уже разрешается реализовать даже с помощью недорогих устройств. К чему ведет такое тяготение дать что ни на есть несложный метод ввода? Не упрощается ли пользователь в то же время с усложнением машины?

Легкое исчезновение клавиатуры

Начало 2000-х. "Лефт, лефт, оупен". Курсор скачет по иконкам и послушно открывает указанную программу. Отлично - голосовой ввод работает на КПК. Поход на кухню и попытка продемонстрировать возможности голосового ввода расставляют точки над i - даже гул льющейся воды нарушает работу системы распознавания. Приходится возвратиться к вводу с сенсорного экрана.

Собственно, сам ввод с экрана был большим шагом если не к естественным интерфейсам, то к упрощению взаимодействия с компьютером. Выучить раскладку клавиатуры удается не каждому взрослому, а разблокировать экран и запустить нужное приложение под силу даже ребенку. При переходе от обычных телефонов к смартфонам, на которых надобно отобразить не нетрудно набираемый номер, а итог действия разнообразных программ, сенсорный дисплей оказался как запрещено кстати. Зачем утяжелять телефон клавиатурой и занимать кнопками место, когда все действия разрешено претворить в жизнь с экрана? Когда нужно - доля сенсорного экрана показывает клавиатуру, когда клавиатура не нужна - она исчезает. Так что распространение мобильных технологий ускорило переход на сенсорные экраны. Знаковым в этом плане стал выход очередной "настольной" операционной системы Microsoft - фирма оптимизировала Windows 8 под работу с сенсорным интерфейсом.

Несмотря на внешнее однообразие, сенсорные дисплеи продолжают развиваться. Так, емкостные технологии позволили ввести технологию multitouch (распознавание нескольких одновременных касаний) - это также шаг к больше естественным интерфейсам. Стало возможным изменять охват графических элементов, в частности фотографий, сдвигая и раздвигая пальцы - полностью соответствует естественным движениям. Технологии Swype и ХТ9 дают пользователю вероятность легко скользнуть пальцем по буквам экранной клавиатуры, а организация вслед за тем сама соберет из них словечко или предложит возможные альтернативы - получается быстрее, чем набирать текст вручную. К нынешней зиме Sony Mobile научила наш смартфон Xperia Sola "видеть" перст в нескольких сантиметрах от экрана, так что телефоном не возбраняется править даже в шерстяных перчатках. Еще более масштабно "подглядывание" экрана реализовано в Samsung SUR40 - 40-дюймовой панели со встроенным компьютером, созданной по технологии Microsoft PixelSense. Экран распознает вместе с тем до 50 касаний - позволительно действовать впятером. А слой инфракрасных датчиков может снимать предметы, помещенные на поверхность SUR40. Причем программа сама пытается догадаться, чего хотел пользователь, начиная розыск похожих фотографий в сети. Пока это скорее высокотехнологичная игрушка, но уже доступная бизнес-пользователям, а не просто экспонат в музее.

Четче ругайтесь

Если переход на сенсорный интерфейс обусловлен стремлением упростить взаимодействие с электроникой, соорудить его более "человеческим" (ткнул пальцем - сработало), то ещё более естественным выглядит влечение производителей освоить голосовое управление. Пожалуй, самая известная программа распознавания - Siri, но есть аналогичные функции в смартфонах со всеми самыми популярными ОС: Android, Blackberry, Windows Phone. В целом они позволяют надиктовывать текст для заметок и SMS, запросы на поисковых страницах, разыскивать адрес ближайшей кофейни, прогноз погоды, билеты и т. п. Фактически мы перешли на устные приказы слуге от указаний записочками.

По сравнению с системами голосового распознавания десятилетней давности отличалка разительная - не необходимо длительно обучать систему своему произношению, в настоящее время она не сбивается от малейшего шума (но дюжий по-прежнему не любит). Хотя до идеального распознавания еще неблизко - нужно старательно выговаривать отдельные слова, и ошибки все одинаково случаются. Но свойство "перевода" у разных программ сопоставимое. Объяснение этому простое: в текущий момент можно не расходовать ресурсы на разработку собственных алгоритмов, а применять готовые решения. Например, библиотека Ndev компании Nuance просто встраивается в программу, и качество распознавания будет высоким. По неофициальным данным, алгоритмы этой компании использует Apple в Siri. Известно также, что алгоритмы распознавания Nuance Communication используются в телевизорах Samsung и в новых автомобилях Ford. Машины покуда не тронутся с места по вашему повелению, но их медиасистема готова к вам прислушаться. Что касается телевизора, то он допускает управление не только исходным меню - в ноябре была анонсирована возможность голосового управления приложением Play, позволяющим проигрывать фильмы из интернет-кинотеатра. Так что производитель может расширять припас слов, тот, что понимает телевизор, и совершенно возможно, что в будущем мы сможем стоить без пульта.

Недорогой игровой манипулятор позволяет игрывать в компьютерные игры силой мысли expert_831_067.jpg Недорогой игровой манипулятор позволяет играть в компьютерные игры силой мысли

По мнению Виталия Юрченко, сотрудника компании Nuance, принципиальных проблем в распознавании языков нет: "Если уж удалось сладить с такими сложными языками, как финский или китайский, в котором важность имеет даже тон, то и с другими языками проблем не будет". Для наиболее распространенных языков (включая русский) разработаны акустические модели, которые облегчают ход распознавания и в результате дают возможность распознавать звук на смартфоне (навигаторе, телевизоре и т. п.) без подключения к сети.

Современная тенденция в голосовых интерфейсах - служба над пониманием "смысла" сказанного. О разумности компьютера речи опять-таки не идет, но современные алгоритмы целиком способны из произвольной фразы выудить информацию, необходимую данной программе или сервису. Именно системами голосового распознавания, а не только качеством "перевода" звуков в слова определяется ценность сервиса. Хорошо, когда есть контекст и билетному сервису надо выловить только даты путешествия и наименование пункта прилета. А если запрос задан так: "Куда-нибудь в теплые страны"? В этом направлении ведутся масштабные работы. В частности, российская группа ABBYY разрабатывает лингвистическую платформу Compreno. Теоретически такая система должна снабдить перевод, разбор и постижение текстов на естественных языках. От обычного перевода это будет выделяться тем, что будут учитываться нрав текста и другие нюансы, влияющие на смысл. Кроме того, в ее рамках будет разработана система интеллектуального поиска, который ищет ответы не по ключевым словам, а по общему смыслу вопроса. Более того, она нацелена на извлечение новых фактов, связей между объектами поиска или мониторинга, а ещё на определение авторства текстов. Еще единственный тракт улучшения распознавания - прибавить анализ мимики. Ведь когда мы видим движение губ собеседника, то лучше понимаем его.

Профессор Александр Рыжов, преподаватель МГУ и школы IT-менеджмента РАНХиГС при президенте РФ, специализирующийся на системах с нечеткой логикой, которые используются для распознавания звуков и образов, считает: "В распознавании есть проблемы, когда полно "дикторов" и непочатый край "команд". В большинстве же ситуаций численность команд весьма ограничено (не будете же вы обсуждать с телевизором или чайником проблемы мироздания?), число "дикторов" - тоже (семья). Я думаю, резво голос и жесты заменят пульты, едва позже нейроинтерфейсы (возможно, с дополнительной техникой типа очков) вытеснят остальные способы ввода".

Помахать компьютеру ручкой

Если уж мы сравнили голосовое распознавание с устными приказами, то управление жестами даже аналогий не требует. Вполне конечно кивком сладиться на предложенный фужер с шампанским или взмахом руки представить направление, в котором удалился разыскиваемый коллега. Проще всего оказалось снимать жесты на камеру и распознавать их. Именно так поступил Microsoft, создавая игровую приставку Kinect. Геймер может управлять игровым процессом, двигая руками и ногами. Оператор "Билайн" кроме того реализовал ТВ-приставку на базе Xbox, которой посредством Kinect можно управлять голосом и жестами, а также надиктовывать сообщения в Twitter. Скорее всего, аккурат их совместное употребление будет востребовано. Если провести аналогию, то голос - это "клавиатура" для длинных текстов, а жесты - это "мышка" для быстрых действий в меню опций.

Наиболее показательно соединение управления голосом и жестами реализовано в телевизорах Samsung с функцией Smart Interaction. Голосовое управление не работает, когда кругом уж очень громко, а если мы смотрим концерт или боевик? Искать пульт? И тут поможет управление жестами. Камеры, встроенные в телевизор, отслеживают жесты пользователя, позволяя переключать каналы. По цене телевизоры с технологиями распознавания голоса и жестов сопоставимы с моделями без таких возможностей, но с теми же диагональю и качеством матрицы, так что себестоимость новых технологий не так уж высока. Другое дело, что производители реализовывают их только в старших линейках, повышая их привлекательность.

Если вещать о чисто жестовом управлении, то в то время как это скорее экспериментальные решения. Например, Kinect применяется не только для игр - подразделение Microsoft Research создает с его помощью решения в медицине и других сферах. Так, в больнице общего профиля штата Массачусетс разработана методика обследования на рак толстой кишки. В системе VCViewer эскулап получает возможность управлять изображением органа жестами, не отвлекаясь от пациента. Решения такого типа менее массовые, но они затрагивают важнейшую область - самочувствие людей. Из развлекательных решений отметим возможность творить с помощью Kinect трехмерные изображения объектов. А в проекте Light Space пользователь видит картинку из трехмерных объектов, а камера Kinect позволяет взаимодействовать с ними: двигать, переносить. Кроме игр такие решения могут быть применены, например, в дизайне.

Материальное напряжение мысли

Касание пальцем, жесты, проговаривание... а нужны ли нам посредники между мозгом и компьютером? Билл Гейтс предрекал, что нейроинтерфейсы придут в нашу существование и мы будем контактировать с компьютером напрямую. Уже имеющиеся устройства свидетельствуют, что это реально, но, похоже, на пути внедрения нейроинтерфейсов есть и серьезные проблемы.

К счастью, все обойдется без щупов, воткнутых в затылок. (Хотя брат и сестра Вачовски, возможно, рассчитывали на патентные отчисления и расстроятся.) Несколько лет кряду на CeBIT демонстрируется установка, в которой простой электроэнцефалограф (медицинский прибор, измеряющий токи в нейронах головного мозга) соединен с компьютером, на экране которого пользователь выбирает букву, которую хочет ввести. Основное употребление таких приборов - штудирование работы мозга пациентов, выявление патологий, но его также можно приспособить для печати небольших документов и несложных игр на компьютере для парализованных больных.

Упрощенные версии энцефалографа превратились в игровые манипуляторы. Они выглядят как головной обруч, который при подключении к компьютеру позволяет управлять играми силой мысли. Точность их невелика и большого распространения они пока не получили. Но российские ученые, образовавшие стартап NeuroG, считают, что, "обучив" прибор, введя в него типичные энцефалограммы тысяч испытуемых, можно будет добиться приемлемых результатов даже на недорогой (100-300 долларов) игровой приставке. Возможности современных нейроинтерфейсов прокомментировал Евгений Марченко, участник проекта NeuroG: "Насколько я знаю, у реально действующих систем прыть ввода информации невелика, нечасто превышает 30 бит в минуту ("да" или "нет" каждые две секунды). Это эдак соответствует одной букве каждые 10 секунд. Думаю, даже в самых быстрых экспериментах не преодолен предел 100 бит в минуту, скорость ввода еще зависит от процента ошибочно введенных символов - исследователи заурядно удерживают ее в определенных пределах (20, 10, 5 процентов и меньше) исходя из поставленной задачи". По мнению Евгения Марченко, значительное воздействие на аккуратность и скорость нейроинтерфейса оказывает период обучения: "Как правило, его стараются произвести как можно меньше, что существенно ограничивает скорость передачи данных. Предполагаю, что при достаточно долгом обучении (возможно, немного лет) без смены парадигмы даже с помощью современных "бюджетных" систем скорость можно довести до 300 бит в минуту". Что касается игр (а для более широкого применения мы можем перевести это в ориентацию в объемном пространстве), то, по словам Марченко, игровые нейроманипуляторы вполне справляются с платформенными играми, требующими четырех степеней свободы. А вот в полноценные шутеры (где требуется перемещаться по объемным помещениям, стрелять, сменять оружие) играть "мыслью" могут только единицы.

На рынке нейроинтерфейсов затишье - те же игровые нейроманипуляторы EPOC и NIA не снискали популярности, новые продукты без малого не появляются. Евгений Марченко считает, что энтузиазм угас потому, что не удалось постановить вопросительный мотив с ходу, чересчур мала скорость нейроинтерфейсов, достигаемая при коротком обучении. Но при этом он отмечает, что такие организации, как DARPA, продолжают вкладывать большие средства в новые исследования в этой области.

Стремление к естественным интерфейсам ясно - хочется более комфортно знаться с компьютером, при всем при том не каждая приятная вещь полезна. Так и переход на все более "человеческие" методы общения с компьютером может таить угроза для пользователя.

Мария Баулина, доцент кафедры клинической и специальной психологии Московского городского педагогического университета, предположила: "При переходе на голосовой интерфейс дядя может лишиться эдакий высшей психической функции, как письменная речь: отпадет надобность в освоении орфографии, фонетического состава слова. Кроме того, голосовой ввод требует навыка качественного стилистического построения предложений, что многим людям дается нелегко. Придется всю дорогу корректировать текст, а совершать это значительно проще, печатая на клавиатуре. Поэтому такое превосходство голосового ввода, как быстрота, может нивелироваться. Что касается нейроинтерфейсов, то пользователям будет тяжко пользоваться им длительное время, так как постоянное удерживание в фокусе внимания отдельных букв или слов потребует больших энергозатрат организма. Традиционный же технология печати выполняется преимущественно за счет автоматизированных навыков, которые обеспечиваются фоновой активностью нейронов.

Считается, что нейроинтерфейс может сделаться спасением для инвалидов. Однако как раз они будут проверять самые большие сложности при использовании этого метода, потому что зачастую им сложнее концентрировать внимание, чем здоровым людям". Кроме того, Мария Баулина высказала предположение, что у пользователей могут предстать проблемы со здоровьем из-за гиподинамии: явление жировых отложений на внутренних органах, понижение тонуса мышц, адаптивных возможностей сердечно-сосудистой системы. Многие офисные сотрудники и так зачастую страдают от лишнего веса и недостатка движения, а при активной работе мозга надобность в пище усилится, в то момент как физическая активность снизится до минимума.


Комментариев: [0] / Оставить комментарий

Keywords:

распознавания, голосового распознавания, распознавания результате, распознавания голоса, распознавания звуков, распознавания nuance, распознавания siri, распознавания Приходится, распознавания будет, распознавания неблизко


=============

=============










Продукты компании Iobit



ВСЕГДА НОВЫЕ ДРАЙВЕРА