пн-пт: 10:00 - 18:00
приём по записи

6 января 2012  Ученый Google рассказал о будущем сервиса переводов Google Translate

В знаменитой серии научно-фантастических книг Дугласа Адамса «Автостопом по Галактике» обитатели разных планет пользовались Вавилонской Рыбкой – «маленьким, желтым, похожим на пиявку» созданием, которое использовало «энергию мозговых волн» для перевода речи в реальном времени. 

Команда разработчиков Google работает над подобной технологией, используя статистические модели для перевода различных языков, включая африкаанс, в сети интернет и на мобильных телефонах, используя голосовой ввод и вывод совместно с текстом. Корреспондент TechCentral встретился с ученым исследовательского центра Google Translate Ашишом Венугопалом в штаб-квартире Google в кремниевой долине на прошлой неделе и расспросил его о составляющих частях эффективного перевода в реальном времени и о будущем технологии. Содержание интервью приведено ниже. 

Вопрос: Сколько языков Google Translate поддерживает в настоящий момент? 

Ответ: Поддерживается 63 языка. Это действительно много языков. Как нам удалось собрать столько данных? Если бы мы пытались вручную спрограммировать перевод всех 63 языков, это заняло бы вечность. Единственным способом справиться с такой задачей было использование мощи машинных вычислений. Мы создали статистические модели, которые автоматически постоянно самообучались и самосовершенствовались. Когда люди переводят что-то новое в сети, наша система замечает это, анализирует и учит новые слова и фразы. Наша система постоянно следит и анализирует весь Интернет. Это и есть статистический подход. Идея в том, что как только мы изучим основополагающую модель того, как говорится то или иное слово, мы сможем применить эту модель ко всем словам. У нас в памяти не хранятся абсолютно все слова, только модели. 


В: Есть ли трудные языки, правильный перевод с которых становится сложной задачей? 

О: Да, есть несколько невероятно сложных языков. Если ваш язык очень далёк от английского, к примеру, перевести ваш текст на английский будет очень сложно. Ми используем английский как основной язык, поэтому если вы, к примеру, будете переводить с русского на японский, система сначала перведет с русского на английский, а потом – с английского на японский. 

Говоря о «сложных» языках, мы подразумеваем языки, очень далекие от английского. Есть языки, которые отличаются не в какой-то одной, но во многих областях. 

Первый вопрос, с которым нужно разобраться – это порядок слов. В английском сначала ставится подлежащее, затем сказуемое и только потом – дополнения. В японском же сначала идет подлежащее, затем дополнения, а глагол ставится в самом конце. Нам нужно научить компьютер правильно переставлять слова в предложениях. 

Мы не учим компьютер, как переводить каждое предложение. Мы даем ему лишь общие указания. Когда он сталкивается с новыми данными, он пользуется этими указаниями, сопоставляет их с новой информацией и потом выбирает модель, с помощью которой переводить текст. 

Если мы говорим о более сложных языках, они более сложны как из-за различий в порядке слов, так и из-за различий в значении и употреблении слов. В английском вы говорите, что кладете телефон НА стол – «телефон» и «стол» - объекты, а «на» - дополнительное слово, раскрывающее суть происходящего. В других языках слово «на» может входить в состав слов «телефон» или «стол», поэтому нам нужно научить компьютер, что слово может быть как отдельно от объекта, так и входить в его состав. 

Все эти проблемы легче решить, располагая бОльшим количеством информации. Мы запускаем поддержку новых языков тогда, когда чувствуем, что в них есть необходимость. У нас есть «альфа», или экспериментальные языки, для которых мы можем только запустить систему, но она не будет работать быстро и правильно – ей потребуется много времени и данных для самообучения. 


В: Есть ли преграды, сдерживающие развитие технологии и каковы её перспективы на будущее? 

О: Мы очень зависим от источников данных. Первой преградой для нового языка является вопрос, есть ли вообще в Сети источники данных на этом языке. Когда набирается достаточно контента и мы подключаем его к нашей системе…обычно всё работает очень хорошо. Чаще всего все остаются довольными результатом. Но однажды результат вас не удовлетворит. 

Из-за статистического подхода к переводу можно получить абсолютно сумасшедший перевод нестандартной фразы. Мы как раз занимаемся тем, что стараемся сократить число подобных «сумасшедших» переводов и быть уверенными в том, что в любом случае перевод будет иметь правильный смысл. Все это действительно происходит из-за того, что мы используем статистическую систему. Мы построили её так, что вы можете ввести в неё буквально всё что угодно. Мы переведём всё, что вы введёте. Перевод может быть как плохим, так и хорошем, но в среднем он будет довольно впечатляющим. 

Сейчас мы активно занимаемся совершенствованием системы для того, чтобы она не допускала грубых ошибок. Такие проблемы часто возникают в языках, сильно отличных от английского. В русском языке, к примеру, к словам с помощью различных частиц добавляется очень много информации, они становятся всё длиннее и длиннее, и часто ошибки возникают при переводе именно таких слов. 

В недалёком будущем машинный перевод станет частью нашей повседневной жизни. Я утверждаю это с точки зрения «80/20», при которой 80% случаев использования будут давать эффективный результат. Оставшиеся 20% запросов машине будет перевести невероятно сложно. Это говорит о том, что машинный перевод не станет заменой человеческому переводу, и профессия переводчика останется востребованной. Во всяком случае, в ближайшем будущем. 

Никто ведь не будет доверять машине перевод важной политической речи на 20 различных языков. Наша цель – не создание искусственного интеллекта. Наша цель в том, чтобы в 80% случаев вы смогли понять идею этой политической речи, пусть перевод будет и не совсем риторически и стилистически красивым. 


В: Придет ли технология к мгновенному переводу речи в телефонах, сможем ли мы общаться с иностранцами в реальном времени? 

О: Мы можем запустить подобную технологию уже сегодня, но не всё ведь сразу. Это не является нашей основной задачей. Это вопрос того, на чем мы фокусируемся в данный момент. Предстоит решить еще много вопросов, касающихся качества перевода, перед тем, как на основе существующих технологий запускать подобный сервис. 


В: Будете ли вы продолжать выполнять переводы на облаке (удаленных серверах), или переложите эту задачу непосредственно на мобильные устройства, если они станут более производительными? 

О: Любые решения мы принимаем, основываясь на уровне качества. Мы хотим, чтобы перевод наилучшего возможного качества предоставлялся пользователю в кратчайшее время. Пока что это возможно осуществить только используя удаленные серверы, но ситуация может измениться. 


В: Какие виды вычислительной силы необходимы для работы Google Translate? 

О: Мы полностью используем мощь поискового движка Google. Google Translate существует только благодаря разработкам, сделанным с области поиска. 


В: Есть ли у вас команда лингвистов, работающих по всему свету? 

О: У нас есть команда статистов, и все работают здесь (смеется). Это дело, на самом деле, направлено больше не на лингвистику. Конечно, лингвистика влияет на многие наши решения. Например, когда я работал над запуском индийских языков, я не использовал никаких лингвистических знаний. Я использовал Википедию и мою бабушку. Так что это чистой воды Википедия, статистика и моя бабушка. Это всё, что нам необходимо, чтобы запустить поддержку нового языка (смеется). 



По материалам 
Duncan McLeod 
http://www.techcentral.co.za/googles-babel-fish-heralds-future-of-translation/28396/ 
9 January 2012 

Перевод: Нурсеитов Евгений