Невский пр., 80

пн-пт: 10:00 - 18:00
приём по записи

perevod@lca.ru

Санкт-Петербург обратный звонок

«Алфавит» › Компания › Блог › Ученый Google рассказал о будущем сервиса переводов Google Translate

6 января 2012 Ученый Google рассказал о будущем сервиса переводов Google Translate

В знаменитой серии научно-фантастических книг Дугласа Адамса «Автостопом по Галактике» обитатели разных планет пользовались Вавилонской Рыбкой – «маленьким, желтым, похожим на пиявку» созданием, которое использовало «энергию мозговых волн» для перевода речи в реальном времени.

Команда разработчиков Google работает над подобной технологией, используя статистические модели для перевода различных языков, включая африкаанс, в сети интернет и на мобильных телефонах, используя голосовой ввод и вывод совместно с текстом. Корреспондент TechCentral встретился с ученым исследовательского центра Google Translate Ашишом Венугопалом в штаб-квартире Google в кремниевой долине на прошлой неделе и расспросил его о составляющих частях эффективного перевода в реальном времени и о будущем технологии. Содержание интервью приведено ниже.

Вопрос: Сколько языков Google Translate поддерживает в настоящий момент?

Ответ: Поддерживается 63 языка. Это действительно много языков. Как нам удалось собрать столько данных? Если бы мы пытались вручную спрограммировать перевод всех 63 языков, это заняло бы вечность. Единственным способом справиться с такой задачей было использование мощи машинных вычислений. Мы создали статистические модели, которые автоматически постоянно самообучались и самосовершенствовались. Когда люди переводят что-то новое в сети, наша система замечает это, анализирует и учит новые слова и фразы. Наша система постоянно следит и анализирует весь Интернет. Это и есть статистический подход. Идея в том, что как только мы изучим основополагающую модель того, как говорится то или иное слово, мы сможем применить эту модель ко всем словам. У нас в памяти не хранятся абсолютно все слова, только модели.

В: Есть ли трудные языки, правильный перевод с которых становится сложной задачей?

О: Да, есть несколько невероятно сложных языков. Если ваш язык очень далёк от английского, к примеру, перевести ваш текст на английский будет очень сложно. Ми используем английский как основной язык, поэтому если вы, к примеру, будете переводить с русского на японский, система сначала перведет с русского на английский, а потом – с английского на японский.

Говоря о «сложных» языках, мы подразумеваем языки, очень далекие от английского. Есть языки, которые отличаются не в какой-то одной, но во многих областях.

Первый вопрос, с которым нужно разобраться – это порядок слов. В английском сначала ставится подлежащее, затем сказуемое и только потом – дополнения. В японском же сначала идет подлежащее, затем дополнения, а глагол ставится в самом конце. Нам нужно научить компьютер правильно переставлять слова в предложениях.

Мы не учим компьютер, как переводить каждое предложение. Мы даем ему лишь общие указания. Когда он сталкивается с новыми данными, он пользуется этими указаниями, сопоставляет их с новой информацией и потом выбирает модель, с помощью которой переводить текст.

Если мы говорим о более сложных языках, они более сложны как из-за различий в порядке слов, так и из-за различий в значении и употреблении слов. В английском вы говорите, что кладете телефон НА стол – «телефон» и «стол» - объекты, а «на» - дополнительное слово, раскрывающее суть происходящего. В других языках слово «на» может входить в состав слов «телефон» или «стол», поэтому нам нужно научить компьютер, что слово может быть как отдельно от объекта, так и входить в его состав.

Все эти проблемы легче решить, располагая бОльшим количеством информации. Мы запускаем поддержку новых языков тогда, когда чувствуем, что в них есть необходимость. У нас есть «альфа», или экспериментальные языки, для которых мы можем только запустить систему, но она не будет работать быстро и правильно – ей потребуется много времени и данных для самообучения.

В: Есть ли преграды, сдерживающие развитие технологии и каковы её перспективы на будущее?

О: Мы очень зависим от источников данных. Первой преградой для нового языка является вопрос, есть ли вообще в Сети источники данных на этом языке. Когда набирается достаточно контента и мы подключаем его к нашей системе…обычно всё работает очень хорошо. Чаще всего все остаются довольными результатом. Но однажды результат вас не удовлетворит.

Из-за статистического подхода к переводу можно получить абсолютно сумасшедший перевод нестандартной фразы. Мы как раз занимаемся тем, что стараемся сократить число подобных «сумасшедших» переводов и быть уверенными в том, что в любом случае перевод будет иметь правильный смысл. Все это действительно происходит из-за того, что мы используем статистическую систему. Мы построили её так, что вы можете ввести в неё буквально всё что угодно. Мы переведём всё, что вы введёте. Перевод может быть как плохим, так и хорошем, но в среднем он будет довольно впечатляющим.

Сейчас мы активно занимаемся совершенствованием системы для того, чтобы она не допускала грубых ошибок. Такие проблемы часто возникают в языках, сильно отличных от английского. В русском языке, к примеру, к словам с помощью различных частиц добавляется очень много информации, они становятся всё длиннее и длиннее, и часто ошибки возникают при переводе именно таких слов.

В недалёком будущем машинный перевод станет частью нашей повседневной жизни. Я утверждаю это с точки зрения «80/20», при которой 80% случаев использования будут давать эффективный результат. Оставшиеся 20% запросов машине будет перевести невероятно сложно. Это говорит о том, что машинный перевод не станет заменой человеческому переводу, и профессия переводчика останется востребованной. Во всяком случае, в ближайшем будущем.

Никто ведь не будет доверять машине перевод важной политической речи на 20 различных языков. Наша цель – не создание искусственного интеллекта. Наша цель в том, чтобы в 80% случаев вы смогли понять идею этой политической речи, пусть перевод будет и не совсем риторически и стилистически красивым.

В: Придет ли технология к мгновенному переводу речи в телефонах, сможем ли мы общаться с иностранцами в реальном времени?

О: Мы можем запустить подобную технологию уже сегодня, но не всё ведь сразу. Это не является нашей основной задачей. Это вопрос того, на чем мы фокусируемся в данный момент. Предстоит решить еще много вопросов, касающихся качества перевода, перед тем, как на основе существующих технологий запускать подобный сервис.

В: Будете ли вы продолжать выполнять переводы на облаке (удаленных серверах), или переложите эту задачу непосредственно на мобильные устройства, если они станут более производительными?

О: Любые решения мы принимаем, основываясь на уровне качества. Мы хотим, чтобы перевод наилучшего возможного качества предоставлялся пользователю в кратчайшее время. Пока что это возможно осуществить только используя удаленные серверы, но ситуация может измениться.

В: Какие виды вычислительной силы необходимы для работы Google Translate?

О: Мы полностью используем мощь поискового движка Google. Google Translate существует только благодаря разработкам, сделанным с области поиска.

В: Есть ли у вас команда лингвистов, работающих по всему свету?

О: У нас есть команда статистов, и все работают здесь (смеется). Это дело, на самом деле, направлено больше не на лингвистику. Конечно, лингвистика влияет на многие наши решения. Например, когда я работал над запуском индийских языков, я не использовал никаких лингвистических знаний. Я использовал Википедию и мою бабушку. Так что это чистой воды Википедия, статистика и моя бабушка. Это всё, что нам необходимо, чтобы запустить поддержку нового языка (смеется).

По материалам
Duncan McLeod
http://www.techcentral.co.za/googles-babel-fish-heralds-future-of-translation/28396/
9 January 2012

Перевод: Нурсеитов Евгений

К списку материалов