пн-пт: 9:00 - 18:00
8 (812) 386-99-80
Санкт-Петербург
8 (495) 988-99-80
Москва
обратный звонок

28 февраля 2012  Сложности индийской локализации

Наличие цифровой разобщенности в век компьютеров представляет собой самое сложное препятствие на пути к реализации цели Интернета в целом – созданию единого мирового сообщества.

Простыми словами, все проблемы можно разделить на два типа. Первая – проблема доступа к компьютерам – не к машине непосредственно, имеется в виду возможность использовать компьютер на том языке, который ты знаешь. Вторая проблема заключается в недостатке контента, или «знаний», как стало модно говорить сегодня.

В основе своей проблема доступа к компьютерам, понимающаяся не как наличие устройства, а возможность использовать его на родном языке, возникает из-за частого отсутствия возможности дать компьютеру понять, чего же от него хочет человек. Первые исследователи вычислений на индийских языках даже разработали отдельную систему символов, но быстро пришли к необходимости ввести промежуточный, более универсальный «язык».

Принятия Юникода в качестве универсального стандарта для локализации стало «фундаментальным освобождением», так как позволяет распознавать шрифты в любом формате, независимо от платформ и операционных систем, - рассказал Мегхашиям Каранам, руководитель проекта локализации Microsoft India. Юникод быстро вырос и стал в компьютерной индустрии стандартом кодирования, представления и работы с текстом, в котором представлены почти все системы письменности мира. В последней версии Юникод 6.1 содержится более 110000 символов ста письменных систем.

Поняв, что недостаточное развития компьютерных технологий на индийских языках ущемляет интересы компании, Microsoft вскоре после визита Билла Гейтса в Индию в 1998 году взяла курс на локализацию своего программного обеспечения на индийские языки.

К 2000 стал поддерживаться хинди. Сейчас поддерживаются 12 индийских языков. Многие пакеты программ компании, включая Office, теперь поддерживают хотя бы несколько индийских языков.

Прадип Параппил, ведущий продукт-менеджер Windows в Microsoft India, сказал, что уже сегодня компания предоставляет двух- и трёхъязычные словари, доступные для свободного скачивания.

СОЗДАНИЕ КОНТЕНТА

Не смотря на то, что проблема доступа является основной, создание контента на индийских языках так же остается проблемой. Как объяснил г-н Каранам, у нее две стороны: во-первых, это огромное количество неоцифрованного контента на индийских языках; во-вторых, это еще и вопрос перевода контента с индийских языков на английский и другие.

Как объяснил г-н Каранам, машинный перевод, использующий специальные программы для перевода текста или речи с одного естественного языка на другой для того, чтобы работать правильно, тоже требует огромной базы материалов на том или ином языке. Недостаток цифровой информации порождает самого себя.

Microsoft разработала WikiBrasha – многоязычное средство для создания контента, работающее с Википедией: её пользователи переводят английскую версию сайта на индийские языки.

Г-н Каранам уверен, что более широкое взаимодействие между индустрией, научным обществом и создателями уникального контента на индийских языках просто необходимо для преодоления дефицита контента. «Языковые технологии», - сказал он - «развиваются, в том числе индийскими исследователями. Огромное количество контента уже накопилось в фильмах, телевидении и блогах, не считая газеты и книги. Вероятно, что совсем скоро цифровой мир осознает необходимость в толчке к развитию индийских языковых технологий».

По материалам
V.SRIDHAR
18 February 2012
http://www.thehindu.com/news/states/karnataka/article2907796.ece

Перевод: Нурсеитов Евгений