Фирма Linguamatics в Кембридже принимает участие в новом проекте, направленном на решение проблем, связанных с обработкой данных языковым программным обеспечением, использующим разнородные источники данных.
Для этого Linguamatics пришлось объединиться с Brandwatch и Сассекским Университетом. Их совместный проект финансируется Советом Тенологического Развития.
Цель проекта – улучшить автоматический сбор данных из научных работ, новостей и социальных медиа в целях исследований, планирования и маркетинга.
«Хорошие словари – ключевая часть «интеллектуального» сбора текстовой информации», - сказал глава отдела технологии Linguamatics доктор Дэвид Милвард.
«Этот проект поможет нам намного быстрее создавать и развивать словари, а так же более эффективно применять их в конкретных приложениях».
Настоящее поколение программ обработки языковых данных показало значительный успех в извлечении полезной информации из неструктурированного текста – будь то литература или социальные медиа.
Однако адаптация существующих технологий к какой-либо новой сфере деятельности становится очень сложным процессом: необходимо учитывать как тип данных, так и специальную терминологию, использующуюся в данном поле деятельности.
Люди сравнительно легко справляются с такими задачами, но только в рамках небольшого количества данных, однако при появлении задачи обработки огромного количества электронного текста возникают проблемы.
Компания Linguamatics, базирующаяся в Инновационном Центре Св.Джона, специализируется на применении сбора текста по технологии обработки естественного языка (NLP) для комплексного решения проблем.
По материалам
http://www.cambridgefirst.co.uk/business/new_project_to_boost_language_processing_1_1202701
9 February 2012
Перевод: Нурсеитов Евгений