23.06.2019 20:20

Актуальные прикладные задачи компьютерной лингвистики XXI века

Актуальные прикладные задачи компьютерной лингвистики XXI века

Компьютерная лингвистика является направлением в прикладной лингвистике, ориентированным на использование компьютерных инструментов (программ, специальных технологий организации и обработки данных) для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т. д. [3]. Компьютерные программы позволяют систематизировать и упорядочивать не только словообразовательные, синтаксические модели, но и распознавать в тексте многозначность, дифференцировать омонимы, синонимы, антонимы, т.е. обеспечивают полноценную работу с текстом [2]. Наряду с указанными задачами, специалисты в области компьютерной лингвистики решают проблему систематизации текстов, создания так называемых гипертекстов, которые размещаются в специализированных базах [4]. Для этих целей разрабатываются специфические алгоритмы распознавания значений, распознавания и анализа структуры текстов, алгоритмы систематизации текстовой информации на базе общих лексико-фразеологических, синтаксических и других языковых элементов [5].

Общеизвестно, что в каждом национальном языке выработана своя образная система, в которой отражен национальный менталитет, заложены истоки национальной культуры и национального мировидения. Отсюда уникальная, специфичная для конкретного языка система фразеологических оборотов, пословиц, поговорок, афоризмов, устойчивых фольклорных сюжетов [2]. В лингвистике активно функционирует понятие «лингвокультурный концепт» как система закрепленных в языке образов, метафор, реализованных в различных языковых элементах [1]. Исходя из этого, мы считаем, что основной из важнейших, актуальнейших задач современной компьютерной лингвистики является электронная систематизация лингвокультурных концептов, создание электронных баз этих концептов.

Если рассматривать фольклорные тексты, то, как нам представляется, необходимо создавать специальные алгоритмы классификации и анализа текстов с опорой на принцип текстового контент-анализа, на электронные словари и классификаторы. Кроме того, по нашему убеждению, устойчивая сюжетная основа фольклорных текстов в определенной мере будет упрощать работу алгоритмов поиска ключевых фраз, отдельных слов, которые обязательно повторяются в разных вариантах воспроизведения одного и того же текста.

На наш взгляд, в современной компьютерной лингвистике очень не хватает корпусов фольклорных текстов. Полагаем, что насущная потребность в них обусловлена тем, что невозможно изучать национальную культуру, традиции, нравы вне опоры на язык устного народного творчества. В компьютерной лингвистике под «корпусом» понимается электронный структурированный массив языковых единиц [4]. Процесс создания корпуса довольно сложен и включает несколько ступеней: в частности, он подразумевает определение перечня источников, оцифровку текстов, электронную разметку (на всех уровнях языковой системы, включая стилистическую разметку, просодическую, предполагающую ударения, ритмику, анафорическую разметку, когда существительное в тексте заменяется местоимением, семантическую разметку, распознающую деление частей речи на разряды и т. д.). Заключительным этапом процесса является конвертирование и обеспечение доступа к корпусу.

Не менее актуальной для современной компьютерной лингвистики считаем также проблему разработки корпусов специализированных текстов по каждой отрасли научного знания, поскольку, по нашему убеждению, это в значительной мере упростило бы доступ специалистов и всех занимающихся наукой к необходимым для их научной работы источникам.

Обращаем также внимание на вневременную актуальность сопоставительного метода исследования, универсального для всех областей научного знания. Суть его в том, что какие-либо объекты, явления, процессы, ситуации, признаки и т. д. устанавливаются, анализируются, описываются через аналогию со смежными понятиями, что позволяет выделять сходства и различия. Выработка и практическое внедрение механизмов реализации этого научного метода через автоматизированные электронные системы также должны быть, по нашему мнению, в приоритете при выборе актуальных направлений научных разработок в сфере современной компьютерной лингвистики.

Сложнейшие технологии машинной интерпретации различных языковых смыслов было бы интересно (и, может быть, важно) применить с целью электронной обработки примеров языковой игры, для систематизации прецедентных языковых единиц (словосочетаний, предложений, текстов), что требует не только серьезной лингвистической эрудиции, тонкого языкового чутья исследователя, но и глубоких знаний о механизмах игрового смыслопорождения в языке и речи.

Таким образом, нами инициированы, продуманы и в рамках данной статьи последовательно сформулированы реальные прикладные задачи компьютерной лингвистики XXI века, которые требуют создания соответствующего инструментария для практической реализации их при электронной работе с текстами. Полагаем, что актуальность наших предложений для всех указанных сфер деятельности и коммуникации подтверждается реальной потребностью в электронной текстовой систематизации.

Литература
1. Апресян, Ю. Д. Избранные труды. В 2 т. / Ю. Д. Апресян. - Москва: Школа «Языки русской культуры», 2005. - Т. II. Интегральное описание языка и системная лексикография. - 283 с.
2. Боровикова, О. И. Организация порталов знаний на основе онтологий / О. И. Боровикова, Ю. А. Загорулько // Компьютерная лингвистика и интеллектуальные технологии: труды междунар. семинара «Диалог 2002» (Протвино, 6-11 июня 2002 г.). В 2 т. - Москва: Наука, 2002. - Т. 2. - С. 76-82.
3. Зубова, И. И. Информационные технологии в лингвистике / И. И. Зубова. - Минск, 2002. - 834 с.
4. Ляшевская, О. Н. О морфологическом стандарте Корпуса современного русского языка / О. Н. Ляшевская, В. А. Плунгян, Д. В. Сичинава // Научно-техническая информация. Серия 2, Информационные процессы и системы. - 2005. - № 6. - С. 2-9.
5. Убин, И. И. Автоматический словарь как средство автоматизации лексикографических работ / И. И. Убин // Теория и практика научно-технической лексикографии: сб. ст. - Москва: Рус. яз., 1988. - С. 234-240.

Антонова А. И.

Актуальные прикладные задачи компьютерной лингвистики XXI века

Опубликовано 23.06.2019 20:20 | Просмотров: 456 | Блог » RSS

Всего комментариев: 0