Корпусные данные в исследованиях грамматики. Судебная лингвистика: цели, задачи, методы

Ещё несколько десятилетий назад об автоматизации лингвистических исследований ученые могли только мечтать. Работа выполнялась вручную, к ней привлекалось большое количество студентов, существовала значительная вероятность ошибки «по невнимательности», а главное - на всё это требовалось много, очень много времени.

С развитием компьютерных технологий стало возможным проводить исследования на порядок быстрее, и сегодня одним из перспективных направлений в исследовании языка является корпусная лингвистика. Её основной особенностью является использование больших объемов текстовой информации, сведенной в единую базу, специальным образом размеченной и именуемой корпусом.

На сегодняшний день существует множество корпусов, созданных с различными целями, на базе различного языкового материала, охватывающего от миллионов до десятков миллиардов лексических единиц. Данное направление признается перспективным и демонстрирует значительные успехи в достижении прикладных и научно-исследовательских целей. Специалистам, так или иначе имеющим дело с естественным языком, рекомендуется ознакомиться с корпусами текстов хотя бы на базовом уровне.

История корпусной лингвистики

Становление данного направления связано с созданием в США Брауновского корпуса в начале 60-х годов прошлого века. Собрание текстов насчитывало всего 1 миллион словоформ, и сегодня корпус такого объема был бы совершенно неконкурентоспособен. В значительной степени это обусловлено темпами развития компьютерных технологий, а также растущими требованиями к новым исследовательским ресурсам.

В 90-х годах корпусная лингвистика сформировалась в полноценную и самостоятельную дисциплину, собрания текстов были составлены и размечены для нескольких десятков языков. В этот период был создан, например, Британский национальный корпус на 100 миллионов словоупотреблений.

По мере развития данного направления лингвистики, объемы текстов становятся всё больше (и достигают миллиардов словарных единиц), а разметка оказывается всё более разнообразной. На сегодняшний день в интернет-пространстве можно найти корпусы письменной и устной речи, мультиязыковые и обучающие, ориентированные на художественную или академическую литературу, а также многие другие разновидности.

Какие бывают корпуса

Типы корпусов в корпусной лингвистике могут быть представлены по нескольким основаниям. Интуитивно понятно, что базой для классификации может являться язык текстов (русский, немецкий), режим доступа (открытый источник, закрытый, коммерческий), жанр исходного материала (художественная литература, документальная, академическая, публицистика).

Интересным образом осуществляется генерация материалов, представляющих устную речь. Поскольку намеренная запись такой речи создала бы искусственные условия для респондентов, и полученный материал нельзя было бы назвать «спонтанным», современная корпусная лингвистика пошла другим путём. Доброволец оснащается микрофоном, и в течение суток производится запись всех разговоров, в которых он участвует. Окружающие люди, разумеется, не могут знать, что в ходе бытового разговора осуществляют вклад в развитие науки.

Позже полученные аудиозаписи сохраняются в банке данных и сопровождаются печатным текстом по типу стенограммы. Таким образом, становится возможной разметка, необходимая для создания корпуса устной повседневной речи.

Применение

Там, где возможно использование языка, возможно и использование корпусов текстов. Целью применения корпусных методов в лингвистике может являться:

  • Создание программ определения тональности, активно использующихся в политике и бизнесе для отслеживания положительных и негативных отзывов избирателей и клиентов, соответственно.
  • Подключение информационной системы к словарям и переводчикам для улучшения показателей их работы.
  • Разнообразные научно-исследовательские задачи, способствующие пониманию устройства языка, истории его развития и предсказаний его изменения в ближайшем будущем.
  • Разработка систем извлечения информации на основании морфологических, синтаксических, семантических и иных признаков.
  • Оптимизация работы различных и др.

Использование корпусов

Интерфейс ресурсов схож с типичной поисковой системой и предлагает пользователю ввести некоторое слово или сочетание слов для поиска по информационной базе. Помимо формы точного запроса можно воспользоваться расширенной версией, которая позволяет находить текстовую информацию практически по любым лингвистическим критериям.

Основанием для поиска может стать:

  • принадлежность к определенной группе частей речи;
  • грамматические признаки;
  • семантика;
  • стилистическая и эмоциональная окраска.

Кроме того, можно совмещать критерии поиска для последовательности слов: например, найти все вхождения глагола в настоящем времени, первого лица, единственного числа, после которого идёт предлог «в» и существительное в винительном падеже. Решение такой простой задачи занимает у пользователя несколько секунд и требует лишь нескольких щелчков мышью в заданных полях.

Процесс создания

Сам поиск можно осуществлять как по всем подкорпусам, так и по одному, конкретно выбранному, в зависимости от потребностей при достижении какой-то определенной цели:

  1. Первым делом определяется, какие тексты лягут в основу корпуса. В практических целях часто используются публицистические, газетные материалы, интернет-комментарии. В научно-исследовательских проектах находят применение самые разнообразные типы корпусов, однако тексты должны быть подобраны по некоторому общему основанию.
  2. Полученная совокупность текстов подвергается предобработке, происходит исправление ошибок, при их наличии, подготавливается библиографическое и экстралингвистическое описание текста.
  3. Отсеивается вся нетекстовая информация: удаляются графики, картинки, таблицы.
  4. Происходит выделение токенов, обычно представляющих собой слова, для их дальнейшей обработки.
  5. Наконец, осуществляется морфологическая, синтаксическая и иная разметка полученного множества элементов.

Результатом всех произведенных операций является синтаксическая структура с распределенным по ней множеством элементов, для каждого из которых определены часть речи, грамматические и, в некоторых случаях, семантические признаки.

Сложности при создании корпусов

Важно понимать, что для получения корпуса недостаточно собрать воедино множество слов или предложений. С одной стороны, собрание текстов должно быть сбалансированным, то есть представлять различные в определенных пропорциях. С другой - содержимое корпуса должно быть специальным образом размечено.

Первый вопрос решается путём договоренности: например, в собрание включается 60% художественных текстов, 20% документальных, определенная доля отводится письменному представлению устной речи, законодательным актам, научным работам и т. д. Идеального рецепта сбалансированного корпуса на сегодняшний день не существует.

Второй вопрос, касающийся разметки содержимого, решается сложнее. Существуют специальные программы и алгоритмы, используемые для автоматической разметки текстов, однако они не дают стопроцентного результата, могут вызывать сбои и требуют ручной доработки. Возможности и проблемы при решении данной задачи подробно описываются в работе В. П. Захарова по корпусной лингвистике.

Разметка текста осуществляется на нескольких уровнях, которые мы перечислим далее.

Морфологическая разметка

Со школьной скамьи мы помним, что в русском языке существуют различные части речи, и каждая из них имеет свои особенности. Например, глагол обладает категориями наклонения и времени, которых нет у существительного. Носитель языка не задумываясь склоняет существительные и спрягает глаголы, но для разметки корпуса в 100 млн. словоупотреблений ручной труд не подойдет. Все необходимые операции сможет выполнить компьютер, правда, для этого его требуется научить.

Морфологическая разметка необходима, чтобы компьютер «понимал» каждое слово как некоторую часть речи, имеющую определенные грамматические признаки. Поскольку в русском (как и в любом другом) языке функционирует ряд регулярных правил, возможно построить автоматическую процедуру морфологического анализа, вложив в машину некоторое количество алгоритмов. Однако существуют и исключения из правил, а также различные усложняющие факторы. В результате, чистый компьютерный анализ сегодня далёк от идеала, и даже 4% ошибок даёт значение в 4 млн. слов на корпусе в 100 млн. единиц, требуя ручной доработки.

Подробно эту проблему описывает книга Захарова В. П. «Корпусная лингвистика».

Синтаксическая разметка

Синтаксический анализ или парсинг - это процедура, определяющая взаимоотношение слов в предложении. С помощью набора алгоритмов становится возможным определить в тексте подлежащее, сказуемое, дополнения, различные обороты речи. Выясняя, какие слова в последовательности являются главными, а какие - зависимыми, мы можем эффективно извлекать информацию из текста и обучить машину выдавать в ответ на поисковый запрос только интересующую нас информацию.

К слову, современные поисковые системы пользуются этим, чтобы выдавать конкретные цифры вместо пространных текстов в ответ на соответствующие запросы типа: «сколько калорий в яблоке» или «расстояние от Москвы до Петербурга». Впрочем, для понимания даже самых азов описываемого процесса потребуется ознакомиться с «Введением в корпусную лингвистику» или иным базовым учебным пособием.

Семантическая разметка

Семантика слова - это, говоря простым языком, его смысл. Широко применимым подходом в семантическом анализе является приписывание слову тэгов, отражающих его принадлежность к набору смысловых категорий и подкатегорий. Подобная информация является ценной для оптимизации алгоритмов анализа тональности текста, автоматического реферирования и выполнения других задач методами корпусной лингвистики.

Существует некоторое количество «корней» дерева, представляющих собой абстрактные слова, имеющих очень широкую семантику. По мере ветвления этого дерева образуются узлы, содержащие всё более конкретные лексические элементы. Например, слово «существо» может быть связано с такими понятиями как «человек» и «животное». Первое слово будет дальше ветвиться на различные профессии, термины родства, национальности, а второе - на классы и виды животных.

Применение информационно-поисковых систем

Сферы использования корпусной лингвистики охватывают самые разнообразные области деятельности. Корпусы используются для составления и корректирования словарей, создания автоматических систем перевода, реферирования, извлечения фактов, определения тональности и иной обработки текстов.

Кроме того, подобные ресурсы активно используются при исследовании языков мира и механизмов функционирования языка в целом. Доступ к большим объёмам предварительно подготовленной информации способствует оперативному и всестороннему изучению тенденций в развитии языков, образовании неологизмов и устойчивых речевых оборотов, изменении значений лексических единиц и др.

Поскольку работа со столь крупными объёмами данных требует автоматизации, сегодня осуществляется тесное взаимодействие компьютерной и корпусной лингвистики.

Национальный корпус русского языка

Данный корпус (сокращенно, НКРЯ) включает в себя ряд подкорпусов, позволяющих использовать ресурс для решения самых разнообразных задач.

Материалы в базе НКРЯ подразделяются:

  • на публикации в СМИ 90-х и 2000-х годов как отечественных, так и зарубежных;
  • записи устной речи;
  • акцентологически размеченные тексты (т.е. с отметками об ударении);
  • диалектную речь;
  • поэтические произведения;
  • материалы с синтаксической разметкой и др.

Информационная система включает также подкорпуса с параллельными переводами произведений с русского на английский, немецкий, французский и многие другие языки (и обратно).

Также в базе есть раздел исторических текстов, представляющих письменную речь на русском языке в различные периоды его развития. Существует и обучающий корпус, который может быть полезен иностранным гражданам при овладении русским языком.

Национальный корпус русского языка включает в себя 400 миллионов и по многим параметрам опережает значительную часть корпусов языков Европы.

Перспективы

Фактом в пользу признания данного направления перспективным является наличие лабораторий корпусной лингвистики в российских вузах, равно как и в иностранных. С применением и исследованиями в рамках рассматриваемых информационно-поисковых ресурсов сопряжено развитие некоторых направлений в области высоких технологий, вопросно-ответных систем, однако это обсуждалось выше.

Дальнейшее развитие корпусной лингвистики предсказывается на всех уровнях, начиная от технического, в плане внедрения новых алгоритмов, оптимизирующих процессы поиска и обработки информации, расширения возможностей компьютеров, увеличения оперативной памяти, и заканчивая бытовым, поскольку пользователи находят всё больше способов применения данного типа ресурсов в повседневной жизни и в работе.

В заключение

В середине прошлого века 2017 год представлялся далеким будущим, в котором космолеты бороздят просторы Вселенной и роботы выполняют всю работу за людей. В действительности же наука изобилует «белыми пятнами» и предпринимает отчаянные попытки ответить на вопросы, столетиями тревожащие человечество. Вопросы функционирования языка здесь занимают почётное место, и корпусная и компьютерная лингвистика способны помочь нам ответить на них.

Обработка больших массивов данных позволяет обнаруживать закономерности, недоступные ранее, предсказывать развитие определенных языковых черт, отслеживать формирование слов практически в реальном времени.

На практическом глобальном уровне корпусы могут рассматриваться, например, как потенциальный инструмент оценки общественных настроений - Интернет представляет собой беспрерывно пополняемую базу различных текстов, созданных реальными пользователями: это и комментарии, и отзывы, и статьи, и многие другие

Кроме того, работа с корпусами способствует разработке тех же технических средств, что участвуют в информационном поиске, знакомом нам по сервисам «Гугл» или «Яндекс», машинном переводе, электронных словарях.

Можно с уверенностью утверждать, что корпусная лингвистика делает лишь первые шаги, и в ближайшем будущем будет бурно развиваться.

В.П. Захаров

Корпусная лингвистика

Учебно-методическое пособие

Санкт-Петербург


ББК 81.1

Рецензенты:

докт. филол. наук Л.Н. Беляева (Рос. гос. пед. ун-т им. А.И.Герцена)

канд. фил. наук С.А. Коваль (С.-Петерб. гос. ун-т)

Печатается по постановлению

Редакционно-издательского совета

С.-Петербургского государственного университета

Захаров В.П.

З-38Корпусная лингвистика: Учебно-метод. пособие. – СПб., 2005. – 48 с.

Предлагаемое пособие содержит описание предмета и основного содержания корпусной лингвистики – нового направления в лингвистике. Оно включает также программу учебной дисциплины «Корпусная лингвистика», которая изучается студентами отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета. Пособие базируется на исследовательской и преподавательской деятельности автора.

Для студентов и аспирантов, специализирующихся в области прикладной лингвистики и автоматизированных систем обработки текста.

ББК 81.1

ã В.П. Захаров, 2005

ã Санкт-Петербургский
государственный
университет, 2005


1. Основные понятия

Введение: корпусы и корпусная лингвистика

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:

1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;

2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;

3) однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях.


Можно сказать, что все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы. Спрос на корпусные данные совпал с появлением соответствующих технических возможностей.

Первые лингвистические корпусы текстов появились в 60-е гг. прошлого столетия. В 1963 г. в Брауновском университете (США) впервые был создан большой корпус текстов на машинном носителе (Brown Corpus). Авторы корпуса У. Френсис (W. Francis) и Г. Кучера (H. Kucera) спроектировали его как набор из пятисот двухтысячесловных прозаических печатных текстов американского варианта английского языка. Тексты принадлежали пятнадцати наиболее массовым жанрам англоязычной печатной прозы США и были напечатаны в 1961 г. Корпус сопровождался большим количеством материалов его первичной статистической обработки - частотный и алфавитно-частотный словарь, разнообразные статистические распределения. Появление Брауновского корпуса вызвало всеобщий интерес и оживленные дискуссии. Прежде всего они коснулись принципов отбора текстов и состава потенциально решаемых на таком корпусе задач. Затем последовали Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB), Уппсальский корпус русского языка. Среди современных корпусов английского языка наиболее известны Британский национальный корпус (British National Corpus), Международный корпус английского языка (International Corpus of English), лингвистический Банк английского языка (Bank of English) и др. В настоящее время корпусы созданы для многих языков мира (см. Приложение 1). Ведется работа и над созданием Национального корпуса русского языка.

В первой половине 90-х гг. корпусная лингвистика окончательно сформировалась как отдельный раздел науки о языке. При этом она тесно взаимодействует с компьютерной лингвистикой, используя ее достижения и в свою очередь обогащая ее.

Поиск в корпусе данных позволяет по любому слову построить конкорданс – список всех употреблений данного слова в контексте со ссылками на источник. Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах. В частности, на основе корпусов можно получить данные о частоте словоформ, лексем, грамматических категорий, проследить изменение частот и контекстов в различные периоды времени, получить данные о совместной встречаемости лексических единиц и т.д. Представительный массив языковых данных за определенный период позволяет изучать динамику процессов изменения лексического состава языка, проводить анализ лексико-грамматических характеристик в разных жанрах и у разных авторов, и т.д. Корпусы призваны служить также источником и инструментом многоаспектных лексикографических работ по подготовке разнообразных исторических и современных словарей. Данные корпусов могут быть использованы для построения и уточнения грамматик и в целях обучения языку.

Можно сказать, что корпусная лингвистика имеет своим предметом теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей.

Майорова А . Д .

ORCID: 0000-0002-4188-8793, Магистрант кафедры иностранных языков,

Национальный исследовательский университет

«Московский институт электронной техники»

КОРПУСНАЯ ЛИНГВИСТИКА: ИСТОРИЧЕСКИЙ И ЛИНГВОДИДАКТИЧЕСКИЙ АСПЕКТЫ

Аннотация

В статье рассмотрены основные этапы развития корпусной лингвистики. Вначале описаны предпосылки ее развития, указано, какие отрасли языкознания положили начало корпусной лингвистике. Данная статья подробно излагает историю создания первых зарубежных и отечественных корпусов, а также освещает основные спорные вопросы о статусе корпусной лингвистики как самостоятельной научной дисциплины. Последним вопросом, к которому автор обращается в статье, является современное состояние корпусной лингвистики и ее значение в обучении иностранному языку.

Ключевые слова: корпусная лингвистика, национальный корпус, Брауновский корпус, Британский национальный корпус, Национальный корпус русского языка, обучение с помощью корпусов.

Maiorova A.D.

ORCID: 0000-0002-4188-8793, Master program, Department of Foreign Languages,

National Research University of Electronic Technology

CORPUS LINGUISTICS: HISTORICAL AND LINGUISTIC DIAGNOSTIC ASPECTS

Abstract

The article presents the main stages of corpus linguistics development. First, it describes the prerequisites for its development and indicates the branches of linguistics that laid the foundation for corpus linguistics. This article details the history of the first foreign and domestic buildings creation, and also highlights the main controversial questions on the status of corpus linguistics as an independent scientific discipline. The last question the author refers to in the article is modern state of corpus linguistics and its importance in teaching a foreign language.

Keywords: corpus linguistics, national corpus, Brown’s Corps, British National Corps, National Corps of the Russian language, training with the help of corps.

Развитие корпусной лингвистики, а также построение корпусов является одной из актуальных проблем современного языкознания. На данный момент использование корпусов играет ведущую роль при проведении большинства лингвистических исследований. Хотя еще в первой половине ХХ века было возможно построение корпусов только вручную. Это отнимало массу времени, сил и затрат. Поэтому обращение к корпусам текстов было минимальным и лишь в том случае, когда большое количество людей было в этом заинтересовано. Но благодаря развитию корпусной лингвистики использование корпусов стало возможным повсеместно. Структурировать и синхронизировать материал стало гораздо легче, а затраты резко снизились.

Важность развития корпусной лингвистики не вызывает никаких сомнений. В ней объединены многие положительные свойства гуманитарных и технических наук. Но возникнув относительно недавно, она не успела полностью сформироваться, и ее статус как независимой науки еще не установлен. Так, многие ученые рассматривают корпусную лингвистику в качестве подобласти традиционной. Они утверждают, что она имеет лишь прикладное применение, а теоретические обоснования отсутствуют. По их мнению, корпусная лингвистика является улучшенной методикой сбора и обработки материала, новым информационным ресурсом. С другой стороны, если есть прикладная корпусная лингвистика, почему не может быть и теоретической, т.е. дисциплины, обладающей собственным предметом, методом и теорией. Отсутствие теоретической базы на данный момент не влияет на возможность ее разработки в будущем.

В середине XIX в. в научной среде главенствовал рациональный подход, основанный «на лингвистической интуиции, проводящей различие между правильными и неправильными конструкциями» . В противовес такому подходу появляется эмпирический подход, который предлагает рассматривать язык как «ресурс, обеспечивающий набор возможности для коммуникации» . Развитие такого подхода и послужило началом создания корпусной лингвистики. Многие технологии, которые сейчас используются при построении корпусов, были изобретены задолго до появления компьютеров и электронных ресурсов. Некоторые из них использовались еще в XVIII – XIX веках, когда лингвистику начали считать самостоятельной и независимой научной дисциплиной. Захаров В.П. в учебнике «Корпусная лингвистика» называет технологии, которые повлияли на создание корпусов. Он выделяет три основные области лингвистических исследований, которые вошли в основу корпусной лингвистики, хотя и отмечает, что их было гораздо больше .

Первой такой областью он выделяет сравнительно-историческое языкознание. Ученые, работающие в этой области, всегда обращались к огромному количеству различных текстов. Применение технологий по реконструкции праязыков можно встретить и в современной лингвистике. Второй областью, которой Захаров В.П. отдает предпочтение, является составление грамматик и словарей и обучение языку. Действительно, любое грамматическое правило необходимо проиллюстрировать. И в этом случае примеры из текста отлично смогут в этом помочь. Корпусы как источники эмпирических данных играют важную роль при обучении иностранному языку. Последней областью, повлиявшей на развитие корпусов, является социолингвистика. Еще в XIX веке ученые начинают разрабатывать диалектные карты и составлять сборники диалектных отношений. При этом необходимо было учитывать различные критерии при составлении пособий по диалектам. Все эти факторы и послужили началом корпусной лингвистики.

На данный момент корпусная лингвистика успешно развивает технологии и методы, которые привели к ее зарождению. Также не стоит забывать и о технической стороне вопроса. Произошел резкий скачок в развитие компьютерных и информационных технологий. Данные возможности начали успешно применять в лингвистике и языкознание. Благодаря развитию и популяризации мирового Интернета, огромное количество пользователей из разных стран могли воспользоваться данными из корпуса. К тому же больше не возникала проблема полноты и расширенности корпусов. Большинство исследований в области корпусной лингвистики было проведено на материале английских текстов. На это есть две основные причины: во-первых, происходит активное развитие компьютерной техники в Северной Америке и Западной Европе, а во-вторых, складывается благоприятный климат для развития британской лингвистики в 60-80е гг. ХХ в.

Первым лингвистическим корпусом принято считать Брауновский корпус (Brown Corpus). Он был разработан в 1963 году сотрудниками Брауновского Университета, У. Френсис и Г. Кучера. Объем первого корпуса представляется собой 1 млн. словоупотреблений, т.е. в его состав входит 500 фрагментов объёмом по 2000 словоупотреблений из текстов, изданных в 1961 г. в США, разных жанров: художественные тексты известных писателей и поэтов, статьи из газет и журналов, примеры письменной деловой речи и тексты на религиозную тематику. Существует несколько причин создания Брауновского корпуса. В первую очередь, это обеспечение системного исследования английских текстов, принадлежащих к различным жанрам. Во-вторых, предоставление достаточного количества материала для сравнения этих данных. В-третьих, привлечение интереса многих ученых к появлению новой научной дисциплины. Это был прорыв в прикладной лингвистике, который вызвал много споров и дискуссий. Что касается составления самого корпуса, то он строился, с одной стороны, на основе статистических данных, а, с другой стороны, на опыте и интуиции ученых. Чтобы достичь объективности, было необходимо использование простых и прозрачных текстов.

Позднее в 1971-78 годах, по примеру своих американских коллег, европейские ученые занялись составлением другого корпуса текстов. Он получил название ЛанкастерскоОслоБергенский корпус британского варианта современного английского языка (The Lancaster Oslo / Bergen Corpus of British English , LOB ). Составлением данного словаря занимались в основном британские и норвежские ученые. Они руководствовались теми же принципами, что и ученые из Брауновского Университета. На период создания он состоял из 500 текстов, принадлежащих к различным жанрам, объемом 2000 словоупотреблений.

Наиболее популярным на данный момент является Британский национальный корпус (British National Corpus , BNC ) .Создан он был 1991-1994 гг. исследователями из Оксфордского Университета и Университета Ланкастер. Его объем составляет 100 млн. словоупотреблений и он значительно больше, чем его предшественники. По составу он на 90% состоит из письменных текстов и на 10% из устных. Тексты принадлежат к концу ХХ века и представляют различные жанры. В нем можно встретить газетные статьи, научно-популярную литературу, примеры деловой переписки, тексты на религиозную тематику, транскрибированные записи неофициальной речи, радио-шоу, правительственной речи и пр.

Стоит отметить, что именно Британский корпус получил статус «национальный» первым. Плунгян В.А. пишет, что «для британцев слово «национальный» означало в первую очередь «характеризующий британский национальный вариант английского языка». Ведь существуют также американский и австралийский вариант английского языка. Но спустя время данный корпус стал эталоном всех корпусов и значение слова «национальный» несколько изменилось. Национальным стали называть корпус, который является самым большим и представительным и который, характеризует язык данной страны в целом. Плунгян В.А. отмечает, что национальный корпус должен быть не просто большим по объему, но и содержать тексты различных жанров во всем их многообразии в данный исторический период, и при этом содержать их в правильной пропорции .

Многие страны по примеру Британского Национального Корпуса решили создать свои национальные корпуса. Россия не является исключением. На протяжении семи лет с 2003 по 2010 гг. ученые работали над созданием единой текстовой базой. Ассоциация «Национальный корпус русского языка» предложила сотрудничество компании «Яндекс» и при их технической поддержке был разработан сайт, на котором и размещен нынешний вариант Национального корпуса русского языка. В его составе находится более 163 млн. словоупотреблений за период от середины XVIII до начала XXI века. Благодаря наличию текстов из различных эпох в нем можно найти примеры как современных, так и исторических текстов. При этом тексты принадлежат к литературному, разговорному, официально-деловому и научному стилям. Национального корпуса русского языка содержит много примером просторечий, жаргонизмов и диалектов. На официальном сайте Национального корпуса русского языка есть справочная статья о значение термина «корпус», о правилах пользования, а так же четко определяется цель его создания. Также там описана структура Национального корпуса. На данный момент он состоит из следующих разделов:

  • Основной корпус (прозаические письменные тексты XVIII - начала XXI века);
  • Синтаксический корпус (в котором для каждого предложения построена полная морфологическая и синтаксическая структура);
  • Газетный корпус (статьи из СМИ 1990-2000-х годов);
  • Параллельные корпуса (в которых можно найти все переводы для определенного слова или словосочетания на русский язык или с русского языка);
  • Корпус диалектных текстов;
  • Корпус поэтических текстов;
  • Обучающий корпус русского языка (корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка);
  • Корпусной устной речи;
  • Мультимедийный корпус (включает снабженные видео- и аудиорядом фрагменты кинофильмов 1930-2000-х годов.
  • Корпус истории русского ударения (тексты, несущие информацию об истории русского ударения);

Как можно видеть из структуры, Национальный корпус охватывает почти все грани языка.

Стоит отметить, что национальный корпус является не единственным корпусом русского языка. Грудева Е.В. в своей работе «Корпусная лингвистика» выделяет еще несколько корпусов . Первым из них является Упсальский корпус русского языка (The Uppsala Russian Corpus ). Он является первым корпусом русского языка. Над созданием Упсальского корпуса работали ученые из университета Упсалы в Швеции в конце 1980-х – начале 1990-х гг. Он включает в себя 600 фрагментов художественных и информативных текстов объемом около 1 млн. словоупотреблений.

Также стоит обратить внимание на еще один корпус русского языка. Разработан он был в 1999 – 2004 гг. в Германии, в Тюбингенском университете. Свое название получил согласно месту, где был создан (Тюбингенский корпус русского ). Разработан он был на основе Упсальского корпуса, но количество словоупотреблений выросло до 25 млн. словоупотреблений.

Вернемся на несколько десятилетий назад, к тому моменту, когда начались рьяные споры о ее статусе как о независимой дисциплине. Хочется напомнить, что в 60-80-ые годы XX в., когда начали создаваться первые корпусы в США и Западной Европе, в научной среде главенствовал рациональный (хомскианский) подход. Ноам Хомский и его сторонники разделяли мнение, что построение правильных и неправильных языковых конструкций может быть осуществлено только лишь на основе интуиции носителей языка. Американский лингвист был ярым противником корпусного подхода, и этому есть много подтверждений. Известен ответ Н. Хомского на вопрос интервьюера о том, как Хомский относится к корпусной лингвистике: «Таковой не существует» . А в одной из телеконференций Corpora-List сторонники Н. Хомского вступили в дискуссию об иррелевантности корпусов . Сторонник Н. Хомского, профессор Роберт Лиз в 1962 году на одной из конференций в Университете Браун заявил, что создание корпуса «бессмысленная трата вашего времени и правительственных денег. Вы – носитель английского языка; в течение десяти минут вы способны представить больше примеров на любое явление английской грамматики, чем сможете найти во многих миллионах слов случайных текстов» . Доля истины в их утверждениях, несомненно, присутствует, тем не менее, у корпусной лингвистики нашлось немало сторонников, как среди ученых, так и в правительстве. Все больше и больше средств стало выделяться на создание и модернизацию корпусов. «В настоящее время лингвистика во многом избавилась от раннегенеративистских иллюзий, в частности, от уверенности, что лингвистические механизмы как таковые могут быть познаны с привлечением весьма ограниченного набора примеров (обычно сочиненных самим лингвистом). На смену этим достаточно наивным представлениям приходит понимание необходимости строить исследование даже самого «мелкого» фрагмента языковой системы с использованием репрезентативного множества текстов соответствующего языка» . В качестве множества текстов, конечно, выступает лингвистический корпус. Хотя критерии репрезентативности такого корпуса еще недостаточно ясны, задача, которую ставят перед корпусом, уже вполне определена. «Корпус должен обладать количественными и качественными параметрами, необходимыми и достаточными для построения на его основе адекватных словаря и грамматики соответствующего языка» .

При создании Национального корпуса ученые, конечно, задавались очевидным вопросом: для кого же корпус окажется полезным? В каких сферах жизни его можно применить? На этот вопрос достаточно полно ответил Плунгян В.А. в своей работе «Зачем нужен Национальный корпус русского языка?». В первую очередь, он является неоценимым инструментом для профессиональных лингвистов: «Они, так или иначе, имеют дело с фактами языка, а значит, должны эти факты собирать и систематизировать» . Во-вторых, он очень полезен для программистов. Неудивительно, что они сразу поддержали идею о его создании. Конечно, лингвистический корпус пригодится и для людей, связавших свою жизнь со словом, например, писателей, редакторов газет и журналов. Любой сложный момент можно проверить, обратившись к корпусу.

И, наконец, отличным помощником корпус станет для преподавателей и учителей, как в школе, так и в ВУЗе. В ведущих вузах мира становится повседневной практикой использование корпусных данных в качестве материала для лекционных курсов, студенческих заданий и самостоятельных проектов.

Во всем мире в высших учебных заведениях данные из лингвистических корпусов применяются при составлении различных лекционных курсов и заданий для студентов. Многие студенты сами используют корпусные данные при работе над проектами и домашними заданиями. Можно предположить, что студенты, поощряемые к самостоятельному изучению языка, его особенностей и черт, овладевают языковыми компетенциями быстрее и эффективнее, чем те, кому вбиваются в голову правила.

На данный момент одним из самых популярных направлений корпусного подхода в обучении иностранному языку является обучение с помощью корпусов , или data driven learning (DDL ) . Суть данного обучения заключается в том, что студенты используют «сырые» языковые данные напрямую из корпуса. Это направление основано на предположении, что студенты могут гораздо более эффективно осваивать язык, когда в процессе обучения поощряется использование модели наблюдай – предполагай – экспериментируй, т.е. когда они имеют возможность делать собственные выводы относительно значений слов, фраз, грамматических правил на основе языкового материала. Процесс не обязательно ограничен терминалом компьютера. Результаты корпусных поисков (конкордансов) в распечатанном виде могут быть легко инкорпорированы в раздаточный материал, методические пособия и т.п.

Корпусный подход при обучении иностранному языку меняет характер учебной деятельности учащегося и ставит его в центр процесса обучения. Роль учителя будет заключаться в организации и осуществлении контроля исследовательской деятельности учеников. При этом формирование способности обучающихся к автономному овладению лингвистическими знаниями и умениями потребует от педагога определенных усилий по созданию методических материалов. Как отмечает Н.Л. Байдикова, «одна из функций педагога по организации обучения эффективным приемам самостоятельной работы – методическое обеспечение данного процесса. Разработка пособий представляется важнейшей задачей, иначе организация самостоятельной работы студентов превращается в трудоемкий, громоздкий и неэкономичный процесс» . Следует быть готовым, что корпус не всегда выдаст данные, соответствующие толковому словарю. Многие примеры могут быть сложны для понимания учащихся.

Таким образом, лингвистический корпус – это средство для решения не только научных, но и учебно-методических задач. Польза от ее применения в различных областях не вызывает никаких сомнений, хотя теоретическая база еще до конца не проработана. Именно поэтому ученые до сих пор не могут ответить на вопрос: «Что же такое корпусная лингвистика: новая научная дисциплина или всего лишь информационный ресурс?» Мы надеемся, что в скором времени ответ на этот вопрос будет найден и корпусная лингвистика станет независимой научной дисциплиной.

Список литературы / References

  1. Шаров С. А. Представительный корпус русского языка в контексте мирового опыта / С. А. Шаров // Научнотехническая информация. – Сер. 2. – – № 6. – С. 12–16.
  2. Захаров В. П. Корпусная лингвистика: учеб.-метод. Пособие / В. П. Захаров. – СПб., 2005. – 48 с.
  3. Плунгян В. А. Зачем нужен Национальный корпус русского языка? Неформальное введение / В. А. Плунгян // Национальный корпус русского языка: 2003 – 2005. – М.: Индрик. – – С. 6 – 20.
  4. Венцов А. В., Грудева Е. В., Касевич В. Б., Ягунова Е. В. Национальный корпус русского литературного языка: некоторые результаты, приложения и задачи / Венцов А. В., Грудева Е. В., Касевич В. Б., Ягунова Е. В. // Научнотехническая информация. – Сер. 2. – – № 6. – С. 35–36.
  5. Венцов А. В., Грудева Е. В. О корпусе русского литературного языка / А. В. Венцов, Е. В. Грудева // Russian Linguistics. – – № 2. – С. 195 – 209.
  6. Фрэнсис У.Н. Проблемы формирования и машинного представления большого корпуса текстов / У.Н. Фрэнсис // Новое в зарубежной лингвистике. Выпуск Проблемы и методы лексикографии. – М.: Прогресс. – 1983. – С. 334 – 335
  7. Венцов А. В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи / А. В. Венцов, В.Б. Касевич, Е.В. Ягунова // Научно-техническая информация. – Сер. 2. – – № 6. – С. 25 – 27.
  8. Грудева Е.В Корпусная лингвистика: учеб. пособие / Е.В. Грудева. – 2-е изд., стер. – М.: ФЛИНТА, 2012. – 165 с.
  9. Байдикова Н.Л. Формирование учебной компетенции у студентов языковых факультетов вузов в процессе обучения теоретическим дисциплинам / Н.Л. Байдикова // Актуальные проблемы международного сотрудничества в области науки и образования: Материалы III международной научно-практической конференции (заочной). – Тамбов: ТГУ им. Г. Р. Державина. – – С. 105 – 109.
  10. Brown Corpus: [электронный ресурс]: http://clu.uni.no/icame/brown/bcm.html#bc3 (дата обращения: 05.04.2017).
  11. The Lancaster-Oslo/Bergen Corpus of British English, LOB: [электронный ресурс]: http://clu.uni.no/icame/manuals/LOB/INDEX.HTM (дата обращения: 05.04.2017).
  12. British National Corpus, BNC: [электронный ресурс]: http://www.natcorp.ox.ac.uk/ (дата обращения: 05.04.2017).
  13. Национальный корпус русского языка: [электронный ресурс]: http://www.ruscorpora.ru/index.html (дата обращения: 05.04.2017).
  14. The Uppsala Russian Corpus: [электронный ресурс]: http://www.slaviska.uu.se/korpus.htm (дата обращения: 05.04.2017).
  15. Тюбингенский корпус русского языка: [электронный ресурс]: http://www.sfb441.uni-tuebingen.de/b1/- en/korpora.html (дата обращения: 05.04.2017).

Список литературы на английском языке / References in English

  1. Sharov S.A. Predstavitel’nyj korpus russkogo jazyka v kontekste mirovogo opyta / S.A. Sharov // Nauchno-tehnicheskaja informacija . – Ser. 2. – 2003. – № 6. – P. 12–16.
  2. Zaharov V.P. Korpusnaja lingvistika: Ucheb.-metod. posobie / V.P. Zaharov. – SPb., 2005. – 48 P.
  3. Plungjan V.A. Zachem nuzhen Nacional’nyj korpus russkogo jazyka? Neformal’noe vvedenie / V.A. Plungjan // Nacional’nyj korpus russkogo jazyka: 2003 – 2005 . – M.: Indrik. – 2005. – P. 6 – 20.
  4. Vencov A.V., Grudeva E.V., Kasevich V.B., Jagunova E.V. Nacional’nyj korpus russkogo literaturnogo jazyka: nekotorye rezul’taty, prilozhenija i zadachi / A.V. Vencov, E.V. Grudeva, V.B. Kasevich, E.V. Jagunova // Nauchno-tehnicheskaja informacija . – Ser. 2. – 2005. – № 6. – P. 35–36.
  5. Vencov A.V., Grudeva E.V. O korpuse russkogo literaturnogo jazyka / A.V. Vencov, E.V. Grudeva // Russian Linguistics. – 2009. – № 2. – 195 – 209.
  6. Frjensis U.N. Problemy formirovanija i mashinnogo predstavlenija bol’shogo korpusa tekstov / U.N. Frjensis // Novoe v zarubezhnoj lingvistike. Vypusk XIV. Problemy i metody leksikografii . – M.: Progress. – 1983. – P. 334 – 335.
  7. Vencov A.V., Kasevich V.B., Jagunova E.V. Korpus russkogo jazyka i vosprijatie rechi / Vencov A.V., Kasevich V.B., Jagunova E.V. // Nauchno-tehnicheskaja informacija . – Ser. 2. – 2003. – № 6. – P. 25 – 27.
  8. Grudeva E.V Korpusnaja lingvistika: ucheb. posobie / E.V. Grudeva. – 2 nd – M.: FLINTA, 2012. – 165 P.
  9. Bajdikova N.L. Formirovanie uchebnoj kompetencii u studentov jazykovyh fakul’tetov vuzov v processe obuchenija teoreticheskim disciplinam / N.L. Bajdikova // Aktual’nye problemy mezhdunarodnogo sotrudnichestva v oblasti nauki i obrazovanija: Materialy III mezhdunarodnoj nauchno-prakticheskoj konferencii (zaochnoj) . – Tambov: TGU im. G. R. Derzhavina . – 2011. – P. 105 – 109.
  10. Brown Corpus: : http://clu.uni.no/icame/brown/bcm.html#bc3 (accessed: 05.04.2017).
  11. The Lancaster-Oslo/Bergen Corpus of British English, LOB: : http://clu.uni.no/icame/manuals/LOB/INDEX.HTM (accessed: 05.04.2017).
  12. British National Corpus, BNC: : http://www.natcorp.ox.ac.uk/ (accessed: 05.04.2017).
  13. Nacional’nyj korpus russkogo jazyka : : http://www.ruscorpora.ru/index.html (accessed: 05.04.2017).
  14. The Uppsala Russian Corpus: : http://www.slaviska.uu.se/korpus.htm (accessed: 05.04.2017).
  15. Tjubingenskij korpus russkogo jazyka : : http://www.sfb441.uni-tuebingen.de/b1/- en/korpora.html (accessed: 05.04.2017).

Существует несколько проектов, ориентированных на разработку удобного поискового интерфейса и обеспечения разнообразных возможностей поиска. В рамках этих проектов разрабатываются корпуса сразу на многих языках. Эти проекты интересны тем, что в них можно искать по морфологическим параметрам, получать квантитативную информацию, например о частоте употребления языкового выражения по разным жанрам, информацию о наиболее типичной сочетаемости некоторого языкового выражения или же синтаксическую информацию.

Корпуса, созданные Марком Дэвисом

Ряд корпусов английского языка, а также испанский и португальский корпус созданы профессором корпусной лингвистики Марком Дэвисом. Интерфейс к ним позволяет осуществлять удобный поиск по корпусам очень большого объема. Все они снабжены морфологической аннотацией. Возможен поиск с использованием специальных символов для неточного поиска. Искать можно по слову, словосочетанию из 2-х слов, грамматической конструкции, сравнивать синонимы. Эти корпуса также имеют некоторые интересные и уникальные возможности поиска. Во-первых, в них можно запрашивать информацию о синонимических группах слов, а также искать по спискам, задаваемым самим пользователем. Во-вторых, в них предоставляется информация о распределении частоты употребления искомого языкового выражения по жанрам и по годам. Подробнее о корпусах Марка Дэвиса смотри ниже.

Корпуса проекта VISL

Проект VISL Института языка и коммуникации (Institute of Language and Communication (ISK)) Университета южной Дании представляет собой исследования в области машинных ресурсов для обучения и анализа языков, разработку различных программ автоматической обработки текстов. В рамках этого проекта разрабатывается инструментарий для обучения языку и для лингвистических исследований, включая морфологические и синтаксические анализаторы, системы машинного перевода для большого количества языков. Для этих целей используются корпуса анализируемых в рамках проекта языков, размеченные морфологически, некоторые из них имеют и синтаксическую разметку. Это корпуса английского, немецкого, французского, датского, эсперанто, эстонского, португальского языков. Поскольку фокус исследований в рамках данного проекта — разработка инструментария, то авторы корпусов не ставят целью обеспечить сбалансированные представительные корпуса для анализируемых языков. Для многих языков корпуса представляют собой тексты Википедии либо соответствующую часть мультиязычного корпуса текстов документов Европарламента.

Корпуса, доступные с сайта университета Лидс

С сайта университета Лидс доступно большое количество корпусов. Это коллекции корпусов английского языка, корпусов русских текстов, корпусов китайского языка, Интернет-корпуса для многих других языков. Полный список корпусов можно найти по адресу http://corpus.leeds.ac.uk/list.html .
Поисковый интерфейс предоставляет интересные возможности. Он позволяет вести очень точный поиск, поскольку дает возможность использовать специальный язык запросов. Кроме того, результаты легко копируются в таблицу Excel. Можно также получить информацию о коллокациях, в которые входят интересующие пользователя языковые выражения (слова и словосочетания).

Закрыть раздел

Существует достаточно много корпусов английского языка. Некоторые из них упоминаются
почти в каждом учебнике по корпусной лингвистике и на любом сайте, посвященном корпусам.
Однако многие из них платные, и доступ к ним затруднен. Есть и доступные корпуса с
удобным поисковым интерфейсом. Целая серия общедоступных английских корпусов — это
корпуса, созданные Марком Дэвисом. Со списком этих корпусов можно ознакомиться по
адресу, приведенному выше. Все они имеют одинаковый поисковый интерфейс, обеспечивающий
поиск по разнообразным параметрам. Следует также отметить собрание корпусов, доступных с
сайта университета Лидс.

Разметка и возможности поиска

Корпус включает морфологическую и синтаксическую разметку.

Закрыть раздел

Закрыть раздел

Закрыть раздел

Разметка и возможности поиска

Возможен поиск по различным подкорпусам. Выдача ограничена до 500 предложений. Длина выдаваемого контекста до 200 символов. Какая-либо разметка, кроме метатекстовой, отсутствует. Поиск по лемме отсутствует, возможен только поиск по точной форме. Можно использовать подстановочные знаки для «неточного поиска» (например, на запрос “bon+ ” получить следующие формы bon, bons, bonne, bonnes) .

Закрыть раздел

Разметка и возможности поиска

Есть лемматизация и морфологическая разметка. Тексты Европарламента имеют синтаксическую разметку, т.е. для французского языка в рамках проекта VISL представлен банк синтаксических деревьев. Поиск осуществляется поисковым интерфейсом, разработанным в рамках данного проекта с использованием специального языка запросов. Поиск возможен по словам, словосочетаниям, морфологическим и синтаксическим характеристикам.

Закрыть раздел

Закрыть раздел

Исторический корпус испанского языка CORPUS DEL ESPAСOL

Общая характеристика, состав

Исторический корпус испанского языка, в котором представлены тексты с 13 по 20 века. Один из корпусов, созданных профессором Марком Дэвисом (см. выше). В корпусе содержится 100 миллионов слов из более чем 20000 испанских текстов (20 миллионов слов из текстов 1900-х, 20 миллионов из 1800-х, 40 миллионов из 1500-1700-х и 20 миллионов из 1200-1400-х годов).

Доступ к корпусу

Корпус находится в свободном доступе. Требуется регистрация.

Как и в остальных корпусах Марка Дэвиса, в корпусе есть лемматизация и морфологическая разметка. Возможен поиск по словоформе, лемме, словосочетанию из двух слов, синонимическому ряду, списку слов, заданному пользователем, сравнение синонимов по сочетаемости, предоставляется информация о частоте употребления языкового выражения по векам, что особенно важно для исторического корпуса.

Закрыть раздел

Корпус испанского языка Corpus de Referencia del Español Actual (CREA)

Общая характеристика, состав

Представительный корпус испанского языка, отражающий язык во всех его национальных вариантах за период с 1975 по 1999 гг. 50% корпуса образуют европейские тексты, 50% — латиноамериканские тексты. 90% объема корпуса занимают письменные тексты, 10% приходится на долю записей устной речи. Корпус является проектом Испанской Королевской Академии. Корпус характеризуется использованием целых текстов. Тексты снабжены метаразметкой.

Доступ к корпусу

Корпус имеет свободный доступ онлайн.

Разметка и возможности корпуса

Корпус имеет только метаразметку. То есть поиск может осуществляться в различных подкорпусах, задаваемых по жанру, времени создания текста, стране и т.п. Искать можно по словоформе или группе словоформ. Планируемый объем корпуса 125 миллионов словоупотреблений.

Закрыть раздел

Диахронический корпус испанского языка Corpus Diacrуnico del Espaсol (CORDE)

Общая характеристика, состав

Диахронический корпус испанского языка (Испанская Королевская Академия) включает тексты различных типов (художественные (проза, поэзия, драматургия), дидактические, религиозные, общественные, научные, документально-исторические, юридические), отражающие различные исторические эпохи: 21% объема приходится на тексты, написанные до 1492 г., 28% — на тексты, написанные с 1493 по 1713 гг., 51% — на тексты, написанные с 1714 по 1974 гг. По географическому признаку тексты разделены следующим образом: 74% образуют тексты, созданные в Испании, 26% — тексты, созданные в других регионах.

1

В данной статье рассматриваются основные подходы к изучению семантики языковых единиц островных немецких говоров с привлечением методов корпусной лингвистики. Языковая система островных немецких говоров характеризуется значительной вариативностью на всех уровнях: фонетическом, морфологическом, лексико-семантическом, синтаксическом. Изучение спектра значений в синхронии и диахронии возможно лишь при привлечении большого корпуса диалектных текстов. Многие европейские корпусы разговорной и диалектной речи используют систему EXMARaLDA. Диалектный корпус представляет собой специфический массив данных, поскольку диалект обладает системными отличиями от литературного языка и является исключительно устной формой коммуникации. Электронные корпусы диалектных текстов являются принципиально новым источником, способствующим приобщению диалектологии к современной научной лингвистической парадигме, в которой изучение основных языковых черт диалекта было бы автоматизировано, обеспечивало бы перекрестные исследования в текстах различных говоров, облегчало бы поиск и выборку необходимых данных и позволяло бы проводить диахронические исследования на примере нескольких десятилетий.

диалектология

островные немецкие говоры

языковая вариативность

корпусная лингвистика

лингвистический корпус

1. Ахманова О.С. Словарь лингвистических терминов. – М. : КомКнига, 2007. – 576 с.

2. Баранов О.Н. Введение в прикладную лингвистику. – М. : Едиториал УРСС, 2003. – 360 с.

3. Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. – Иркутск: ИГЛУ, 2011. – 161 с.

4. Крючкова О.Ю., Гольдин В.Е., Сдобнова А.П. Корпус русской диалектной речи: концепция и параметры оценки. – URL: http://www.dialog-21.ru/digests/dialog2011/materials/ru/pdf/36.pdf.

5. Юрина Е.А. Томский диалектный корпус: в начале пути // Вестник Томского государственного университета. - 2011. – № 2 (14). - С. 58-63.

6. Lemnitzer L., Zinsmeister H. Korpuslinguistik. Eine Einführung. – Tübingen: Narr Verlag, 2010. – 214 s.

7. Perkuhn R., Keibel H., Kupietz M. Korpuslinguistik. – Paderborn: Wilhelm Fink Verlag, 2012. - 144 s.

8. Schmidt Th. Grundzüge von EXMARaLDA – einem System zur komputergestützten Erstellung und Auswertung von Korpora gesprochener Sprache. – URL: http://www1.uni-hamburg.de/exmaralda/files/Backstein.pdf.

Семантические исследования диалектной лексики предполагают работу в нескольких направлениях: синхронное описание лексического состава диалекта, изучение семантических новаций и вариантов с учетом внутренних законов развития и языковых контактов в диахроническом аспекте, а также сопоставительный анализ с материнским диалектом или группой родственных диалектов для определения путей семантического развития. Особое место в группе диалектов занимают островные говоры, под которыми традиционно понимаются разновидности языка, длительное время существующие в окружении другого языка, территориальная и культурно-языковая изоляция которых привела к появлению дивергентных языковых признаков или сохранению архаических черт.

Изучение проходящих в диалекте процессов важно не только для понимания развития диалекта как одной из подсистем языка, но и для понимания динамики языковых процессов в национальном языке в целом. Немецкие говоры на территории Алтайского края характеризуются значительным разнообразием их лексико-семантической системы, которая является составной частью единой языковой системы немецкого языка, но содержит множество лексических единиц, отличающихся от стандарта и локально ограниченных в своем употреблении. Исследование всех случаев и контекстов употребления того или иного слова в различных островных говорах позволяет сделать вывод о стабильности или изменчивости конкретной языковой единицы. Изучение спектра значений в синхронии и диахронии возможно лишь при привлечении большого количества языкового материала, подтверждающего узуальность и конвенциональность определенного значения. Исследование семантики лексических единиц в диахроническом аспекте подразумевает прослеживание способов/контекстов использования той или иной единицы в различных коммуникативных ситуациях и контекстах. Таким образом, для получения объективных результатов необходим достаточный корпус языкового материала, собранного из множества различных источников в различное время.

Понятие корпуса является в лингвистике неоднозначным и даже многогранным. Так, «Словарь лингвистических терминов» дает следующие трактовки.

Корпус (массив, текст)

  1. Примерная совокупность высказываний, отобранных для анализа и представленных в виде письменного текста, аудиозаписи и т.п.
  2. Вся сумма (совокупность) произведений речи, созданных коллективом носителей данного языка .

Такое классическое понимание лингвистического корпуса принципиально важно для диалектологических исследований, первым этапом которых всегда является запись речи носителей диалекта (как правило, аудио-и/или видеозапись с последующей письменной фиксацией в виде транскрипции или в орфографии).

Научно-исследовательской группой Лингвистического института Алтайской государственной педагогической академии под руководством проф. Л.И. Москалюк в течение нескольких десятилетий накоплен огромный языковой диалектный материал. Значительная часть аудиозаписей уже расшифрована и затранскрибирована, данный языковой материал уже частично лингвистически обработан и исследован.

Однако такой текстовый (в широком смысле) корпус представляет собой базу, но не инструмент исследования. Традиционно исследователь вручную проводил выборку отдельных явлений (лексических, грамматических, синтаксических и др.), исходя из целей и гипотез проводимого им исследования, и лишь потом проводил анализ полученного языкового материала. Такая технология исследования всегда является достаточно трудоемкой, требует много времени. Следует отметить и определенную долю субъективизма исследователя при отборе материала, при которой статистически возможны погрешности.

Но развитие науки и техники открывает новые возможности для исследователей, современные информационные технологии способствуют более быстрой и объективной обработке языковых данных. В лингвистических исследованиях все более широкое применение находят электронные ресурсы различных типов: электронные словари, базы данных, текстовые корпусы. Как отмечают создатели Саратовского диалектного корпуса русского языка, наличие электронных автоматически обрабатываемых лингвистических баз данных не только значительно ускоряет и оптимизирует трудоемкий процесс сбора языкового материала, но и ведет к смене научной парадигмы в лингвистике .

Эти задачи успешно решает корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий. Это позволяет в реальном времени получать результаты, требующие обработки таких массивов текстов, для получения и обработки которых ранее требовались месяцы. Корпус не просто позволяет ускорить исследования языка и многократно повысить их эффективность, достоверность и проверяемость - он позволяет решать такие задачи, которые лингвистика предыдущих эпох практически не ставила в силу их трудоемкости или невыполнимости. К таким задачам относятся, например, многие виды статистических и других квантитативных исследований языка. Корпусная лингвистика при этом не только измерительный и статистический инструмент, но и своеобразная «стратегия, методология исследования» . Примат объективных количественных данных, требование большого массива примеров, а также необходимость относительно широкой «географии» источников предполагает и совершенно иной методологический подход к решению задачи. Корпусная лингвистика исходит из того, что исследователь занимает, с одной стороны, позицию стороннего наблюдателя над языковыми явлениями, с другой стороны, произвольно задает параметры для выборки и анализа данных корпуса, т.е. корпусная лингвистика объединяет в себе теоретические и эмпирические принципы лингвистики.

В настоящее время существует множество определений понятия «лингвистический корпус». В качестве базового можно принять определение В.П. Захарова: «под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач» .

Различают различные виды корпусов: иллюстративные, исследовательские, динамические, статистические. Исследовательский корпус предназначен преимущественно для изучения раз-личных аспектов функционирования языковой системы. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. В качестве основных требований, предъявляемых исследователями к подобного рода корпусу, выделяются репрезентативность, полнота, экономичность, самодостаточность, компьютерная поддержка, структуризация материала .

Главная характеристика корпуса, отличающая его от простых коллекций текстов, заключается в наличии дополнительной информации о свойствах входящих в него текстов (разметки, или аннотации). Каждый текст должен иметь лингвистическую и экстралингвистическую разметку. В информацию о тексте необходимо включить сведения об информантах, о времени, месте записи, о конкретной ситуации общения, сведения о диалекте (говоре). Метатекстовая информация должна быть универсальной, типичной для лингвистических корпусов различного типа, чтобы не ограничивать параметры поиска, а, наоборот, сделать корпус доступным для многих исследователей с их различными целями, подходами и исходными гипотезами.

Самыми большими и полными являются корпусы национальных языков, например Национальный корпус русского языка, Брауновский корпус американского варианта английского языка, Британский национальный корпус и др. Во многих странах ведутся работы по созданию корпусов по разновидностям языка (корпус диалектов, устной или письменной речи, корпус смс-сообщений, детской речи, публицистических текстов и др. ). Обширной информационной системой является корпус разговорного немецкого языка (Datenbank Gesprochenes Deutsch (DGD des DSAv)), разрабатываемый Институтом немецкого языка (г. Мангейм). Диалектный корпус является особым видом лингвистического корпуса, отличным от корпуса разговорной речи национального языка, поскольку диалектная языковая система по многим параметрам отличается от стандартной литературной и даже разговорной нормы (многочисленные фонетические варианты одной лексемы, уникальная, собственно диалектная лексика, не поддающаяся простому переводу на литературный язык, и др.). Создание диалектного электронного корпуса сопряжено с целым рядом сложностей:

  • системные языковые отличия от литературного языка;
  • исключительно устный характер диалектной коммуникации, как следствие - невозможность опереться на письменные источники;
  • вариативность на всех уровнях, затрудняющая идентификацию единиц в корпусе;
  • отсутствие единообразия при фиксации диалектной речи и различные способы организации информации.

Именно эти сложности и определяют еще незначительное количество диалектных и региональных корпусов как в русском, так и в немецком языковом пространстве. Работа над большинством корпусов еще не закончена. Технические и методологические проблемы во многом схожи. Так, разработчики Саратовского диалектного корпуса определяют необходимые параметры для четкой концепции корпуса. К числу таких параметров относятся, по их мнению, следующие:

  1. принципы отбора диалектного материала и критерии репрезентативности диалектного корпуса;
  2. принципы членения речевого континуума в корпусе;
  3. параметры выдачи текстовых фрагментов;
  4. формы представления диалектных текстов в корпусе;
  5. виды и правила аннотирования текстовой базы корпуса;
  6. параметры метаразметки диалектных текстов;
  7. представление в диалектном корпусе нелингвистической информации;
  8. оптимальные для диалектологических исследований возможности пользовательских запросов .

Остановимся кратко на каждом параметре. Для создания репрезентативного корпуса диалектных текстов необходимо большое количество лингвистически валидных и аутентичных записей и их транскрипций. При этом преимущество должно отдаваться записям реальной, не моделируемой исследователем коммуникации. Текст понимается максимально широко как любое речевое действие различной протяженности во времени. Учитывая наличие различных немецких говоров на территории Алтайского края, необходимо представить тексты всех диалектных областей. Все это обеспечивает объективность и надежность представленных лингвистических данных. В семантических исследованиях с помощью корпуса репрезентативность понимается не только количественно, но и качественно. Такой корпус должен покрывать большое количество тематических «проблемных областей». Под «проблемной областью» понимается «область реализаций языковой системы, содержащая феномены, подлежащие лин-гвистическому описанию» . Учитывая преимущественно бытовую (не профессиональную) и семейную сферу употребления диалекта, необходимо включить в состав корпуса тексты различной тематики.

Как правило, диалектные текстовые корпусы значительно меньше по объему корпуса национального языка. Это обусловлено исключительно устной формой общения носителей диалекта, отсутствием письменных текстов на диалекте и ограниченностью тем личной и бытовой сферы общения. Кроме того, сложность лингвистической обработки таких текстов (расшифровка, разметка, аннотирование, семантический и структурный анализ) замедляет работу над пополнением корпуса и требует привлечения достаточного количества исследователей для его создания.

При создании корпуса и работе с ним наряду с репрезентативностью и полнотой данных методологически важен также параметр аутентичности и валидности текстов. Приоритет должен отдаваться записям естественной, спонтанной и неконтролируемой исследователем речи носителей диалекта. Однако даже сам факт присутствия наблюдателя, даже не участвующего в беседе, накладывает отпечаток на ход беседы. Методика сбора диалектного материала, как правило, не дает возможности получать по-настоя-щему естественный диалог, поскольку ситуация общения искусственно конструируется: эксплицитно задается тема коммуникации, участ-ники диалога информированы о целях опроса и т.д. Такого рода тексты создатели корпусов диалектной речи относят к так называемым полуаутентичным, «провоцированным», контролируемым текстам (evozierte Daten: halbkontrollierte Texte (evokative Feldexperimente und aufgabenorientierte Kommunikation) . Поэтому необходимы метаданные о характере протекания разговора и условиях записи. Это еще одно преимущество обработки диалектных текстов с помощью автоматического текстового корпуса, что позволяет дифференцировать полученные в процессе выборки и анализа результаты.

Наиболее надежной формой хранения диалектных текстов и оптимальной формой для проведения лингвистического анализа на примере большого массива данных является программно обеспеченный электронный текстовый корпус. Электронная форма представления диалектных текстов повышает сохранность этого уникального материала, создает возможность для более свободного доступа лингвистов различной специализации к первичному диалектному материалу, позволяющему анализировать различные явления в речи носителей немецких диалектов. Это определяет параметры 2-7, которые взаимосвязаны и их соблюдение возможно только при правильном подборе компьютерной программы для создания корпуса. Программное обеспечение электронного корпуса позволяет каждому исследователю при минимальных затратах усилий самостоятельно создавать на основе корпуса полные базы данных в соответствии со своими исследовательскими задачами, систематизировать данные по различным заданным параметрам.

Многие европейские корпусы разговорной и диалектной речи используют систему EXMARaLDA (Extensible Markup Language for Discourse Annotation), т.е. расширенную маркированную систему лингвистической аннотации разговорной речи. Это система программ и инструментов для создания, управления, аннотирования и обработки корпуса разговорной речи. Базовой программой для первичного создания корпуса текстов и их аннотирования является Partitur Editor, название которой уже само определяет тип ввода информации: партитурная нотация. В отличие от так называемой драматургической нотации, предполагающей вертикальное расположение текста, партитурная нотация, считающаяся более удачной, строится как музыкальная партитура, но вместо инструментов выступают участники коммуникации. Это позволяет более точно отразить процесс общения в абсолютном измерении (на временной оси) и в отно-сительном измерении, характеризующем речь участников коммуникации в сравнении друг с другом (одновременное говорение, паузы, вставки). Чисто технически партитурная нотация требует большей точности и более сложна в написании. Однако использование специальных средств компьютерной поддержки позволя-ет упростить создание партитурных транскриптов речи .

Программный пакет EXMARaLDA позволяет членить речевой поток в корпусе различными способами, предполагает лингвистическое, метаязыковое и внелингвистическое аннотирование как отдельных единиц текста, так и его фрагментов, содержит метаданные, релевантные для автоматической обработки диалектных текстов. Важным преимуществом этой программы являются ее технические характеристики, возможность конвертирования в другие часто используемые компьютерные форматы и совместимость с другими приложениями и операционными системами. Она позволяет также настраивать формат выдачи текстовых фрагментов от одного слова и предложения до текста, в зависимости от целей исследования (параметр 3). Регулируемые параметры выдачи единиц корпуса и возможность лингвистического аннотирования принципиально важны именно для синтаксических и семантических исследований. Если для первых релевантным будет являться предложение или даже абзац, то для вторых во многих случаях важен более широкий контекст, чем отдельное предложение или словоупотребление.

Следующий параметр (4) определяет формы представления диалектных текстов в корпусе. В большинстве корпусов диалектные тексты представлены только в виде полуорфографической/полутранскрипционной записи. Такая фиксация диалектной речи не позволяет изучать ее фонетическую сторону, в этих условиях бóльшую актуальность приобретает вопрос о включении в корпус аудио- и видеозаписей диалектной коммуникации и формах их соотнесения с символьной расшифровкой. Это позволяет программа EXMARaLDA Partitur-Editor, однако процесс синхронизации каждого отрезка речи (как правило, реплики говорящего) является достаточно сложным с технической точки зрения. Тем не менее наличие аудиозаписи делает корпус более интересным и полноценным. Достичь достаточного единообразия отображения диалектных текстов различных диалектных групп и систем и передать основные диалектные признаки в письменной форме позволяет система HIAT (halbinterpretative Arbeitstranskription - полуинтерпретативная рабочая транскрипция), которая позволяет с помощью традиционных орфографических знаков передать особенности звучания, опираясь на традиционные буквенно-звуковые соответствия. Использование системы транскрибирования HIAT в EXMARaLDA Partitur-Editor позволяет также аннотировать каждый элемент текста не только с лингвистической точки зрения (грамматические категории, формы слова, его стандартное литературное соответствие), но и сопроводить транскрипцию внелингвистическим комментарием (мимика, действия респондента (смех, ироничный тон и т.д.), длительность неразборчивых фрагментов) и синхронизировать ее с аудио- или видеозаписью. Система позволяет также фиксировать параллельную, синхронную речь нескольких говорящих, что очень важно при изучении разговорной речи.

Вторым этапом создания корпуса является объединение затранскрибированных, размеченных и аннотированных текстов в корпус. Для этого используются программы корпусного менеджера, например EXMARaLDA CoMa (Corpus Manager). Этот инструмент в полной мере соответствует требованиям, предъявляемым к корпусным менеджерам: корпусный менеджер должен: строить полные конкордансные списки; искать не только отдельные слова, но и словосочетания; осуществлять поиск по шаблонам (сложные запросы); сортировать списки по нескольким критериям, выбираемым пользователем; давать возможность отображать найденные словоформы в расширенном контексте; давать статистическую информацию по отдельным элементам корпуса; отображать леммы, морфологические характеристики словоформ и метаданные (библиографические, типологические) и пр. Объем возможностей по выдаче данных зависит от первоначального аннотирования, однако этот инструмент позволяет работать как с целым корпусом, так и с его разделами по выбору исследователя.

Как уже отмечалось, оптимальным размером выдачи данных для семантических исследований является микроконтекст (хотя бы на уровне абзаца). Для верификации данных и правильной их лингвистической интерпретации исследователь имеет возможность полнотекстового доступа. Таким образом, исходной предпосылкой создания корпуса является наличие некоторого количества текстов, различные по объему фрагменты которых в последующем являются центральной единицей анализа в лингвистическом корпусе. И такое смещение акцентов в понимании текстового корпуса (от простого собрания) до объекта анализа с помощью автоматизированных систем определяет сферу применения методов и инструментов корпусной лингвистики.

Таким образом, электронные корпусы диалектных текстов являются принципиально новым источником, способствующим приобщению диалектологии к современной научной лингвистической парадигме, в которой изучение основных языковых черт диалекта было бы автоматизировано, обеспечивало бы перекрестные исследования в текстах различных говоров, облегчало бы поиск и выборку необходимых данных и позволяло бы проводить диахронические исследования хотя бы на примере нескольких десятилетий.

Исследование выполнено при финансовой поддержке РГНФ в рамках научно-исследовательского проекта № 12-04-00360 «Текстовый корпус немецких диалектов на Алтае».

Рецензенты:

Москалюк Л.И., д.фил.н., профессор ФГБОУ ВПО «Алтайская государственная педагогическая академия», г. Барнаул;

Колесов И.Ю., д.фил.н., профессор ФГБОУ ВПО «Алтайская государственная педагогическая академия», г. Барнаул.

Библиографическая ссылка

Москвина Т.Н. МЕТОДЫ И ПОДХОДЫ КОРПУСНОЙ ЛИНГВИСТИКИ В ИССЛЕДОВАНИЯХ СЕМАНТИКИ ДИАЛЕКТНОЙ ЛЕКСИКИ // Современные проблемы науки и образования. – 2014. – № 6.;
URL: http://science-education.ru/ru/article/view?id=15784 (дата обращения: 06.04.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Поделиться