Чтение онлайн

на главную

Жанры

Избранные труды конференции «Когнитивные исследования на современном этапе»
Шрифт:

Разметка корпуса осуществлена в программе ELAN (Wittenburg, Brugman, Russel, Klassmann, Sloetjes, 2006).

3.1. Базовая часть

Основная часть содержит информацию, характерную для большинства речевых корпусов: расшифровку записи с указанием времени, леммы, анализ по частям речи и грамматическую информацию.

Квазифонетический слой (Transcript) скоординирован с аудио-/видеофайлами и содержит орфографическую транскрипцию записанной речи. Большинство слов в этом слое выступают в стандартном написании, однако в случае фонетической ошибки или специфического произношения транскрипция отражает эти отклонения от нормы. Например, русское слово сейчас в устной речи может выступать в своей полной форме либо в редуцированном варианте щас. При этом в письменной речи приемлем только

полный вариант. В этом случае квазифонетическая транскрипция должна передать произношение, а не норму языка. Фонематические парафазии (ошибки), встречающиеся в речи людей с афазией, также отражаются в этом слое, например велосипел (правильно велосипед). Абсолютные (тишина) и заполненные (например, хм, ээ) паузы длиной более 70 мс также отмечены в транскрипте. Если какой-либо речевой отрывок неразборчив, используется пометка «Неразборчиво».

Квазифонетическая транскрипция позволяет отразить некоторые черты устной речи и фонематические парафазии, однако она затрудняет анализ лексического многообразия и лексической насыщенности. Слой лексической расшифровки (Transcript_lex) содержит ту же информацию, что квазифонетический слой, но со стандартным правописанием. Лексическая расшифровка используется при подсчете показателей лексического разнообразия (поскольку различные варианты произношения одной лексемы не считаются в этом слое различными словами), а также для целей исследования макроструктуры текста.

Слой лемм (Lemma) содержит все начальные формы слов, а слой англоязычных лемм (Lemma_eng) – перевод всех слов на английский язык. В сочетании с данными грамматического слоя это дает возможность использования данных корпуса Russian CliPS также нерусскоязычными исследователями.

Схемы маркировки частей речи и указания грамматических категорий даются по руководству Национального корпуса русского языка [3] . Каждая грамматическая категория указывается в отдельном слое программы ELAN (всего 13 слоев).

3

http://www.ruscorpora.ru/en/corpora-morph.html.

3.2. Деление на сегменты

3.2.1. ЭДЕ

В зависимости от подхода исследователи используют различные критерии при сегментации устных монологов. Они могут быть основаны на синтаксической структуре, семантике, просодии или на их сочетании. Деление происходит на «высказывания» (Marini et al., 2011), коммуникативные единицы (Armstrong et al., 2011), тематические единицы (Marini et al., 2005), вербализации (Glosser, Deser, 1990), элементарные дискурсивные единицы (ЭДЕ) (Carlson, Marcu, 2001; Kibrik, 1996; Mann, Thompson, 1988; Taboada, Mann, 2006), минимальные единицы дискурса (Degand, Simon, 2005), составляющие единицы дискурса (Polanyi, 1985). В нашем исследовании мы используем термин «элементарные дискурсивные единицы» (ЭДЕ) для обозначения минимального сегмента и термин «высказывание» для обозначения грамматически более сложной единицы.

Спонтанная речь часто содержит множество прерываний, речевых ошибок, неполных и грамматически неверных предложений, пауз, фальстартов, повторов, что затрудняет сегментацию устного дискурса. Кроме того, в отношении речи испытуемых с афазией и с повреждениями правого полушария сложно применять синтаксические и просодические критерии, так как синтаксис и просодия у таких людей могут быть нарушены (Alexander, Hillis, 2008; Heilman, Leon, Rosenbek, 2004; Seddoh, 2004).

Мы используем грамматический, а не просодический (Кибрик, Подлесская, 2013) принцип деления повествования на ЭДЕ. ЭДЕ – это часть предложения со сказуемым или опущенным сказуемым (например, «мальчик на велосипеде к дереву»/the boy on the bike to the tree). Каждый финитный и нефинитный предикат (включая причастия и деепричастия) относится к отдельной ЭДЕ, кроме случаев повтора и поиска слов. Если синтаксической информации недостаточно для суждения о границах ЭДЕ, используются данные просодии.

3.2.2. Высказывания

Высказывание определяется как главное предложение вместе со всеми придаточными (Glosser, Deser, 1990). Соотношение между количеством высказываний и количеством главных и придаточных предложений может рассматриваться в клинической лингвистике как мера грамматической сложности (Andreetta et al., 2012).

3.2.3. Станзы

Разделение на сцены основано на семантическом критерии. Сцена (scene, или stanza) – это термин, используемый в основном при анализе повествования и обозначающий группу строк (ЭДЕ), объединенных общей темой (Gee, 1985).

3.3. Особые слои

Смех указывается в особом слое (Laughter) и соотносится со звуковой волной. Указание на смех позволяет анализировать его как маркер когнитивных затруднений, связанных с неспособностью найти нужное слово, как реакцию на события фильма, предъявляемого в качестве стимула, либо как маркер неудовлетворенности рассказчика качеством своего повествования в целом (Khudyakova, Bergelson, 2015).

Грамматические, семантические и фонетические ошибки указываются в особом слое (Errors). Фонетические ошибки включают замену одного звука другим, например сапка (правильно шапка); пропуск фонемы или включение лишней фонемы, например поропал (правильно пропал), а также использование слова, фонетически близкого к искомому, но семантически отличающегося от него, например грустные вместо груши. Семантические ошибки включают использование слова, входящего в ту же семантическую категорию, что и искомое слово, например яблоки вместо груши или овца вместо коза. В некоторых случаях различить эти два типа ошибок невозможно: например, использование слова сановник вместо садовник может рассматриваться и как фонетическая (замена «д/»на «н»), и как семантическая ошибка (использование неверного слова из категории «профессии). В этом случае указываются оба типа ошибок. Грамматические ошибки включают ошибки в согласовании падежей и чисел.

3.4. Анализ макроструктуры

Провести качественное сравнение текстов и описать особенности различных стратегий позволяет анализ в терминах дискурсивных грамматик. В рамках дискурсивных грамматик можно не только оценить связь каждого высказывания с общей темой дискурса и другими высказываниями, но и обозначить его роль, отнести его к содержательному, оценочному или иному компоненту высказывания.

В клинической лингвистике, как правило, используют модифицированные версии дискурсивных грамматик (Labov, 2008; Longacre, 1996), например, Марини (Marini, 2012) использует краткую версию типов высказываний по Лонгакре (Longacre, 1996) и Лабову (Labov, 2008), приписывая каждому высказыванию один из четырех типов: сюжетная линия, фон, ирреалис и оценка. Использование в данном проекте (в дополнение к упомянутым) такого параметра, как квазинарративный тип изложения, позволяет описать дискурсивные стратегии, характерные для всех групп испытуемых.

Анализ макроструктуры дискурса производится в терминах дискурсивных грамматик, компонентов жанровой схемы рассказа (Bergelson et al., 2014; Labov, 2008; Longacre, 1996; Polanyi, 2003) и прагмалингвистического анализа (Jucker, 1986). Для этого проекта нами были выработаны виды разметки жанровой схемы в рамках метанарративного, оценочного и интерактивного компонентов рассказов, которые позволяют выявить особенности текстов заданного жанра (пересказ видеофильма).

Анализ нарратива на макроуровне для корпуса Russian CLiPS предполагает анализ пересказов с точки зрения соответствия его жанровой схеме рассказа. Этот анализ делится на две последовательные стадии: разбиение рассказа на сцены (станзы) и разметку по компонентам (приписывание каждой сцене тега, обозначающего один из компонентов жанровой схемы рассказа, и затем приписывание каждому высказыванию внутри сцены типа компонента). Сцена – это последовательность высказываний, произведенных в рамке одной перспективы, т. е. внутри сцены не происходит смена перспективы. И наоборот, граница между сценами определяется сменой перспективы.

С точки зрения метанарративного уровня сцены могут принадлежать одному из двух миров: миру истории, о котором повествует рассказчик, и миру рассказывания (Барт, 1987; Падучева, 2008; Norrick, 2000).

3.4.1. Мир истории

Внутри мира истории сцены получают тэги, описывающие их как зачин, кода, описание, ОЛ (основная линия) или оценка. Зачин и кода являются «устойчивыми» компонентами и чаще всего встречаются, соответственно, в начале и конце рассказа по одному вхождению компонента на рассказ.

Поделиться:
Популярные книги

Сумеречный стрелок 8

Карелин Сергей Витальевич
8. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Сумеречный стрелок 8

Дворянская кровь

Седой Василий
1. Дворянская кровь
Фантастика:
попаданцы
альтернативная история
7.00
рейтинг книги
Дворянская кровь

Сыночек в награду. Подари мне любовь

Лесневская Вероника
1. Суровые отцы
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Сыночек в награду. Подари мне любовь

Восход. Солнцев. Книга X

Скабер Артемий
10. Голос Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Восход. Солнцев. Книга X

Афганский рубеж

Дорин Михаил
1. Рубеж
Фантастика:
попаданцы
альтернативная история
7.50
рейтинг книги
Афганский рубеж

Случайная жена для лорда Дракона

Волконская Оксана
Фантастика:
юмористическая фантастика
попаданцы
5.00
рейтинг книги
Случайная жена для лорда Дракона

Ну, здравствуй, перестройка!

Иванов Дмитрий
4. Девяностые
Фантастика:
попаданцы
альтернативная история
6.83
рейтинг книги
Ну, здравствуй, перестройка!

Возвышение Меркурия. Книга 16

Кронос Александр
16. Меркурий
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Возвышение Меркурия. Книга 16

«Три звезды» миллиардера. Отель для новобрачных

Тоцка Тала
2. Три звезды
Любовные романы:
современные любовные романы
7.50
рейтинг книги
«Три звезды» миллиардера. Отель для новобрачных

Виконт. Книга 4. Колонист

Юллем Евгений
Псевдоним `Испанец`
Фантастика:
фэнтези
попаданцы
аниме
7.50
рейтинг книги
Виконт. Книга 4. Колонист

(Не)нужная жена дракона

Углицкая Алина
5. Хроники Драконьей империи
Любовные романы:
любовно-фантастические романы
6.89
рейтинг книги
(Не)нужная жена дракона

Идеальный мир для Лекаря

Сапфир Олег
1. Лекарь
Фантастика:
фэнтези
юмористическое фэнтези
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря

Академия проклятий. Книги 1 - 7

Звездная Елена
Академия Проклятий
Фантастика:
фэнтези
8.98
рейтинг книги
Академия проклятий. Книги 1 - 7

"Колхоз: Назад в СССР". Компиляция. Книги 1-9

Барчук Павел
Колхоз!
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Колхоз: Назад в СССР. Компиляция. Книги 1-9