Национальный корпус шотландского языка



Scottish Corpus of Text and Speech (шотландский корпус текста и речи) — Национальный корпус шотландского (германского) языка, созданный в 2004 году группой экспертов: членами проекта «Английский язык» и проекта «Стелла» Школы Критических Исследований в Университете Глазго.

Предпосылки создания «THE SCOTS»

За последние годы в Шотландии произошли существенные изменения политической ситуации. Новое политическое течение возродило интерес к местным языкам и культуре. В Шотландии языковое наследие яркое, обособленное от других. Современная языковая ситуация здесь весьма насыщена, ведь здесь уживаются шотландский, английский, гэльский и множество других языковых общин. Однако, такие вопросы как сохранение шотландского языка, отличительные характеристики шотландского английского, или использование некоренных языков, таких как китайский или урду не имеет достаточное количество данных и однозначных ответов. И это отсутствие информации создает значительные проблемы для тех, кто работает в сфере образования или просто интересуется данной проблемой.

Современные технологии позволили хранить и анализировать очень большие объёмы информации. И «THE SCOTS» первый масштабный проект, посвященный исключительно языкам Шотландии. Он предоставляет большой электронный корпус письменных и устных текстов для языков этой страны. Корпус существует с ноября 2004 года, и после регулярных обновлений и дополнений, к маю 2007 года количество слов на сайте достигло 4 миллионов. Остается надеяться, что для тех, кто интересуется языковым разнообразием Шотландии, «THE SCOTS» даст ответы на все интересующие их вопросы. Корпус имеет возможность исследовать языки Шотландии по-новому, и устранять пробелы, которые в настоящее время существуют в наших знаниях о них.

The SCOTS

Что же касается самого корпуса, то он создает впечатление современного, крайне удобного, простого в использовании корпуса, постоянно развивающегося и способного дать ответы на многие вопросы . Так, к примеру, каждый желающий, у которого возникли какого-либо рода замечания, может отправить свои пожелания на e-mail создателям, где они в свою очередь могут их рассмотреть и внести соответствующие коррективы.

Состав Корпуса

Шотландский корпус в настоящее время содержит более 1100 письменных и устных текстов, на общую сумму более 4000000 слов. 80 % составляют письменные тексты, 20 % — это устные тексты, которые предоставляются нам в виде орфографической транскрипции, синхронизированной с источником звука или видео.

Одна из функций корпуса заключается в том, чтобы отображать целые тексты там, где это возможно, отчего наполняемость корпуса заметно увеличивается. В некоторых случаях, в силу авторского разрешения, может быть показана только часть текста. В «THE SCOTS» представленная информация взята в источниках начиная с 1945 года и заканчивая сегодняшним днем. SCOTS стремится добиться справедливости для широких спектров текстов, текстов различных видов языка, жанров и регистров; в максимальном объёме представить ораторов или писателей по жанровому, возрастному, половому, профессиональному и географическому признакам.

Виды поиска

Существуют три различных способа поиска. Те пользователи, которых интересует статистическая информация, например, об относительной частоте определённых слов в разных жанрах, могут использовать данные шотландцев в этом направлении. В зависимости от объёма запрашиваемой информации вы можете выбрать быстрый, стандартный или расширенный вид поиска.

Быстрый поиск

Быстрый поиск — это наиболее простой способ найти частоту использования того слова, в котором вы заинтересованы, в различных аудиофайлах и текстовых документах. В результате вы получаете частоту использования слова и формат файлов, в которых оно используется.

Стандартный поиск

Стандартный поиск позволяет выполнять некоторые несложные типы поиска, а также дает возможность просматривать все документы в корпусе.

Расширенный поиск

Расширенный поиск предоставляет более широкий спектр возможностей, нежели стандартный. Здесь представлена основная статистическая информация, конкордансер и карты, на которые выводятся результаты. Расширенный поиск разделяется по поисковым критериям, которые можно задать для ограничения поиска слов в текстах конкретного режима (устной или письменной речи), жанра (переписка, фантастика, интервью), или с определённым набором критериев (беседы после 2000 года, профессиональные научные статьи и так далее). Таким образом, результаты различных поисковых запросов могут быть согласованы друг с другом.