Информация о корпусе

Данные

Корпус включает домены по предметным областям, что позволяет сравнивать поступающие на вход ученические тексты как с общенаучным дискурсом, так и внутри определенной предметной области. Источниками текстов являются журналы научных статей по соответствующим предметным областям. Во избежание включения в корпус статей низкого качества использовались журналы, входящие в Перечень журналов, публикации в которых учитываются при назначении академических надбавок в НИУ ВШЭ. Выделяются следующие домены:

  • Политология
  • Лингвистика
  • Юриспруденция
  • Психология
  • Экономика
  • Социология

Объём корпуса

Общий объём составляет порядка 2 млн. токенов.

Разметка

Деление на токены и предложения, а также морфологическая и синтаксическая аннотация корпуса осуществлялись автоматически посредством пайплайна UDPipe.

Связанные ресурсы

На основе корпуса были созданы списки коллокаций, по которым также можно осуществлять поиск. Также реализован инструмент поиска стилистических ошибок на основе разметки в формате conll. Алгоритм находит следующие отклонения от академического стиля: длинные последовательности генитивов; неправильное употребление сравнительной степени; неверное употребление сочинительных групп; слова, не встречающиеся в академических текстах; смешение употребления “я” и “мы”; неверное употребление наклонения глаголов; слишком длинные предложения.

Разработчики

Преподаватели: Михаил Копотев (Хельсинкский университет), Олеся Кисселев (Университет Техаса в Сан-Антонио), Наталья Зевахина, Светлана Толдова (НИУ ВШЭ)

Студенты: Анастасия Баранчикова, Анна Дмитриева, Александр Климов, Станислав Краснов, Мария Фёдорова (НИУ ВШЭ)