Корпус включает домены по предметным областям, что позволяет сравнивать поступающие на вход ученические тексты как с общенаучным дискурсом, так и внутри определенной предметной области. Источниками текстов являются журналы научных статей по соответствующим предметным областям. Во избежание включения в корпус статей низкого качества использовались журналы, входящие в Перечень журналов, публикации в которых учитываются при назначении академических надбавок в НИУ ВШЭ. Выделяются следующие домены:
Общий объём составляет порядка 2 млн. токенов.
Деление на токены и предложения, а также морфологическая и синтаксическая аннотация корпуса осуществлялись автоматически посредством пайплайна UDPipe.
На основе корпуса были созданы списки коллокаций, по которым также можно осуществлять поиск. Также реализован инструмент поиска стилистических ошибок на основе разметки в формате conll. Алгоритм находит следующие отклонения от академического стиля: длинные последовательности генитивов; неправильное употребление сравнительной степени; неверное употребление сочинительных групп; слова, не встречающиеся в академических текстах; смешение употребления “я” и “мы”; неверное употребление наклонения глаголов; слишком длинные предложения.
Преподаватели: Михаил Копотев (Хельсинкский университет), Олеся Кисселев (Университет Техаса в Сан-Антонио), Наталья Зевахина, Светлана Толдова (НИУ ВШЭ)
Студенты: Анастасия Баранчикова, Анна Дмитриева, Александр Климов, Станислав Краснов, Мария Фёдорова (НИУ ВШЭ)