Новости

29.03.2024

В корпусе «Русская классика» внедрена автоматическая разметка при помощи нейросетевых механизмов. Теперь в нем доступны те же поисковые и статистические инструменты, что в Основном, Газетном и других «передовых» корпусах: частотность, н-граммы, статистика по метапризнакам, скетчи в портрете слова, поиск по синтаксическим отношениям, сравнение подкорпусов по частотным словникам и многое другое. Кроме того, корпус «Русская классика» — единственный из корпусов НКРЯ, где репрезентативно представлены и стих, и письменная проза, и можно отбирать эти типы текста отдельно. Благодаря всему этому мы можем сравнить, о чем писали русские классики. Например, можно говорить о «‎человекоцентричности»‎ русской классической литературы (см. иллюстрацию), а также заметить, что о душе поэты (В. А. ЖуковскийЕ. А. БаратынскийМ. Ю. Лермонтов), писали значительно чаще, чем прозаики (А. Н. РадищевН. В. ГогольИ. С. Тургенев).

05.03.2024

В Синтаксическом корпусе появилась возможность отбора подкорпуса по основным параметрам, таким как автор, название текста, дата его создания и год рождения автора, а также по жанрам и типам текстов и по дате разметки.

Следите за нашими новостями на сайте и в социальных сетях, в марте мы продолжим совершенствовать работу Синтаксического корпуса!

05.03.2024

В феврале мы существенно усовершенствовали Газетный корпус.

Корпус пополнен более чем на 49,6 млн словоформ. В него добавлены периодические издания 1990-х годов («Независимая газета», в том числе еженедельные приложения, «Московский комсомолец», «Санкт-Петербургские ведомости»).

Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических связей (напомним, что поле запроса появляется начиная со второго слова после нажатия ссылки «добавить условие»). Это делает доступными в Газетном корпусе центральных СМИ те новейшие функции, которые уже есть в меньших по объему Основном корпусе и Корпусе региональных СМИ: поиск по синтаксическим отношениям и свойствам, поиск коллокаций, частотный словарь, частотность выдачи.

Газетный корпус НКРЯ — теперь самый объемный в мире онлайн-корпус русского языка с возможностью поиска по синтаксическим связям!

В форме подкорпуса появилась возможность отбирать тексты по тематике и типу. Для разметки этих полей использована модель RuRoBERTa, дообученная на данных Регионального корпуса. Поля в форме подкорпуса и информации о тексте, значения которых сгенерированы НейроКРЯ, помечены специальным значком. При автоматической разметке возможны ошибки. Во всплывающем окне информации о тексте есть кнопка «Сообщить об ошибке». Сообщайте нам о всех неточностях и ошибках в определении тематики и типов.

13.02.2024

Корпус «Русская классика» пополнен более чем на 1 млн словоформ. В него добавлены полные собрания сочинений А. Н. Радищева и И. А. Крылова, а также некоторые произведения уже представленных в нем авторов, пропущенные в предыдущем релизе корпуса. В корпусе можно строить графики, сравнивать запросы и отбирать подкорпус по жанру. Поисковую выдачу теперь можно сортировать по дате создания и по автору и жанру.