Новости

26.04.2024

На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса. 

Теперь пользователям доступны:

  • токенизатор
  • векторные word2vec модели, обученные на текстах из 7 корпусов, которые мы используем для поиска слов-ассоциатов
  • модели для словообразовательной разметки
  • модели для разметки тематики, жанров, типов текстов

Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.

26.04.2024

В апреле мы значительно усовершенствовали работу Древнерусского корпуса. В корпусе появились новые виды выдачи: Частотность, Статистика, n-граммы. Благодаря появлению в Древнерусском корпусе вида выдачи «Частотность» можно исследовать, например, какие существительные в корпусе чаще всего встречаются вместе. Кроме того, результаты выдачи теперь можно сортировать по контексту. В портрете корпуса появился Частотный словарь, доступный ранее в Основном, Газетном и других корпусах; частотный словарь памятников или их групп можно сравнивать со словарем корпуса текстов.

Появление нового функционала существенно расширяет возможности использования корпуса и автоматизирует рутинные процессы, которые ранее занимали у исследователя значительное время.

15.04.2024

Мы продолжаем внедрять новый функционал, уже доступный в передовых корпусах — Основном, Газетных, Обучающем — в другие корпуса. Теперь пользователям НКРЯ доступна улучшенная версия корпуса «От 2 до 15». Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических связей. В корпусе стали доступны поиск по синтаксическим отношениям и поиск коллокаций, а также новые виды выдачи: частотность, н-граммы, статистика.

Обновились портрет слова и корпуса, добавлены новые виды сортировок по контексту.
В Портрете слова можно увидеть, что слова мама и папа гораздо чаще употребляются в текстах для самых младших читателей - 7-8 лет, а слова бабушка и дедушка - поровну в текстах для самых младших читателей и для подростков 14-15 лет.

Плашка возле фрагмента с указанием возраста читателей, которым эти фрагменты должны быть понятны, стала кликабельной. По клику вы увидите рассчитанные классические индексы сложности: Индекс Флеша-Кинкейда, Индекс Колман-Лиау, Автоматический индекс удобочитаемости, Simple Measure of Gobbledygook, Индекс Дейла-Чалл

15.04.2024

В преддверии 20-летия Национального корпуса мы существенно обновили страницу публикаций на нашем сайте. Пополнен список публикаций о Корпусе: количество публикаций увеличилось примерно в 5 раз! Теперь в разделе представлены как научные статьи, так и другие типы публикаций — интервью, инструкции, публикации в социальных сетях.

Страница публикаций о Корпусе стала более функциональной: теперь найти публикацию, посвященную Национальному корпусу русского языка, можно в строке поиска или с помощью фильтров, расположенных справа.

По умолчанию пользователю показываются наиболее популярные фильтры. Чтобы увидеть все доступные фильтры на странице публикаций, нажмите «Показать все». Сочетание нескольких фильтров сужает поиск и позволяет отобрать публикации по нескольким критериям.

Некоторые публикации можно скачать, нажав на иконку справа от названия. Остальные публикации открываются в отдельном окне. Вы можете  поделиться списком отобранных публикаций, нажав на кнопку «Копировать ссылку на запрос».