ПИСЬМЕННЫЙ КОРПУС ТАТАРСКОГО ЯЗЫКА

Общая информация

На этом сайте помещен Письменный корпус современного татарского языка.
Корпус представляет современный письменный татарский язык в электронной форме.
Объем корпуса татарского языка в настоящее время составляет более 500 миллионов слов (>620 млн токенов), число различных словоформ – около 5 миллионов.
Электронный корпус предназначен интересующимся системой, состоянием и перспективой татарского языка.
Он необходим лингвистам, изучающим татарский язык в рамках корпусной лингвистики.

Данный проект не финансируется какими-либо научными фондами или организациями!
Все работы над Письменным корпусом татарского языка ведутся исключительно в свободное время участников проекта.

Новости проекта

16.03.2022 - На сайт добавлен новый раздел Личные имена, где размещен список татарских имен, отчеств и фамилий.
26.12.2021 - Некоторые изменения в проекте:
- Корпус перенесен на новый хостинг.
- Удален доступ по HTTP протоколу вследствие его устаревания. Сейчас используется только HTTPS.
- Обновлены некоторые разделы сайта.
21.10.2019 - Обновлена Система проверки правописания для татарского языка.
20.10.2019 - Релиз 4-й версии Корпуса:
- объем Корпуса увеличен с 356 млн словоупотреблений до 500 млн словоупотреблений;
- количество источников достигло 17 000 единиц;
- улучшено качество морфологической разметки.
Огромное спасибо всем людям, участвовавшим в подготовке этого материала!
20.03.2019 - В разделе Статистика размещены татарские палиндромы.
24.01.2019 - В разделе Поиска по n-граммам добавлена функция сортировки найденных результатов.
21.01.2019 - На сайт добавлен новый раздел Тезаурус, где размещены word embeddings, сгенерированные на базе неглубокой нейронной сети через технологию word2vec.
28.12.2018 - Значительно улучшена точность Системы проверки правописания для татарского языка:
- система теперь работает на базе нашего нового корпуса;
- начал использоваться морфологический анализатор проекта Apertium.
27.11.2018 - Релиз 3-й версии Корпуса:
- объем Корпуса увеличен со 116 млн словоупотреблений до 356 млн словоупотреблений;
- количество источников достигло 16 000 единиц.
Огромное спасибо всем тем многочисленным энтузиастам и организациям, которые помогали в подготовке этого материала!
27.06.2018 - По просьбе пользователей возвращен в качестве дополнительной опции старый стиль отображения источников.
23.06.2018 - Многочисленные изменения, связанные с адаптацией сайта для мобильных устройств.
03.06.2018 - Добавлено отображение найденных результатов в режиме KWIC, где предложения выравниваются по искомому слову.
25.03.2018 - Теперь можно искать не только по целому корпусу, но и в отдельных текстах. Для этого можно использовать, в том числе, маски или регулярные выражения.
16.03.2018 - В корпус интегрирована система поиска NoSketchEngine.
16.02.2018 - Внесены многочисленные улучшения:
- Внедрена начальная поддержка языка корпусных запросов CQL, который является де-факто стандартом в корпусной лингвистике.
- Внедрена возможность поиска с использованием расширенных регулярных выражений POSIX.
- Добавлена функция просмотра контекста найденных предложений (используйте кнопку "Расширить контекст").
- Исправлены найденные ошибки.
08.02.2018 - Поиск по маске (с подстановочными знаками "*" и "?") теперь доступен не только для словоформ, но и для лемм, например, (ат*): (ат), (атна), (атла), (атаклы)...
26.11.2017 - Полностью переработана система поиска по N-граммам, для чего была разработана программа fastngrams (GitHub). Основные изменения в функциональности n-грамм:
- многократно увеличена скорость поиска;
- добавлена возможность использования в поиске таких параметров, как словоформа, лемма, грамматические теги (части речи, морфологические категории), учет регистра букв, маска.
03.07.2017 - Список изменений в системе Проверки орфографии:
- улучшено определение орфографических ошибок;
- добавлено сохранение форматирования исходного текста;
- добавлено предложение списка схожих слов из Корпуса.
21.06.2017 - В системе fastmorph набор грамматических тегов теперь показывается для всех слов в предложении.
03.06.2017 - На сайте размещен Синтезатор татарской речи "Талгат" на базе системы RHVoice, разработанный в Республиканской специальной библиотеке для слепых и слабовидящих.
27.02.2017 - Релиз версии 5 корпусного поискового движка fastmorph. Потребление оперативной памяти уменьшено примерно в 2,5 раза.
23.01.2017 - В разделе Орфография Онлайн запущен сервис проверки правописания текстов на татарском языке.
09.01.2017 - В разделе Поиск в Корпусе запущен сервис поиска по N-граммам. Поддерживаются 1, 2, 3, 4, 5 и 6-граммы.
22.11.2016 - Мы открыли исходный код разработанного нами корпусного поискового движка fastmorph под лицензией GNU General Public License v3.0 и выложили его на GitHub.
18.11.2016 - Релиз версии 4 корпусного поискового движка fastmorph. Список изменений:
- добавлена опция поиска с учетом регистра букв;
- потребление поисковой системой оперативной памяти уменьшено в 2 раза;
- благодаря существенным изменениям в архитектуре приложения, время выполнения поискового запроса сократилось в 3 - 5 раз.
17.11.2016 - Корпус полностью переразмечен новой версией морфологического анализатора Apertium.
12.10.2016 - В разделе Статистика размещены списки частотности лемм татарского языка.
19.07.2016 - Очередные улучшения в поисковом движке fastmorph системы Сложного морфологического поиска:
- к уже имеющемуся знаку маски "*", обозначающему любое количество любых символов, добавлена маска "?", обозначающая один любой символ. Подробнее об этом читайте в обновленных Инструкциях;
- в техническом плане уменьшено на 25% потребление памяти поисковой системой;
- устранены незначительные ошибки в коде.
01.07.2016 - Обновлены Инструкции на татарском, русском и английском языках.
13.06.2016 - В модуле fastmorph добавлена возможность поиска по середине слова. Например, если ввести *әме*, то найдутся ярдәмендә, бәйрәмен, үткәрәмен, өйдәме...
21.04.2016 - Благодаря внедрению процессорных оптимизаций и поддержки многопоточности в модуле fastmorph, удалось добиться до пятикратного увеличения скорости выполнения сложного морфологического поиска.
03.04.2016 - Значительно расширены возможности системы Сложного морфологического поиска. Подробнее об этом читайте в обновленных Инструкциях версии 3.0 и выше.
29.03.2016 - В разделе Сложного морфологического поиска добавлен графический режим ввода в поисковый запрос грамматических показателей.
22.02.2016 - В Письменном корпусе появилась функция Сложного морфологического поиска на основе различных комбинаций таких параметров, как словоформа, лемма, набор грамматических тегов, префикс, постфикс и возможностью указания расстояний между ними.
21.11.2015 - В Синтезаторе татарской речи добавлена поддержка системы письма татар, живущих в Финляндии.
20.11.2015 - В разделе Инструкция теперь доступно Руководство пользователя к Письменному корпусу на английском языке.
06.10.2015 - Создан раздел Инструкция, где на данный момент размещена русская версия Руководства пользователя к Письменному корпусу татарского языка. В дальнейшем также будут выложены версии на татарском и английском языках.
16.08.2015 - На сайте размещена Система синтеза татарской речи, разрабатываемая командой Письменного корпуса татарского языка. В данный момент идет активная работа над проектом, поэтому приглашаем к сотрудничеству добровольцев, ждем ваших советов и предложений.
11.06.2015 - На странице поиска добавлена возможность ввода символов через экранную клавиатуру, что позволяет работать с Корпусом при отсутствии татарской раскладки.
18.04.2015 - Внедрена система поиска в Корпусе по шаблону (конец слова).
29.03.2015 - Лимит на просмотр правого, левого и семантического контекстов увеличен со 100 до 10 000 единиц. Для их просмотра в табличном виде необходимо нажать ссылку "Показать все".
26.03.2015 - Теперь Корпус доступен и по новому адресу corpus.tatar. Доступ по старому адресу corpus.tatfolk.ru сохранен.
14.03.2015 - Внедрена система поиска в Корпусе по шаблону (начало слова).
12.10.2014 - Реализована возможность прослушивания визуализированных предложений (нажав на соответствующую кнопку слева от предложения).
05.10.2014 - Произведена морфологическая разметка Корпуса. В основу метаязыка грамматических помет положена система «тегов» для тюркских языков, разработанная международным проектом Apertium.
14.08.2014 - Релиз новой версии Корпуса:
- объем Корпуса увеличен с 45 млн словоупотреблений до 116 млн словоупотреблений;
- в качестве источников теперь внесены многочисленные художественные произведения, сборники научных трудов, монографии, газеты и журналы, религиозная литература и др.;
- реализация просмотра предложений, где встречается определенное словосочетание (при нажатии на слова в разделах правого и левого контекста);
- введены новые типы статистических данных ("Логарифмическое правдоподобие");
- создание раздела Статистика, который будет постепенно пополняться;
- пополнение раздела Публикации.
16.03.2014 - Список изменений:
- в связи со случаями большой нагрузки на сервер, создаваемой различными роботами, были введены определенные ограничения на количество запросов;
- искомое слово в найденных предложениях для удобства просмотра выделяется красным цветом;
- пополнение раздела Публикации;
- исправление найденных ошибок.
24.03.2013 - Внесены многочисленные улучшения:
- интерфейс теперь доступен на татарском, русском и английском языках;
- оптимизация работы базы данных и поискового движка;
- снято ограничение в 50 предложений для просмотра;
- возможность просмотра контекста, откуда взято предложение (нажав на "Найти текст").
15.03.2012 - Завершена основная работа по созданию Письменного корпуса татарского языка. Разработаны базовые версии сайта и поискового модуля. Запуск сервиса.