МТС представила языковую модель Cotype Lite для работы с текстами на татарском 10 Сентября, Вторник

МТС представила разработанную MTS AI новую версию большой языковой модели Cotype Lite для работы с текстами на татарском языке — Rehmet. Презентация состоялась на форуме Kazan Digital Week.

Rehmet способен обрабатывать документы объемом в пять листов A4, извлекать и суммаризировать данные за несколько секунд. Разработку можно использовать в архивах, библиотеках, в государственных и частных организациях — везде, где есть потребность в обработке информации и анализе документов на татарском.

Так, например, Rehmet способен ускорить обработку заявлений в государственные органы. Cotype может извлекать ключевую информацию, такую как тематика запроса, местоположение и личные данные заявителя, а после — передать ее в соответствующую базу данных. Новая версия также устанавливается в контуре организации, что позволяет исключить утечки информации.

«Создавая большую языковую модель на татарском, разработчики MTS AI преследовали несколько целей. Во-первых, мы хотели поддержать многообразие языков, существующих в России, помочь им развиваться и быть востребованными в цифровую эпоху. Во-вторых, этот проект показал, что мы умеем адаптировать наши модели под любые научные и бизнес-задачи, в том числе и такие нетривиальные как обработка информации на языках народов России», — рассказал исполнительный директор MTS AI Дмитрий Марков.

Разработчики Cotype Rehmet собрали датасет и перевели его с русского на татарский. После все данные и ответы модели проверили специалисты-тюркологи и носители языка. По их же словам, Cotype Rehmet входит в число лучших LLM в своем классе: она содержит восемь млрд. параметров. А обучение Cotype Light происходит на мощностях МТС Web Services.

Смотреть
все новости