Национальная языковая модель на базе искусственного интеллекта IrbisGPT доступна каждому

Влад Массино

6 месяцев назад

Национальная языковая модель на базе искусственного интеллекта IrbisGPT доступна каждому

В Казахстане стала доступна первая национальная языковая модель с открытым исходным кодом IrbisGPT, обученная на большом наборе данных на государственном языке. Разработчики опубликовали официальный релиз на популярном ресурсе Habr.com. Теперь каждый казахстанец сможет протестировать языковую модель и сделать свой вклад в ее обучение на казахском языке, сообщает Cronos.Asia.

IrbisGPT — общественная некоммерческая инициатива, разработанная в сотрудничестве с MOST Holding и Gen2b.ai, студией, специализирующейся на применении искусственного интеллекта в бизнесе.

"IrbisGPT — это пионерский проект в области развития казахского языка через применение искусственного интеллекта. Цель инициативы - сохранение и распространение казахского языка и его интеграция в современные цифровые технологии для развития общества, экономики и науки в Казахстане. Мы выложили проект в открытый доступ для того, чтобы собрать вокруг него коммьюнити и дать возможность энтузиастам развития казахского языка протестировать его и сделать свой вклад в обучение модели", — рассказал фаундер проекта Бахт Ниязов.

Актуальная версия IrbisGPT демонстрирует отличный потенциал для обучения. По словам разработчиков, подобные опенсорсные модели либо пытаются ответить на английском, либо просто "сыпят" случайными словами на казахском, но благодаря длительному обучению национальная языковая модель на вопросы без контекста отвечает достаточно развернуто и правильно. Так, IrbisGPT дает ответы на государственном языке на вопросы "шөп неге жасыл", знает кто президент Казахстана и количество дней в году, и даже может пофилософствовать о смысле жизни.

"За очень короткое время мы получили впечатляющие результаты. Irbis LLM не просто разобралась с построением слов и грамматикой казахского языка, она умеет обрабатывать входящую информацию, натренирована отвечать на простые вопросы, способна работать с контекстом, что дает возможность ее подключения к актуальным базам знаний, к налоговому кодексу, например, что может стать полезным инструментом по получению релевантной информации. Для обучения модели мы собрали 20 гигабайтов "сырых" данных из новостей и статей на казахском языке, расширив ее словарь почти в три раза. Однако этого недостаточно, мы надеемся на предоставление качественных данных со стороны госорганов для усовершенствования IrbisGPT", — рассказал Армен Атаян, CEO Gen2b.ai.

Благодаря более эффективному токенизатору, скорость генерации текста на государственном языке увеличилась от 3 до 5 раз раз по сравнению с моделями GPT.

Итоговый словарь токенизатора содержит более 60 тысяч токенов. У команды имеется план по созданию модели в более совершенной архитектуре, которая будет полезна в различных отраслях.

Скачать:
— предобученную модель можно — здесь
— ЛоРА — здесь.