Ранее мы писали о том, что мемберы нашего…

Ранее мы писали о том, что мемберы нашего сообщества создали бенчмарки на проверку больших языковых моделей на различных датасетах казахского языка
• MMLU на казахском: Проверка мультизадачного языкового понимания.
• GSM8K на казахском: Тестирование математической логики.
• Kazakh Constitution MC: Проверка юридических и гражданских знаний.
• Kazakh Dastur MC: Понимание культурного наследия и обычаев.
• Unified National Test MC: История, литература, биология и другие предметы

Рады вам сообщеить, что первые результаты сравнения моделей уже доступны!
• Первое место среди всех моделей уверенно держит универсальная модель от OpenAI GPT-4o
• В опен-сорс сегменте лидирует разработка казахстанской лаборатории ISSAI с моделью LLaMA-3.1-KazLLM-1.0-8B

Следующие шаги:
• Релиз оффлайн арены с ELO
• Более сложные бенчмарки для реальных задач
• Релиз кастомных instruct датасетов

Подробнее:
• ознакомиться с лидербордом
• засабмитить свою модель

Ребята ждут фидбек и зовут всех заинтересованных к сотрудничеству!

Ранее мы писали о том, что мемберы нашего сообщества создали бенчмарки на проверку больши…

Comments