Ранее мы писали о том, что мемберы нашего сообщества создали бенчмарки на проверку больши…
26 декабря 2024 г. в 15:10

Ранее мы писали о том, что мемберы нашего сообщества создали бенчмарки на проверку больших языковых моделей на различных датасетах казахского языка
• MMLU на казахском: Проверка мультизадачного языкового понимания.
• GSM8K на казахском: Тестирование математической логики.
• Kazakh Constitution MC: Проверка юридических и гражданских знаний.
• Kazakh Dastur MC: Понимание культурного наследия и обычаев.
• Unified National Test MC: История, литература, биология и другие предметы
• MMLU на казахском: Проверка мультизадачного языкового понимания.
• GSM8K на казахском: Тестирование математической логики.
• Kazakh Constitution MC: Проверка юридических и гражданских знаний.
• Kazakh Dastur MC: Понимание культурного наследия и обычаев.
• Unified National Test MC: История, литература, биология и другие предметы
Рады вам сообщеить, что первые результаты сравнения моделей уже доступны!
• Первое место среди всех моделей уверенно держит универсальная модель от OpenAI GPT-4o
• В опен-сорс сегменте лидирует разработка казахстанской лаборатории ISSAI с моделью LLaMA-3.1-KazLLM-1.0-8B
Следующие шаги:
• Релиз оффлайн арены с ELO
• Более сложные бенчмарки для реальных задач
• Релиз кастомных instruct датасетов
Подробнее:
• ознакомиться с лидербордом
• засабмитить свою модель
Ребята ждут фидбек и зовут всех заинтересованных к сотрудничеству!
Comments
Member discussion for this news item or vacancy.