Ранее мы писали о том, что мемберы нашего сообщества создали бенчмарки на проверку больши…

26 декабря 2024 г. в 15:10

Открыть в Telegram
News image
Ранее мы писали о том, что мемберы нашего сообщества создали бенчмарки на проверку больших языковых моделей на различных датасетах казахского языка
• MMLU на казахском: Проверка мультизадачного языкового понимания.
• GSM8K на казахском: Тестирование математической логики.
• Kazakh Constitution MC: Проверка юридических и гражданских знаний.
• Kazakh Dastur MC: Понимание культурного наследия и обычаев.
• Unified National Test MC: История, литература, биология и другие предметы

Рады вам сообщеить, что первые результаты сравнения моделей уже доступны!
Первое место среди всех моделей уверенно держит универсальная модель от OpenAI GPT-4o
• В опен-сорс сегменте лидирует разработка казахстанской лаборатории ISSAI с моделью LLaMA-3.1-KazLLM-1.0-8B

Следующие шаги:
• Релиз оффлайн арены с ELO
• Более сложные бенчмарки для реальных задач
• Релиз кастомных instruct датасетов

Подробнее:
ознакомиться с лидербордом
засабмитить свою модель

Ребята ждут фидбек и зовут всех заинтересованных к сотрудничеству!

Comments

Member discussion for this news item or vacancy.

Checking sign-in status...