
DSML Interview: Александр Пак
В рамках рубрики DS/ML интервью, мы начинаем серию интервью c @AlexPak83. Александр Пак - кандидат технических наук, ассоциированный профессор ШИТиИ КБТУ, заведующий лабораторией интеллектуального анализа больших данных в Институте Информационных Вычислительных Технологий.
В первой части интервью мы узнали, чем живет этот интересный человек, как начинался его профессиональный путь, кем он хотел стать в детстве, и что советует начинающим специалистам сегодня!
Расскажите немножко о себе.
Зовут меня Александр Александрович Пак, я кандидат технических наук, ассоциированный профессор школы информационных технологий Казахстанско-Британского Технического Университета, заведующий лабораторией интеллектуального анализа больших данных в Институте Информационных Вычислительных Технологий.
Моя основная область интересов — нейронные сети и их применение в обработке различных данных, в том числе картинок, звука, текста. Прямо сейчас мы как раз-таки занимаемся в большей степени языковыми моделями. Языковые модели — это сейчас вообще вещь очень интересная, особенно после появления ChatGPT, OpenGPT-3.
Также в свое время занимались анализом медицинских данных в сфере офтальмоскопии (для судмедэкспертизы) и диабетической ретинопатии, а также анализом изображений для определения рака легких, различных гистологий и цитологий.
Помимо прочего, у меня есть опыт небольшого, но успешного стартапа, посвященного автоматизации закупок в сфере строительства и нефтегаза.
Как вообще начинался Ваш путь?
В целом в школе хорошо получалась физика и математика. Вообще я из семьи математиков и инженеров. Во многом это вклад моей бабушки, она учила решать, драла уши (смеётся). Потом поступил в Республиканскую Специализированную Физико-Математическую Школу-Интернат, хорошо закончил школу, нравилось участвовать в олимпиадах, по информатике занял как-то третье место на республиканской.
После окончания поступил в КазГУ, физ. фак, проучился 5 лет по специальности спец. физика, где изучал различные процессы физики плазмы. Те времена всегда вспоминаю с теплом и радостью, потому что было много нового и интересного. Были, конечно, и тройки, и воевали с одним преподавателем, но именно его предмет в итоге дал мне понимание в программировании и желание развиваться в этой сфере…
Однажды уже во время учёбы в аспирантуре мне на глаза попалась серия рассказов Станислава Лема, среди которых выделялся рассказ — "Не буду прислуживать". Я бы сказал, что это своего рода библия современного атеиста. Произведение написано очень интересным, научно-популярным языком, оно содержит аргументированные фактологические истории, например, про парадокс всемогущества или принцип "без полного знания не может быть полной ответственности". С тех пор я полюбил этого писателя и прочитал его следующий рассказ — Голем XIV, посвящённый созданию Искусственного Интеллекта, который очень много читал.
В этом рассказе Лем по большей степени рассказал ту историю, которая происходит с нами прямо сейчас! Даже эпиграф рассказа начинается, как-то так: "Когда входы соединились с выходами, тут и началось самое интересное". И если представить, что речь идёт про рекуррентные нейронные сети типа LSTM или RNN, то как раз-таки когда их входы соединились с выходами и началась эпоха современных языковых моделей!
Находясь под впечатлением от этой книги, я написал заявку на тему Искусственного Интеллекта, показал научному руководителю, он сказал: "ну, возможно, пройдёт". И, о чудо, она прошла! Так вот я и начал заниматься машинным обучением.
Как профессор, скажите, что бы Вы предложили улучшить в системе университетского образования в Казахстане?
Мне как преподавателю, чтобы выставлять качественно оценку, необходимо больше времени посвящать индивидуальному занятию и разговору со всеми учениками.
Потому что если я этого делать не буду, то сейчас они с лёгкостью могут «сгенерировать» ответы на любые сложнейшие вопросы, которые я им только могу придумать. Получается, что теперь письменный формат экзамена без какого-то дополнительного контроля не является адекватной оценкой.
Поэтому университетам придётся либо уменьшить количество студентов на преподавателя, чтобы группа у преподавателя была не 80 человек, а условно 20. Либо усилить контроль за деятельностью самих студентов, чтобы они находились при выполнении заданий под каким-то усиленным наблюдением.
Что бы Вы посоветовали начинающим специалистам?
Мы с тобой, как специалисты в области машинного обучения, анализа данных и программирования, несём ответственность за проекты, над которыми работаем. Важно помнить, что определённая этика и ответственность лежат на наших плечах.
История показывает, что были люди, которые отказались от создания опасного оружия, такого как атомная бомба. Совесть этих людей, кто принял правильное решение и отказался от создания оружия, осталась чистой. В нашей сфере тоже есть подобные ситуации. Хотя, конечно, если мы не займёмся проектом, кто-то другой возьмётся за него. Но мы должны помнить слова Фазиля Искандера: "если мы не можем остановить зло, то мы обязаны хотя бы замедлить его путь". Таким образом, наша этика и ответственность должны быть важными факторами в любом проекте, над которым мы работаем.
Почему Вы решили развиваться в академии?
Учёный — это человек, который хочет удовлетворить свой интерес за чужой счёт. Вот у меня был интерес, после прочтения ��олем XIV, где рассказывалось про то, как был создан искусственный интеллект. И если кратко — этот искусственный интеллект изначально был задуман как военный проект для стратегического планирования и управления системами наступательных вооружений.
Однако для решения такой сложной задачи ему нужно было очень много читать, и он читал буквально всё. И оказалось, что если читаешь очень много, то вместо искусственного интеллекта-солдата, который просто должен уметь убивать других, ты получаешь искусственный интеллект-философа, который может рассуждать на уровне человека.
И мне было любопытно, можно ли создать устройство, которое может рассуждать на том же уровне, что и человек. А научно-академическая среда — это то место, где за проверку этой идеи можно также получать зарплату.
Кем Вы хотели стать в детстве?
Я ещё в Советском Союзе рос, я был в третьем классе, когда Советский Союз распался. Я даже успел побывать октябрёнком. А все октябрята мечтали стать как Юрий Гагарин. Космонавтом.
Часть 2: Применение ML в медицине
Исследования в лаборатории
Внутри нашей лаборатории решались задачи различной сложности. Одним из таких интересных заданий было исследование цитологических и гистологических препаратов. Обычно для таких исследований берут пункцию или вырезают лимфатический узел, добавляют к нему специальное красящее вещество, выкладывают на стекло и проверяют на наличие патогенов, которые могут представлять собой разнообразные микроорганизмы, включая:
- Бактерии
- Грибки
- Раковые клетки
Проблема масштаба
Проблема заключается в том, что размер препарата, как правило, невелик — всего несколько миллиметров, а патогены в тысячи раз меньше. Поэтому каждый миллиметр ткани необходимо тщательно исследовать. Это может занять продолжитель��ое время и повышает вероятность пропуска вредоносных клеток.
"Для получения наилучших результатов выбирают фрагмент ткани, где наиболее вероятно обнаружить патогены. Пример — рак молочной железы: раковые клетки чаще всего обнаруживаются в подмышечных лимфатических узлах, которые играют ключевую роль в процессе выведения опухолевых клеток."
Попытка коммерциализации
Мы рассматривали идею коммерциализации, поскольку в Казахстане уже применяются лабораторные сканеры стекол. Однако на тот момент процесс проверки не был автоматизирован.
Существуют тысячи заболеваний, обозначенных как нозологические единицы в международной классификации. Для каждого заболевания есть инструментальные и биохимические методы анализа.
Преимущества автоматизации:
- Существенное упрощение диагностики
- Повышение качества жизни пациентов
- Снижение нагрузки на медицинский персонал
Проблемы реализации:
- Жёсткие регламенты медицинского ПО
- Необходимость клинических испытаний
- Высокие требования к точности
Морфология и топология изображений
Мы занимались гистологией и цитологией, разрабатывая методы на основе морфологии и топологии цифровых изображений:
Метод | Описание | Применение |
---|---|---|
Морфология | Выделение геометрических форм | Определение структуры клеток |
Топология | Анализ степени близости между формами | Выявление аномальных паттернов |
С помощью этих методов был создан классификатор, который отделял раковые клетки от здоровых, учитывая тип заболевания и препарата.
Этические аспекты
Важно помнить об этике: проекты по анализу медицинских данных должны быть направлены на благо людей. Но в мире существуют и другие проекты:
- Системы мониторинга общественного мнения
- Системы социального кредитования
Они могут нарушать права и свободы граждан, несмотря на сомнительную эффективность. В отличие от них, проекты в области здравоохранения приносят реальную пользу обществу.
Проект в офтальмологии
Один из интересных проектов — анализ травм глаза. В момент травмы запускаются процессы отмирания и регенерации тканей, результат зависит от доминирующего процесса и типа травмы:
- Шоковая
- Ожоговая
- Проникающая
Экспертная система
Мы разработали экспертную систему, которая:
``` ВХОД: Клинические признаки (наличие крови, истончение глазного нерва) ОБРАБОТКА: Анализ комбинации признаков и их значимости ВЫХОД: Оценка вероятности восстановления зрения ```
Эта система применялась в судебной медицине, но особенно полезна оказалась для обучения интернов.
Диагностика диабетической ретинопатии
Мы также разрабатывали систему для ранней диагностики диабетической ретинопатии:
"В Казахстане более 600 000 человек страдают диабетом. Один из побочных эффектов — потеря зрения из-за поражения сосудов глазного дна."
Проблема доступности
В сельских районах часто нет квалифицированных офтальмологов, максимум — фельдшеры. Цель проекта — создать систему, которую могут использовать сотрудники с базовой медквалификацией.
Результаты
Наш проект победил в нескольких конкурсах, но, к сожалению, столкнулся с административными ограничениями.
Заключение
Применение машинного обучения в медицине — это область с огромным потенциалом для улучшения качества диагностики и лечения. Несмотря на технические и административные сложности, работа в этом направлении продолжается и приносит реальные результаты.