Александр Пак

DSML Interview: Александр Пак

В рамках рубрики DS/ML интервью, мы начинаем серию интервью c @AlexPak83. Александр Пак - кандидат технических наук, ассоциированный профессор ШИТиИ КБТУ, заведующий лабораторией интеллектуального анализа больших данных в Институте Информационных Вычислительных Технологий.

В первой части интервью мы узнали, чем живет этот интересный человек, как начинался его профессиональный путь, кем он хотел стать в детстве, и что советует начинающим специалистам сегодня!

Расскажите немножко о себе.

Зовут меня Александр Александрович Пак, я кандидат технических наук, ассоциированный профессор школы информационных технологий Казахстанско-Британского Технического Университета, заведующий лабораторией интеллектуального анализа больших данных в Институте Информационных Вычислительных Технологий.

Моя основная область интересов — нейронные сети и их применение в обработке различных данных, в том числе картинок, звука, текста. Прямо сейчас мы как раз-таки занимаемся в большей степени языковыми моделями. Языковые модели — это сейчас вообще вещь очень интересная, особенно после появления ChatGPT, OpenGPT-3.

Также в свое время занимались анализом медицинских данных в сфере офтальмоскопии (для судмедэкспертизы) и диабетической ретинопатии, а также анализом изображений для определения рака легких, различных гистологий и цитологий.

Помимо прочего, у меня есть опыт небольшого, но успешного стартапа, посвященного автоматизации закупок в сфере строительства и нефтегаза.

Как вообще начинался Ваш путь?

В целом в школе хорошо получалась физика и математика. Вообще я из семьи математиков и инженеров. Во многом это вклад моей бабушки, она учила решать, драла уши (смеётся). Потом поступил в Республиканскую Специализированную Физико-Математическую Школу-Интернат, хорошо закончил школу, нравилось участвовать в олимпиадах, по информатике занял как-то третье место на республиканской.

После окончания поступил в КазГУ, физ. фак, проучился 5 лет по специальности спец. физика, где изучал различные процессы физики плазмы. Те времена всегда вспоминаю с теплом и радостью, потому что было много нового и интересного. Были, конечно, и тройки, и воевали с одним преподавателем, но именно его предмет в итоге дал мне понимание в программировании и желание развиваться в этой сфере…

Однажды уже во время учёбы в аспирантуре мне на глаза попалась серия рассказов Станислава Лема, среди которых выделялся рассказ — "Не буду прислуживать". Я бы сказал, что это своего рода библия современного атеиста. Произведение написано очень интересным, научно-популярным языком, оно содержит аргументированные фактологические истории, например, про парадокс всемогущества или принцип "без полного знания не может быть полной ответственности". С тех пор я полюбил этого писателя и прочитал его следующий рассказ — Голем XIV, посвящённый созданию Искусственного Интеллекта, который очень много читал.

В этом рассказе Лем по большей степени рассказал ту историю, которая происходит с нами прямо сейчас! Даже эпиграф рассказа начинается, как-то так: "Когда входы соединились с выходами, тут и началось самое интересное". И если представить, что речь идёт про рекуррентные нейронные сети типа LSTM или RNN, то как раз-таки когда их входы соединились с выходами и началась эпоха современных языковых моделей!

Находясь под впечатлением от этой книги, я написал заявку на тему Искусственного Интеллекта, показал научному руководителю, он сказал: "ну, возможно, пройдёт". И, о чудо, она прошла! Так вот я и начал заниматься машинным обучением.

Как профессор, скажите, что бы Вы предложили улучшить в системе университетского образования в Казахстане?

Мне как преподавателю, чтобы выставлять качественно оценку, необходимо больше времени посвящать индивидуальному занятию и разговору со всеми учениками.

Потому что если я этого делать не буду, то сейчас они с лёгкостью могут «сгенерировать» ответы на любые сложнейшие вопросы, которые я им только могу придумать. Получается, что теперь письменный формат экзамена без какого-то дополнительного контроля не является адекватной оценкой.

Поэтому университетам придётся либо уменьшить количество студентов на преподавателя, чтобы группа у преподавателя была не 80 человек, а условно 20. Либо усилить контроль за деятельностью самих студентов, чтобы они находились при выполнении заданий под каким-то усиленным наблюдением.

Что бы Вы посоветовали начинающим специалистам?

Мы с тобой, как специалисты в области машинного обучения, анализа данных и программирования, несём ответственность за проекты, над которыми работаем. Важно помнить, что определённая этика и ответственность лежат на наших плечах.

История показывает, что были люди, которые отказались от создания опасного оружия, такого как атомная бомба. Совесть этих людей, кто принял правильное решение и отказался от создания оружия, осталась чистой. В нашей сфере тоже есть подобные ситуации. Хотя, конечно, если мы не займёмся проектом, кто-то другой возьмётся за него. Но мы должны помнить слова Фазиля Искандера: "если мы не можем остановить зло, то мы обязаны хотя бы замедлить его путь". Таким образом, наша этика и ответственность должны быть важными факторами в любом проекте, над которым мы работаем.

Почему Вы решили развиваться в академии?

Учёный — это человек, который хочет удовлетворить свой интерес за чужой счёт. Вот у меня был интерес, после прочтения ��олем XIV, где рассказывалось про то, как был создан искусственный интеллект. И если кратко — этот искусственный интеллект изначально был задуман как военный проект для стратегического планирования и управления системами наступательных вооружений.

Однако для решения такой сложной задачи ему нужно было очень много читать, и он читал буквально всё. И оказалось, что если читаешь очень много, то вместо искусственного интеллекта-солдата, который просто должен уметь убивать других, ты получаешь искусственный интеллект-философа, который может рассуждать на уровне человека.

И мне было любопытно, можно ли создать устройство, которое может рассуждать на том же уровне, что и человек. А научно-академическая среда — это то место, где за проверку этой идеи можно также получать зарплату.

Кем Вы хотели стать в детстве?

Я ещё в Советском Союзе рос, я был в третьем классе, когда Советский Союз распался. Я даже успел побывать октябрёнком. А все октябрята мечтали стать как Юрий Гагарин. Космонавтом.

Часть 2: Применение ML в медицине

Медицинские исследования

Исследования в лаборатории

Внутри нашей лаборатории решались задачи различной сложности. Одним из таких интересных заданий было исследование цитологических и гистологических препаратов. Обычно для таких исследований берут пункцию или вырезают лимфатический узел, добавляют к нему специальное красящее вещество, выкладывают на стекло и проверяют на наличие патогенов, которые могут представлять собой разнообразные микроорганизмы, включая:

  • Бактерии
  • Грибки
  • Раковые клетки

Проблема масштаба

Проблема заключается в том, что размер препарата, как правило, невелик — всего несколько миллиметров, а патогены в тысячи раз меньше. Поэтому каждый миллиметр ткани необходимо тщательно исследовать. Это может занять продолжитель��ое время и повышает вероятность пропуска вредоносных клеток.

"Для получения наилучших результатов выбирают фрагмент ткани, где наиболее вероятно обнаружить патогены. Пример — рак молочной железы: раковые клетки чаще всего обнаруживаются в подмышечных лимфатических узлах, которые играют ключевую роль в процессе выведения опухолевых клеток."


Попытка коммерциализации

Мы рассматривали идею коммерциализации, поскольку в Казахстане уже применяются лабораторные сканеры стекол. Однако на тот момент процесс проверки не был автоматизирован.

Существуют тысячи заболеваний, обозначенных как нозологические единицы в международной классификации. Для каждого заболевания есть инструментальные и биохимические методы анализа.

Преимущества автоматизации:

  1. Существенное упрощение диагностики
  2. Повышение качества жизни пациентов
  3. Снижение нагрузки на медицинский персонал

Проблемы реализации:

  • Жёсткие регламенты медицинского ПО
  • Необходимость клинических испытаний
  • Высокие требования к точности

Морфология и топология изображений

Мы занимались гистологией и цитологией, разрабатывая методы на основе морфологии и топологии цифровых изображений:

МетодОписаниеПрименение
МорфологияВыделение геометрических формОпределение структуры клеток
ТопологияАнализ степени близости между формамиВыявление аномальных паттернов

С помощью этих методов был создан классификатор, который отделял раковые клетки от здоровых, учитывая тип заболевания и препарата.


Этические аспекты

Важно помнить об этике: проекты по анализу медицинских данных должны быть направлены на благо людей. Но в мире существуют и другие проекты:

  • Системы мониторинга общественного мнения
  • Системы социального кредитования

Они могут нарушать права и свободы граждан, несмотря на сомнительную эффективность. В отличие от них, проекты в области здравоохранения приносят реальную пользу обществу.


Проект в офтальмологии

Офтальмология

Один из интересных проектов — анализ травм глаза. В момент травмы запускаются процессы отмирания и регенерации тканей, результат зависит от доминирующего процесса и типа травмы:

  • Шоковая
  • Ожоговая
  • Проникающая

Экспертная система

Мы разработали экспертную систему, которая:

``` ВХОД: Клинические признаки (наличие крови, истончение глазного нерва) ОБРАБОТКА: Анализ комбинации признаков и их значимости ВЫХОД: Оценка вероятности восстановления зрения ```

Эта система применялась в судебной медицине, но особенно полезна оказалась для обучения интернов.


Диагностика диабетической ретинопатии

Мы также разрабатывали систему для ранней диагностики диабетической ретинопатии:

"В Казахстане более 600 000 человек страдают диабетом. Один из побочных эффектов — потеря зрения из-за поражения сосудов глазного дна."

Проблема доступности

В сельских районах часто нет квалифицированных офтальмологов, максимум — фельдшеры. Цель проекта — создать систему, которую могут использовать сотрудники с базовой медквалификацией.

Результаты

Наш проект победил в нескольких конкурсах, но, к сожалению, столкнулся с административными ограничениями.


Заключение

Применение машинного обучения в медицине — это область с огромным потенциалом для улучшения качества диагностики и лечения. Несмотря на технические и административные сложности, работа в этом направлении продолжается и приносит реальные результаты.