ИИ — инструмент, который делает работу человека эффективнее, а жизнь
удобнее
Искусственный интеллект (ИИ) — та сфера нашей жизни, трансформация
которой поражает воображение. Еще недавно об ИИ мало кто слышал, а
сегодня три четверти россиян общаются с чат-ботами, технологиями ИИ
пользуется каждый третий российский предприниматель. ИИ находит
применение в финансах, управлении, различных отраслях промышленности, на
транспорте, в индустрии развлечений… О главных трендах в развитии
отрасли, о том, чего можно ждать от ИИ в будущем, рассказал в интервью
«Ъ» управляющий директор по исследованию данных «Сбера», отец-основатель
и руководитель команды разработки нейросетей для синтеза изображений и
видео Kandinsky Денис Димитров.
Очень молодая, но быстро развивающаяся научная область
— Как и с чего началось бурное развитие технологий искусственного
интеллекта?
— Бурное развитие искусственного интеллекта началось в основном в
2010-х годах, несмотря на то что сама технология появилась
значительно раньше (как и ее название), еще в 1940– 1950-x годах, и
с тех пор активно развивалась. За 10–20 лет произошло несколько
значительных событий, которые способствовали ускорению прогресса в
области искусственного интеллекта:
Первое — это прорыв в
глубоком обучении. В 2012 году команда под руководством Джеффри
Хинтона выиграла соревнование ImageNet с использованием глубоких
сверточных нейронных сетей, что показало значительное улучшение в
распознавании изображений и привлекло внимание к глубокому обучению.
Появление генеративно-состязательных нейросетей (GAN) в 2014 году
дало толчок в развитии генеративных (особенно визуальных) моделей. В
том же 2014 году был разработан важный концепт, который применяется
и по сей день практически во всех глубоких нейронных сетях,
работающих на практике (с текстом, изображениями, видео, звуком и
так далее), а именно механизм внимания (или attention), который
изначально позволил моделировать тонкие взаимосвязи между словами,
необходимые для более качественного понимания контекста и смысла
предложения на любом естественном языке.
2017 год стал в
каком-то смысле переломным для всей области — специалистами из
Google был разработан специальный тип архитектуры нейронных сетей,
«трансформер», который был основан на механизме внимания. Эта
архитектура изначально была придумана для машинного перевода с
одного естественного языка на другой, например с русского на
английский, но оказалась очень эффективной как для решения огромного
числа текстовых задач (особенно для генеративных задач, связанных с
продолжением текста), так и для задач, которые вовлекают другие
модальности (аудио, временные ряды, изображения, видео и так далее).
В 2021 году, когда стали появляться первые прототипы
языковых трансформерных моделей, которые очень хорошо отвечали на
вопросы, умели вести диалог (например, GPT-3), исследователи из
Стэнфорда выпустили работу, в которой назвали такие модели
«фундаментальными» (foundation models). Главная особенность
фундаментальных моделей в том, что они обучаются на огромном массиве
неразмеченных данных, например, текстовых (обычно собранных в
интернете). Во время обучения такие модели решают какую-то задачу.
Например, учатся предсказывать следующее слово на основе нескольких
предыдущих (если быть точнее, учатся предсказывать некоторую часть
слова, которую специалисты еще называют «токеном»). У вас имеется,
например, триллион или даже больше отрывков текста. Для каждого
кусочка текста вы закрываете какое-то слово и просите модель
предсказать его по предшествующей, предположим, тысяче слов. Сначала
модель предсказывает это слово неправильно. Вы ее «штрафуете» и
настраиваете веса модели (модель — некоторая многомерная функция)
так, чтобы ошибка на следующей итерации была меньше, чем на
предыдущей. Рано или поздно модель начинает отвечать правильно.
После миллиардов подобных операций модель обретает способность
моделировать язык и решать огромное количество задач за счет
полученных знаний (сразу или после некоторого дообучения).
Примерами таких моделей являются большие языковые модели
(large language models или сокращенно LLMs), лежащие в основе
ChatGPT (GPT-3.5, GPT-4, GPT-4o), LLaMA, Mistral, Qwen или нашей
модели GigaChat. Они могут написать, продолжить, кратко изложить или
перевести текст, дополнить, написать и переписать код, сгенерировать
аккорды для гитары в стиле определенного исполнителя и т. д. (список
задач ограничивается только фантазией человека, который общается с
моделью). Конечно, не любая задача пока что может быть решена
успешно, но во многих задачах такие модели уже сегодня не уступают
людям. Фундаментальные модели обучают при помощи суперкомпьютеров,
таких как, например, «Кристофари» в случае GigaChat (но об этом чуть
позже).
Появление в конце 2022 года модели ChatGPT (на
основе GPT-3.5) показало массовому пользователю, на что способны
большие языковые модели, а в конце концов, и искусственный интеллект
в целом. Из-за этого эту дату точно можно назвать ключевой и
поворотной в развитии ИИ.
С 2017 года начался и до сих
пор продолжается тренд на развитие не только текстовых
фундаментальных моделей, но и мультимодальных — в каком-то смысле
исследователи ставят цель приблизиться к качеству и универсальности
решения разнообразных задач с разными типами данных человеком.
Например, создаются модели, которые помимо текстовых инструкций и
вопросов способны понимать изображения, видео, звуки, речь
(примерами являются все те же модели — ChatGPT, GigaChat и так
далее).
Модели генерации изображений по тексту, которые
учатся на миллиардах пар «картинка-текст», тоже можно назвать
фундаментальными. Названия этих моделей на слуху не только у
разработчиков и исследователей ИИ — это DALL E 3, Imagen, Stable
Diffusion, Midjourney, «Шедеврум», Kandinsky, FLUX. Наша модель
Kandinsky, например, позволяет генерировать изображения по тексту,
смешивать несколько картинок, редактировать изображения разными
способами (в том числе по тексту), дорисовывать недостающие части
изображения или рисовать изображение в режиме бесконечного полотна,
а также генерировать анимации и полноценные видео по текстовому
запросу. При этом похожие генеративные фундаментальные модели
развиваются и для модальностей аудио (Suno, Udio), видео (Sora,
Kling, Gen3), 3D и других.
Прогресс происходит буквально
во всех областях науки — это и биология, медицина, банковское дело.
С уверенностью можно сказать, что искусственный интеллект уже сейчас
применяется практически во всех сферах жизнедеятельности человека,
облегчает быт и работу. И количество применений в будущем будет
только расти.
Второе — это увеличение доступных
вычислительных мощностей, развитие их вычислительной эффективности.
За это время произошло значительное развитие графических процессоров
(GPU), которые стали использоваться для ускорения обучения нейронных
сетей, делая возможным обучение более сложных и больших моделей на
больших объемах данных. Появились суперкомпьютеры, без которых
невозможно было бы обучать большие генеративные модели, которые
строят все мировые бигтех-компании: Google, Microsoft, OpenAI,
Amazon, «Сбер», «Яндекс» и так далее.
Третье —
колоссальное увеличение объема данных, а также их доступность.
Развитие интернета и цифровизация привели к появлению огромных
объемов данных, которые стали доступны для обучения моделей ИИ, что
значительно улучшило их точность и эффективность. Это триллионы
текстовых фрагментов, миллиарды изображений и видео, миллиарды
звуковых дорожек.
Что послужило драйвером изменений? Почему именно в 2010-х все
началось?
— Как мы уже обсудили, для успешного развития ИИ требовались три
составляющие. Первая, назовем ее наукой,— наличие математического
аппарата, необходимого для успешного моделирования сложных
зависимостей, которые встречаются в мире, то есть выбора оптимальной
архитектуры и ее эффективного обучения. Вторая — данные, а также
сделанные на их основе датасеты. Это тексты, картинки, видео, звук,
речь, временные ряды и так далее. Обучение данных невозможно.
Третье, критически важное звено в развитии моделей ИИ —
вычислительные ресурсы.
Для того чтобы эффективно
обучить, например, языковую модель, нужно «пропустить» через нее
имеющиеся данные. Возьмем для примера языковую модель GPT-3,
выпущенную компанией OpenAI в 2020 году (и в свое время очень
популярную). Она имеет 175 млрд параметров. Датасет — предположим,
100 млрд текстовых кусочков (5 трлн букв). То есть вам нужно 175
млрд параметров функции GPT-3 «настроить» на 5 трлн букв (причем
«настраивать» придется итеративно, то есть много раз). Для этого вам
потребуются вычислительные ресурсы, работающие очень быстро и
эффективно. С такой задачей могут справиться только суперкомпьютеры,
появившиеся всего несколько лет назад.
Представьте, что
мы в 1980 году. Математика в то время в целом уже была на нужном
уровне развития. А вот интернета в современном представлении не
было. Не было в 1980 году и вычислительных мощностей такого уровня,
какой достигнут сейчас. Поэтому развития ИИ в то время еще не было.
Этот период иногда называют «зимой ИИ».
В 2010-х в
каком-то смысле произошла синергия. Все сошлось. И с этого момента
начался экспоненциальный рост технологий ИИ.
Как сейчас развиваются технологии ИИ
— Каков сейчас основной тренд развития технологий ИИ?
— Как я уже упомянул, это развитие фундаментальных мультимодальных
моделей и генеративного искусственного интеллекта. Модели обрастают
новыми модальностями, расширяются области и способы их применения.
Сейчас ИИ проникает или в ближайшее время проникнет в любую сферу
человеческой деятельности, так как любую сферу человеческой
деятельности можно в каком-то виде автоматизировать, убрав из нее
рутинные составляющие.
— Какие направления развития отрасли кажутся вам наиболее
перспективными?
Развитие моделей генерации полноценных видео. Такие, как Sora от
OpenAI — модель искусственного интеллекта, предназначенная для
генерации Full HD-видео по короткому текстовому описанию — промпту.
Или как нейросеть «Сбера» Kandinsky.
Лежащее на
поверхности применение подобных моделей — в индустрии развлечений. С
их помощью можно генерировать видео, фильмы, автоматизировать
рутинный труд дизайнеров или операторов.
Но на самом деле
эта тема гораздо глубже, поскольку модели генеративного видео могут
симулировать реальность,могут генерировать практически любую
ситуацию, которая может произойти в нашем мире. Поэтому их еще
называют универсальными или общими моделями мира (General
WorldModels). В смоделированной ими трехмерной реальности, нашейили
игровой (например, Minecraft), можно учить агентов. Зачем?Так как
это во многих отношениях выгоднее делать в виртуальном мире и только
потом выводить их в реальный мир. Что понимать под агентами?
Например, роботов или беспилотный транспорт.Обучение беспилотников в
реальной среде обходится очень дорого. Более того, оно еще и не очень
эффективно.
Представьте, что беспилотный автомобиль
передвигается по городу. Он миллион раз собирает информацию о
различных погодных условиях, о ремонте на дорогах, трафике и т. д.
Сколько нужно израсходовать бензина и человеческих ресурсов, чтобы
собрать датасет? А модель для генерации видео может синтезировать
нужные условия, например добавить дождь, одним нажатием кнопки.
Похожая,
но еще более сложная ситуация с обучением роботов. Если автомобиль
едет чаще всего по прямой, по своей полосе, то роботу можно
придумать миллион задач: «вымой пол», «протри стол», «принеси стакан
воды». Человек обладает какими- то умениями от рождения, а кроме
того, ребенка с раннего детства учат выполнению различных задач —
дома, в детском саду, в школе. Робота нужно всему учить с нуля. И
наборов данных для такого обучения в открытом доступе почти нет — в
отличие от видео с картинками, музыкой, текстами.
Модели
генерации видео могут создать условия для обучения такого робота —
не в физической, а в смоделированной реальности (которая будет
неотличима от физической). Данное направление активно развивается во
всем мире. И для нашей компании это очень важная тема, так как
«Сбер» занимается и разработкой роботов, и беспилотными
автомобилями.
Одно из очень важных направлений
исследований в области 3D — генеративное проектирование.
Грубо говоря, сейчас мы уже умеем синтезировать картинку
и видео по произвольному тексту (и по любой другой входной
информации). А как насчет того, чтобы синтезировать дизайн- проект
целого дома? Я имею в виду план, чертежи этого дома, чтобы потом
бригада рабочих могла этот дом построить. Современные модели этого
делать еще не умеют. Это очень сложная задача, так как тут
приходится принимать в расчет множество факторов — используемые
строительные материалы, нагрузки и т. д. Эта развивающаяся область
предполагает создание еще более сложных моделей.
Ведутся
исследования, касающиеся даже генерации искусственных запахов,
которые смогли бы воспринимать модели (роботы). Но это скорее задел
на будущее. Мы это называем исследованием модальностей. Запахи,
тактильные ощущения — эти модальности пока остаются «за скобками»,
но они не менее важны для того, чтобы можно было создать робота,
который выполняет огромное количество задач.
Генеративные языковые модели будут развиваться дальше.
Буквально на днях вышла модель OpenAI o1, умеющая не просто
отвечать, а еще и рассуждать, чтобы потом ответить. В результате
качество ответа повышается до такого уровня, что данная модель может
решать задачи, которые задают на международных олимпиадах по
математике.
— Какие есть препятствия, сложности, помехи в развитии технологий
ИИ?
— Я уже называл три главные составляющие развития ИИ. С ними и
связаны главные сложности. Не все «железо», необходимое для
суперкомпьютеров, производится в России. Те комплектующие, которые
производятся, уступают в мощности оборудованию Nvidia (центральные
процессоры, видеокарты). Это напрямую влияет на возможность обучения
больших моделей и на скорость этого обучения. Приходится в этой
непростой ситуации так или иначе пользоваться некоторыми зарубежными
решениями в плане «железа».
И та же компания Nvidia
поставляет на американский рынок самых передовых комплектующих в
десятки раз больше, чем смогут закупить российские компании. Поэтому
у OpenAI, например, доступных вычислительных мощностей сильно
больше, чем у «Сбера» и «Яндекса» (которые, в свою очередь, обладают
самыми мощными суперкомпьютерами в России).
Для решения
этой проблемы необходимо производить свои комплектующие, а также
вкладывать деньги в разработки альтернативных способов вычислений —
оптические компьютеры, квантовые компьютеры. То есть в сферы, в
которых Россия по сравнению с другими странами мира может иметь
преимущество. Так нам будет легче догнать и перегнать
конкурентов.
С датасетами ситуация заметно лучше. Что
касается специалистов, то в России очень много талантливых людей,
способных заниматься прорывными исследованиями. Россия входит в
число явных лидеров развития ИИ. Нужно делать так, чтобы таланты
оставались в России, не уезжали (или обязательно возвращались
обратно).
— Какие специалисты сейчас более всего востребованы в отрасли?
— С одной стороны, безусловно, математики и программисты. С другой
стороны, поскольку ИИ находит прикладное применение на стыке с
другими науками, можно сказать — любые.
Нужно ли бояться ИИ?
— Насколько оправдан распространенный страх перед тем, что ИИ лишит
людей работы? Какие профессии под угрозой? Заменит ли ИИ человека на
рабочем месте?
— Да, такая замена частично произойдет, безусловно. Но в этом будет
больше положительных сторон, чем отрицательных. Любая система
автоматизации, любой продукт промышленной революции всегда связаны с
тем, что освобождаются рабочие места. Это неизбежно, так всегда было
и всегда будет. Какие-то профессии становятся не очень актуальными,
потому что становится проще решать какую-то задачу по-другому. Были
извозчики — их заменили шоферы. Были портные, которые шили одежду,
потом их стало меньше, но появились специалисты по управлению
конвейером на швейной фабрике.
Любая технология создает
рабочих мест и возможностей больше, чем забирает. То же самое можно
сказать и про искусственный интеллект. Число рабочих мест, которое
создается в области ИИ, больше, чем число рабочих мест, которые
исчезнут. Какие-то рабочие места не исчезнут, а будут
модернизированы. Кто-то работал кассиром. Когда в магазине
установили систему распознавания товаров с автоматической оплатой,
кассир стал не нужен, но стал нужен тот, кто будет за этой системой
следить.
Естественно, часть людей ИИ заменит. Особенно
это касается рутинной работы. Но при этом он предоставит возможность
заниматься новыми, более интересными видами деятельности.
Нейросети ChatGPT или GigaChat умеют писать код. Разве
от этого стало меньше программистов? Наоборот, их число только
растет. Также и с дизайнерами. Нелепо предполагать, что всех
дизайнеров заменит модель, генерирующая изображения. Дизайн — это
мысль, искра. А дальше дизайнер может использовать Midjourney или
Kandinsky, чтобы что-то доработать.
А еще до сих пор есть
люди, которые шьют одежду вручную. При этом сшитый на заказ костюм
они могут продавать намного дороже, чем сшитый на фабрике.
ИИ — помощник любого человека, способный сделать работу
в той области, в которой он применяется, более эффективной.
— Значит, и преступники, например мошенники, с помощью ИИ смогут
действовать более эффективно?
— Да, безусловно. Любую генеративную модель можно настроить на то,
чтобы она наносила вред, а не приносила пользу. Но с этим ведется
борьба с использованием других систем искусственного интеллекта —
моделей, которые умеют распознавать сгенерированный контент. Их
задача определять, что перед ними не настоящий текст или
изображение. Разрабатывая подобные модели, мы способствуем развитию
в сфере кибербезопасности, понижаем вероятность того, что мошенникам
удастся добиться успеха.
Для борьбы с потенциальным
нанесением вреда используются также модели фильтрации контента.
Любая генеративная модель (в том числе наши GigaChat и Kandinsky)
может выдать не такой результат, какой нам хотелось бы увидеть. В
том числе то, что запрещено законодательством. И не потому, что
разработчики «плохие», а потому, что объемы данных, на которых
обучается модель, огромны. Невозможно перепроверить триллионы
кусочков текста или миллиарды изображений. Никто не может
пересмотреть их все вручную.
Вначале мы добиваемся
чистоты данных, обучая другие модели оставлять в датасете только то,
что нам нужно. Есть модель, отвечающая за эстетику. Есть модель,
проверяющая наличие вотермарок (цифровых водяных знаков). Есть
модель, которая проверяет, есть ли на картинке текст или нет. Есть
модель, отсеивающая небезопасный контент. Но любая модель может
совершить ошибку, и в итоговом датасете может остаться что-то
запрещенное. Поэтому еще разрабатываются модели фильтрации контента,
которые блокируют не соответствующий нормам контент, появившийся в
процессе генерации.
ИИ в 2030 году
— Давайте представим, что сейчас уже 2030 год. Что из того, чего
сегодня еще не существует, стало реальностью благодаря ИИ?
— В нашей сфере все так быстро развивается, быстро меняется. Даже
мы, специалисты, можем только загадывать, что будет через шесть
лет.
Возьмем, предположим, 2018 год. Как раз шесть лет
назад. Кто тогда мог представить, что можно будет генерировать видео
по текстовому запросу так, как это делает Sora. Это казалось чем-то
невообразимым. Или кто мог представить шесть лет назад, что те же
самые модели, которые отвечают на вопросы, смогут решать задачи по
математике самого высокого уровня.
Что будет в 2030
году, через шесть лет, я могу только предполагать. Это может
оказаться чем-то вроде известных картинок из начала XX века — как
тогда представляли людей XXI века.
Мне кажется, что
сохранятся все существующие сейчас тренды. Будут развиваться
мультимодальные модели, фундаментальные, языковые. Технологиям ИИ
найдется огромное количество вариантов применения в самых разных
сферах.
Я бы особо выделил робототехнику. В июле этого
года я участвовал в конференции WAIC (World Artificial Intelligence
Conference) в Шанхае. На стендах с презентациями разработок, которые
ведут компании, участвовавшие в конференции, я насчитал более 200
больших языковых моделей. Причем различных роботов насчитал более
ста.
Мне кажется, что в ближайшие несколько лет
произойдет соединение двух направлений — языковых фундаментальных
моделей и робототехники. Пока что «мозги» существуют в одном месте,
а «скелет» — в другом. Процесс соединения начинается только сейчас.
Полноценных роботов-помощников пока нет. Нам ведь нужны
такие роботы, с которыми можно общаться. Роботы, которым можно
сказать, например, «иди туда и принеси мне кофе». Или «уберись
здесь». Или «погуляй с собакой».
К 2030 году мы увидим
роботов-помощников, которые уверенно передвигаются, выполняют
различные задания. При этом они понимают естественный язык (не
только одного «хозяина», но и нескольких людей, возможно, любого
человека). Эти роботы могут корректировать свое поведение не только
в зависимости от того, какую задачу им задали на старте, но и в
зависимости от того, что происходит вокруг. Если производство
роботов будет экономически целесообразным, конечно. Это единственный
сдерживающий фактор. А в плане технологии в ближайшие пять лет это
вполне решаемая задача.
Безусловно, мы увидим на улицах
беспилотный транспорт в гораздо большем, чем сейчас, количестве. Для
этого необходимы изменения в законодательстве. В частности, должен
быть решен вопрос, кто должен нести ответственность, если в
результате использования технологии ИИ будет нанесен ущерб?
Например, если беспилотник собьет пешехода или ИИ поставит неверный
медицинский диагноз по снимку КТ? Кто должен за это отвечать — тот,
кто сделал, разработчик? Или тот, кто применяет технологию, —
больница, автомобильная компания?
Новые законы,
касающиеся ИИ в целом и роботов,— очень важная тема. За пять лет это
будет решено, я думаю, на законодательном уровне.
К 2030
году должны получить широкое распространение ИИ- помощники. Вместо
ассистента-человека многим будет проще завести цифрового ассистента,
который возьмет на себя определенный список задач. Каждый, у кого
есть доступ к какой-то технологии, будет пользоваться ИИ. Он должен
стать универсальным помощником, который всегда рядом и приходит на
помощь тогда, когда нужно.
— Если сложно дать прогноз на шесть лет вперед, то можно ли
представить более отдаленное будущее? Что принесет развитие
технологий ИИ дальше? Могут ли технологии достигнуть уровня, когда
ИИ обретет собственное сознание?
— На мой взгляд, искусственный интеллект — это инструмент. Какие бы
сложные задачи он ни решал, он все равно останется инструментом. Это
просто новое средство автоматизации труда. Как автомобиль, самолет,
конвейер, уже существующие роботы. Да, в том числе ИИ — средство
автоматизации интеллектуального труда. Это пугает людей. Но бояться
не стоит.
Собственного сознания у этой штуки не
появится, даже если ИИ соединится с роботом. Такой робот тоже будет
лишь инструментом, который способен понимать человека.
Человеческого сознания у них нет, и оно не появится.
Технологии искусственного интеллекта в «Сбере».
ПАО «Сбербанк
России»
Крупнейший российский банк, на долю которого приходится почти треть
активов российского банковского сектора. Он является ключевым кредитором
для национальной экономики и занимает одну из крупнейших долей на рынке
вкладов. Согласно данным, обнародованным банком в марте 2024 года, в 85%
процессов «Сбера» используется искусственный интеллект. Кредитные
решения в отношении физических лиц в 100% случаев принимаются с
использованием ИИ. Благодаря интеграции ИИ в бизнес-процессы в 2023 году
«Сбер» заработал дополнительно 350 млрд руб., а в 2024 году планирует
заработать 400–450 млрд руб. Совокупное количество пользователей ИИ-
сервисов «Сбера» GigaChat и Kandinsky к середине марта 2024 года
достигло 18 млн человек. В мае 2024 года общее число обращений к сервису
GigaChat превысило 90 млн, а к сервису Kandinsky — 600 млн.