Это прорыв: Десять самых важных технологий и открытий 2023 года
2023 год сложно представить без новинок сферы IT — покажите нам человека, который не пользовался Chat GPT или любыми другими помощниками, основанными на искусственном интеллекте. IT-сфера стала настолько значимой в жизни каждого человека в уходящем году, что даже Институт русского языка Пушкина назвал «нейросеть» словом года.
Редакция Enter совместно с Университетом Иннополис подводит технологичные итоги 2023 года. Рассказываем, какие IT-открытия оказали наиболее значимое влияние на развитие сферы, каких особенных успехов удалось достичь и какие цели станут приоритетными для IT-компаний в следующем году.
Общие технологичные итоги года
По словам директора Института искусственного интеллекта Университета Иннополис Рамиля Кулеева, самым значимым в 2023 году было продолжение развития программ и сервисов, основанных на генеративном искусственном интеллекте. Большой импульс для этого дал старт работы Chat GPT в ноябре 2022 года, а в этом году ведущие компании и лидеры рынка начали настоящую гонку в этой сфере. Основные открытия произошли благодаря нескольким компаниям — Google, Microsoft, Meta*, OpenAI и Илону Маску.
На российском рынке гонка между компаниями также существует — в ней, в первую очередь, участвуют компании «Сбер» и «Яндекс». Им непросто конкурировать с мировыми лидерами рынка, но тем не менее уровень развития технологий в России соответствует глобальным ИИ-трендам, из года в год появляются отечественные продукты.
Мы видим глобальную гонку лидирующих компаний. Они буквально пытаются захватить свой «кусок» на мировом рынке. Речь идет не просто про создание больших языковых моделей, а про создание целых экосистем. Мы видим, как приложения достаточно серьезным образом меняют пользовательский опыт и способы работы с информацией. Именно поэтому общество задумывается о том, как ИИ может впоследствии повлиять на профессии и жизнь людей в глобальном смысле. Один из трендов — мультимодальность, то есть использование разных форматов исходных данных. Так же многие модели ИИ включают в себя возможность генерации как текстовых сообщений, так и изображений.
Десять самых важных технологий и открытий 2023 года
Мультимодальная языковая модель GPT-4
GPT-4 — это модель, которая обрабатывает запросы в виде картинок и текста и выдает текстовые ответы. GPT-4 была обучена с помощью программ состязательного тестирования и Chat GPT для улучшения ее управляемости. По сравнению с предшественником GPT-3.5, модель реже отвечает на запросы о запрещенном контенте и чаще генерирует корректные ответы. Она также более надежна, креативна и способна обрабатывать более точные инструкции, чем GPT-3.5. ИИ может решать тесты на «уровне человека» и в среднем набирать даже более 88% правильных ответов.
OpenAI представила модель в марте 2023 года. На данный момент это самая продвинутая модель искусственного интеллекта. Ее можно использовать для широкого спектра задач, в том числе для поиска актуальной информации с указанием ее источников.
Разговорный чат с искусственным интеллектом BARD
BARD — это новый искусственный интеллект от Google, который уже доступен для пользователей США и Великобритании. ИИ Bard был представлен в 2020 году на конференции и получил достаточно большое распространение в уходящем 2023-м. Пока сервис не представлен в России, но впоследствии компания планирует расширять территории присутствия и поддерживать больше языков, ориентируясь на стремление всегда быть лидером рынка.
BARD создан для дополнения возможностей поисковика Google и автоматизированной помощи поиска информации. Система базируется на инновационной технологии LaMDA и генерирует ответы на запросы, которые очень похожи на человеческую речь и мышление. LaMDA собирает информацию из интернета, что позволяет BARD писать эссе, стихи, сценарии и даже музыку в различных жанрах. Зачастую она помогает структурировать информацию и создавать логичные планы, например, перечень действий для создания проекта или распорядок дня.
BARD работает на основе глубокого обучения и анализа большого количества текстов и музыки. ИИ использует нейронные сети для создания оригинальных произведений, которые могут быть как похожи на уже существующие, так и быть совершенно новыми.
Языковая модель LLaMA 2
LLaMA 2 — продвинутая языковая модель, обученная на сочетании общедоступных данных. Она разработана компанией Meta* в сотрудничестве с Microsoft и предназначена для улучшения процесса генерации и понимания естественного языка. Она отличается от других моделей тем, что основана на философии с открытым исходным кодом. Это позволяет ей быть более гибкой и эффективной в области генеративного искусственного интеллекта. LLaMA 2 не просто статистическая модель, обученная на больших объемах данных, это новый подход к разработке ИИ.
LLaMA 2 может использоваться в различных областях, таких как финансы, медицина, транспорт и другие. Она помогает решать задачи классификации, регрессии, кластеризации и прогнозирования. Благодаря своей гибкости и мощности, LLaMA 2 становится все более популярной среди специалистов в области машинного обучения.
ИИ-модель Gemini
В начале декабря 2023 года Google представила модель искусственного интеллекта Gemini. По словам разработчиков, она справляется с поставленными задачами даже лучше, чем самая продвинутая модель ИИ GPT-4. Она представляет собой гибридную модель, объединяющую в себе две различные архитектуры нейронных сетей — Transformer и GPT.
Gemini обладает высокой производительностью и точностью в задачах обработки естественного языка, таких как генерация текста, ответы на вопросы и автоматический перевод. Эта модель может быть использована для различных целей, включая создание контента, чат-ботов и других приложений, требующих обработки естественного языка. Кроме того, Gemini имеет открытый исходный код, что позволяет разработчикам настраивать модель под свои потребности и улучшать ее производительность.
Мультимодальная языковая модель PALM-E
Компания Google и Берлинский технический университет представили новую мультимодальную визуальную языковую модель PaLM-E 6 марта 2023 года. Модель сочетает в себе компьютерное зрение и язык, что позволяет использовать ее для управления роботами. PaLM-E имеет 562 миллиардов параметров, которые могут помочь в повседневных задачах — например, доставке продуктов и управлении домашними устройствами в формате «Умный дом».
Другими словами, PaLM-E — это небольшой робот, оснащенный набором датчиков и камер, которые позволяют ему ориентироваться в пространстве и взаимодействовать с окружающей средой.
Модель Segment Anything
Segment Anything — это технология, разработанная компанией Meta*, которая позволяет автоматически выделять объекты на изображении и классифицировать их. Эта технология использует глубокое обучение и нейронные сети для анализа изображений и определения границ объектов. Например, во время видеозвонка модель может увидеть человека, задний фон и предметы, стоящие в кадре.
Segment Anything может использоваться для решения различных задач, таких как распознавание лиц, автоматическое выделение объектов на фотографии или видео, классификация изображений и многое другое. Еще она может быть полезна в других областях, включая медицину, производство, рекламу и технологии безопасности. Один из примеров применения Segment Anything — система автоматического распознавания номерных знаков на автомобилях, которая используется в системах безопасности и контроля трафика на дорогах.
DALL-E 3
DALL-E позволяет создавать уникальные изображения на основе текстовых описаний, которые могут быть любыми — от абстрактных предметов до животных и людей. Эта технология использует генеративно-состязательные нейронные сети (GAN), которые обучаются создавать изображения на основе текстовых описаний.
OpenAI предоставляет доступ к API нейросети DALL-E 3 под конец 2023 года. Она может создавать изображения высокого разрешения от 1024×1024 до 1792×1024. Стоимость использования начинается с $0,04 за каждое сгенерированное изображение. Компания подчеркивает, что DALL-E 3 имеет встроенную модерацию для предотвращения создания нежелательного контента, как и предыдущие версии DALL-E.
Midjourney V5
В этом году компания Midjourney выпустила пятую версию своей нейросети, которая создает более реалистичные изображения, нежели предыдущие версии. В новой используется другая нейронная архитектура и новые технологии генерации стилей и эстетики. Разработка длилась пять месяцев, и на данный момент пятая версия находится в стадии альфа-тестирования. Разработчики предупреждают, что до полноценного релиза нейросеть может претерпеть изменения, но пользователи уже могут использовать ее для генерации изображений.
Drug Discovery
Общество привыкло, что ИИ зачастую помогает с поиском информации, созданием текстов и изображений, но в этом году человечеству открыли доступ к самой большой базе материалов и их свойств, которые были вычислены при помощи искусственного интеллекта компанией Google DeepMind. До этого момента экспериментальным способом люди смогли узнать свойства 20 000 различных материалов, благодаря вычислительным методам удалось рассчитать свойства еще 28 000 различных кристаллических структур. С помощью модели GNoME были рассчитаны свойства по новым 380 000 стабильным материалам.
Это открывает новые возможности для создания новых материалов, используемых в микроэлектронике, позволит разработать новые катализаторы и аккумуляторы. Открытие даст большой толчок в будущем для развития науки о материалах, физики, химии, позволит решить большое количество прикладных задач в различных отраслях экономики.
Университет Иннополис также работает в этом направлении — мы занимаемся научными исследованиями в области предсказания структур материалов, обладающих заданными свойствами, разрабатываем программное обеспечение, позволяющее предсказывать свойства полимеров, битумов и другой продукции, подбирать оптимальные катализаторы для нужд крупных российских компаний. Кроме того, наша команда разрабатывает инструменты на основе машинного обучения для фармацевтической отрасли, которые позволят существенно сократить время разработки новых лекарственных препаратов.
Проверка ИИ на наличие предвзятости
В этом году страны Евросоюза и Европарламент достигли соглашения по закону, который регулирует использование искусственного интеллекта. Основная цель закона — обеспечить безопасность и уважение к правам и ценностям общества при использовании систем ИИ в ЕС. Специалисты отметили, что Европа становится первым континентом, который устанавливает четкие правила использования ИИ. Закон будет стартовой площадкой для стартапов и исследователей в ЕС.
Российские специалисты уверены, что такие законы могут замедлить развитие искусственного интеллекта. Бизнесу предстоит учитывать риски, из-за чего решения станут приниматься медленнее. У компаний США, Китая и России тем не менее появится возможность «оторваться» от лидеров европейского рынка.
Ориентиры на 2024 год
В следующем году технологии искусственного интеллекта продолжат развиваться в таком же динамичном темпе. Однако, по словам Рамиля Кулеева, прогнозировать новые достижения на следующий год — достаточно сложная задача.
Очень непросто загадывать, так как в течение уходящего года произошло многое в рамках сферы IT и искусственного интеллекта. Тем не менее можно дать некоторые прогнозы. В мире продолжится увеличение количества прикладных инструментов, которые меняют пользовательский опыт и работают с данными и информацией на основе генеративного ИИ. Это достаточно очевидно, поэтому будут появляться приложения для решения конкретных задач. Кроме того все больше и больше ИИ будет влиять на смежные сферы, например, на медицину, биологию, химию и физику, то есть естественные науки. Ждем прорывов в междисциплинарных направлениях!
*Суд признал компанию Meta экстремистской организацией
Текст: Инзиля Шакирова
Изображения: miniaiu
все материалы