Эксперты отрасли внимательно следят за чипом Trainium от Amazon, созданным на этом предприятии, из-за его потенциала для снижения затрат на инференс ИИ и возможного влияния на почти монопольное положение Nvidia. Заинтересовавшись, я согласился посетить это место. Моими гидами стали директор лаборатории Кристофер Кинг и директор инженерного отдела Марк Кэрролл, а также представитель PR-команды Дорон Аронсон, который организовал визит. AWS является основным облачным партнером Anthropic с ранних дней существования лаборатории ИИ, и это сотрудничество сохранилось даже после того, как Anthropic добавила Microsoft в качестве облачного партнера, а Amazon укрепила партнерство с OpenAI. Сделка с OpenAI делает AWS эксклюзивным поставщиком нового конструктора ИИ-агентов Frontier, который может стать важной частью бизнеса OpenAI, если агенты станут столь же популярными, как ожидает Силиконовая долина. Однако, как сообщает Financial Times, Microsoft может считать, что сделка OpenAI с Amazon нарушает их собственное соглашение, предоставляющее Redmond доступ ко всем моделям и технологиям OpenAI.
Что делает AWS таким привлекательным для OpenAI? В рамках этой сделки облачный гигант согласился предоставить OpenAI 2 гигаватта вычислительных мощностей Trainium. Это значительное обязательство, учитывая, что Anthropic и собственный сервис Bedrock от Amazon уже потребляют чипы Trainium быстрее, чем Amazon может их производить. Всего развернуто 1,4 миллиона чипов Trainium всех трех поколений, и более 1 миллиона из них используются для работы Claude от Anthropic. Изначально Trainium был нацелен на более быстрое и дешевое обучение моделей, но теперь он также используется для инференса, который является основным узким местом в производительности отрасли. Trainium2 обрабатывает большинство трафика инференса на сервисе Bedrock от Amazon, который поддерживает создание приложений ИИ для множества корпоративных клиентов Amazon и позволяет использовать несколько моделей.
Amazon предлагает альтернативу GPU от Nvidia, которые трудно приобрести из-за их дефицита. Новые чипы Amazon, работающие на специализированных серверах Trn3 UltraServers, стоят на 50% дешевле при сопоставимой производительности по сравнению с классическими облачными серверами. Вместе с Trainium3, выпущенным в декабре, команда AWS также разработала новые коммутаторы Neuron, которые, по словам Кэрролла, являются трансформирующими. Эти коммутаторы позволяют каждому чипу Trainium3 взаимодействовать с другими в сетевой конфигурации, снижая задержки. Это одна из причин, почему Trainium3 устанавливает новые рекорды, особенно в соотношении "цена за мощность". В условиях обработки триллионов токенов в день такие улучшения значительны.
Чипы Trainium, как и другие разработки, такие как Graviton и Inferentia, представляют собой классическую стратегию Amazon: определить, что хотят покупатели, и создать собственную альтернативу, конкурирующую по цене. Однако переход на другие чипы требует значительных затрат, так как приложения, написанные для чипов Nvidia, должны быть переработаны для работы с другими — это трудоемкий процесс, который отпугивает разработчиков. Тем не менее, команда AWS с гордостью заявила, что Trainium теперь поддерживает PyTorch, популярный открытый фреймворк для создания моделей ИИ. Переход на Trainium требует лишь минимальных изменений в коде и перекомпиляции.
Amazon также объявила о партнерстве с Cerebras Systems, интегрируя чипы этой компании для инференса на серверах с Trainium, что обещает высокую производительность и низкую задержку. Но амбиции Amazon выходят за рамки самих чипов. Компания также проектирует серверы, на которых размещаются чипы, включая компоненты сети и технологию виртуализации Nitro, а также передовую жидкостную систему охлаждения. Все это направлено на снижение затрат и повышение производительности. Подразделение по разработке чипов Amazon появилось после покупки израильского разработчика чипов Annapurna Labs в январе 2015 года за 350 миллионов долларов. С тех пор команда проектирует чипы для AWS, сохраняя корни и имя Annapurna, логотип которой можно увидеть повсюду в офисе.
Лаборатория чипов расположена в современном здании с хромированными окнами в престижном районе "The Domain" в Остине, который иногда называют Силиконовой долиной Остина. Офисы имеют классическую корпоративную атмосферу с рабочими местами в кубах, зонами для встреч и конференц-залами. Однако в задней части здания находится сама лаборатория с видом на город. Лаборатория, размером с два больших конференц-зала, полна шума из-за вентиляторов на оборудовании и напоминает смесь школьной мастерской и голливудской лаборатории, но инженеры одеты в джинсы, а не в белые халаты. Здесь не производятся чипы, поэтому защитные костюмы не требуются. Trainium3 — это современный 3-нанометровый чип, произведенный TSMC, лидером в области 3-нанометрового производства, с другими чипами, произведенными Marvell. В этой комнате происходит "bring-up" — активация чипа для проверки его работоспособности после 18 месяцев работы. Команда даже сняла видео о bring-up Trainium3 и разместила его на YouTube.