Инженеры OpenAI разработали метод, позволивший более чем вдвое сократить затраты на выполнение запросов к искусственному интеллекту, не прибегая к установке дополнительного оборудования. По информации издания The Information, после внедрения новой системы оптимизации для части пользовательской аудитории ChatGPT количество задействованных графических процессоров Nvidia в отдельные моменты удалось снизить до нескольких сотен — показателя, который осведомлённые источники характеризуют как неожиданно низкий для сервиса подобного охвата.

Ключевое изменение затронуло инференс — этап непосредственной обработки пользовательских запросов уже обученной моделью. Именно инференс сегодня формирует основную статью эксплуатационных расходов для компаний, развивающих генеративный искусственный интеллект. В отличие от обучения, проводимого однократно или эпизодически, инференс требует вычислительных ресурсов при каждом диалоге, генерации ответа, обращении к API или срабатывании ИИ-агента.

Утверждается, что решение OpenAI было задействовано при обслуживании той части аудитории ChatGPT, которая работает с сервисом без регистрации и без оформления платной подписки. Благодаря этому число необходимых ускорителей Nvidia временами сокращалось буквально до нескольких сотен. Если информация подтвердится, а сама технология окажется пригодной к масштабированию, это способно серьёзно изменить экономику эксплуатации больших языковых моделей.

Технические детали реализованного подхода не раскрываются. Источники лишь сообщают, что рост эффективности был обеспечен за счёт более рационального использования существующей серверной инфраструктуры, а не путём наращивания парка ускорителей. Речь может идти об улучшенном распределении запросов, более эффективном использовании памяти, оптимизации пакетной обработки данных или иных программных методах повышения производительности. Официальных комментариев со стороны OpenAI о применяемых методиках не поступало.

Эксперты отмечают, что именно программные методы оптимизации становятся сегодня одним из ключевых факторов конкурентоспособности разработчиков ИИ. В условиях глобального дефицита высокопроизводительных ускорителей и многомиллиардных инвестиций в строительство новых центров обработки данных способность значительно снизить вычислительные затраты без закупок дополнительного оборудования приобретает стратегическое значение.

Остаётся открытым вопрос, распространяется ли новая технология на платных клиентов OpenAI, корпоративных пользователей и наиболее сложные рассуждающие модели компании. Ответ на него определит, идёт ли речь о локальной оптимизации для определённого типа нагрузки или о фундаментальном пересмотре подхода к эксплуатации больших языковых моделей. В случае универсальности такого снижения стоимости инференса перед OpenAI открываются сразу несколько возможностей: расширение бесплатного доступа к сервисам, уменьшение цен для клиентов либо существенное увеличение объёма вычислений для ИИ-агентов без дополнительного расширения аппаратной инфраструктуры.

На фоне непрекращающейся гонки за вычислительными мощностями и строительства новых полупроводниковых производств подобные программные оптимизации могут оказаться не менее значимым фактором, чем создание более производительных чипов. Это означает, что борьба за лидерство в сфере искусственного интеллекта будет всё сильнее зависеть не только от количества графических процессоров, но и от эффективности их использования.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *