Компания General Compute, новая неоклауд-платформа для инференса — компания, предоставляющая в аренду мощности для обработки ИИ, специализирующаяся на фазе, когда модели работают и отвечают пользователям, а не обучаются — имеет ответы на вопросы, которые освещают будущее экосистемы ИИ. Эти ответы помогли привлечь $15 миллионов в рамках начального раунда финансирования при постинвестиционной оценке в $60 миллионов, возглавленного FUSE VC при участии Carya Venture Partners и Village Global Ventures.

Первый вопрос: какой чип является правильным? Спрос на графические процессоры (GPU) резко возрос, но становится общепринятым мнением, что они не являются наилучшими чипами для запуска ИИ-моделей после их обучения. Фаза ИИ, когда модель активно генерирует ответы, имеет другие вычислительные требования, чем обучение, и новый класс чипов разрабатывается специально для этого.

Сделка Nvidia на $20 миллиардов с Groq в декабре и IPO Cerebras на $57 миллиардов на прошлой неделе указывают на это. С учетом ограниченной мощности у обеих компаний, соучредители General Compute, генеральный директор Финн Пукловски и технический директор Джейсон Гудисон, нашли другой вариант. Они обратились к специализированным чипам, созданным компанией SambaNova, поддерживаемой Intel, которая сосредоточена на инференсе и немного выпала из обсуждений в Силиконовой долине.

Это может измениться, когда SambaNova выпустит свои новые чипы в этом году. Архитектура более гибкая и использует больше памяти для хранения контекста во время инференс-вычислений, и SambaNova утверждает, что она превосходит не только GPU, но и другие специализированные чипы, созданные такими компаниями, как Groq или Cerebras. Пукловски утверждает, что новые чипы будут генерировать 600-700 токенов в секунду, по сравнению с примерно 250 токенами в секунду для GPU.

General Compute заказала чипы SN50 компании на сумму $300 миллионов и утверждает, что станет первой неоклауд-платформой, внедряющей их. Эти чипы также помогают решить вторую большую проблему — где их разместить — для General Compute: они охлаждаются воздухом, а не водой, и потребляют меньше энергии, поэтому их можно установить в существующих центрах обработки данных без новых инфраструктурных инвестиций. Пукловски заключает сделки по колокации — соглашения, где General Compute устанавливает свое оборудование в чужих помещениях — не только с поставщиками центров обработки данных, но и с криптомайнерами, которые ищут способы перепрофилировать свою инфраструктуру, поскольку стоимость производства биткойна часто превышает его цену.

General Compute запустила свое облачное предложение на прошлой неделе, заявив, что оно уже является самым быстрым в запуске MiniMax 2.7, мощной открытой LLM. Джо Хассельманн — венчурный инвестор, который вошел в инференс-бум, когда инвестировал в Groq в 2021 году. В этом году он запустил новый фонд Evercrest Capital Partners, сосредоточенный на пространстве ИИ, и сделал General Compute своей первой инвестицией.

Хассельманн видит в партнерстве SambaNova с General Compute параллели с отношениями Coreweave с Nvidia — и с объединением производства чипов Groq с его бывшим облачным предложением. "Им нужен здоровый микс клиентов, которые будут размещать их чипы в средах с высоким ростом," сказал Хассельманн.

"Насколько General Compute делает ставку на SambaNova, настолько SambaNova делает ставку на General Compute." Вопрос в том, какая компьютерная архитектура захватит наибольшую ценность в будущем ИИ. Облака инференса — это неявные ставки на мир с множеством моделей и агентов, где ни один поставщик не доминирует, а скорость и стоимость инференса становятся ключевыми конкурентными переменными.

Рассмотрите $113 миллионов, привлеченные на этой неделе в рамках раунда серии B для OpenRouter, что отражает способность компании предлагать клиентам доступ к нескольким моделям для оптимизации их затрат на токены. Скорость имеет значение в этом расчете, для цены и для возможностей. Пукловски хочет превратить часовые рабочие нагрузки для кодирующих агентов в задачи на пять или десять минут, и сделать аудиоагентов для обслуживания клиентов, которым требуется более быстрый инференс для эффективного общения, более экономичными.

"Если вы используете ChatGPT и он выдает вам 50 токенов в секунду, это все еще намного быстрее, чем мы можем читать," сказал Пукловски TechCrunch, "Теперь, когда все перешло на агент-агент, где агенты читают за нас или обращаются к базам данных, им нужно работать быстрее.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *