Майамский AI-стартап Subquadratic вышел из скрытого режима в прошлом месяце с громким заявлением. Он объявил, что решил математическое узкое место, которое сдерживало развитие больших языковых моделей (LLM) почти десять лет.
Подробностей было мало, и многие отнеслись к этому скептически. Но Subquadratic начал предоставлять доказательства, опубликовав результаты независимой оценки своей новой технологии. Эти результаты показывают, что заявлениям компании, возможно, стоит уделить внимание.
По словам Subquadratic, компания разработала новый тип LLM под названием SubQ, который работает быстрее, дешевле и потребляет гораздо меньше энергии, чем любая другая модель на рынке. Компания также утверждает, что SubQ способен обрабатывать одновременно до 12 раз больше текста, чем большинство других моделей, что позволяет ему выполнять широкий спектр задач с большими объёмами данных, таких как анализ сотен документов или целых баз кода.
Более того, Subquadratic заявляет, что SubQ делает это, при этом примерно соответствуя по ключевым показателям (например, в задачах по программированию) лучшим моделям, выпущенным Google DeepMind, OpenAI и Anthropic.
Проблема в том, что сначала компания предоставила мало доказательств в поддержку своих заявлений, кроме нескольких самостоятельно опубликованных результатов тестов. И SubQ пока не стал широко доступен для самостоятельного тестирования.
Поэтому неудивительно, что заявления Subquadratic были встречены скептически. Инженер по искусственному интеллекту Дэн Макатир (Dan McAteer) так выразил общую реакцию на X: «SubQ — либо величайший прорыв со времён Transformer... либо это AI-версия Theranos».
Спустя месяц компания опубликовала больше информации о своей модели, включая результаты дополнительных независимых тестов, проведённых сторонней фирмой Appen.
«Мы ожидали здорового скептицизма, — говорит сооснователь и технический директор Subquadratic Алекс Уидон (Alex Whedon). — Оглядываясь назад, можно сказать, что публикация сторонних бенчмарков вместе с первоначальным заявлением упредила бы большую часть скептицизма, поэтому мы сейчас уделяем время тому, чтобы любые будущие результаты были полностью проверены перед публикацией».
Subquadratic попросил Appen, которая оценивает модели других компаний, провести тесты SubQ. Результаты, похоже, подтверждают многие заявления Subquadratic. «Это было для меня очень захватывающе — они подтвердили архитектуру SubQ», — говорит Жанин Синанан-Сингх (Jeanine Sinanan-Singh), директор по исследованиям генеративного ИИ в Appen.
«Я подумала: „Вау, это может изменить правила игры“, — потому что модели страдают от низкой скорости и неэффективности», — добавляет она. «Но когда у вас есть шокирующие результаты, они не выглядят такими убедительными, когда вы рассказываете о них сами».
SubQ не заменит существующие топ-модели повсеместно, но может предложить огромный прирост скорости при доле обычной стоимости для определённых задач. Однако Subquadratic настаивает, что в долгосрочной перспективе их прорыв может изменить то, как строятся LLM. «Мы надеемся, что начинаем новую эру эффективности, — говорит сооснователь и генеральный директор компании Джастин Дангел (Justin Dangel). — Мы не думаем, что через несколько лет кто-то будет строить модели на основе трансформеров».
Внимание!
Чтобы понять, почему заявления Subquadratic так важны, давайте разберёмся, как работает большинство LLM. Ключевой механизм внутри LLM — это тип нейронной сети, называемый трансформером, который выполняет процесс, известный как плотное внимание (dense attention). Современные LLM обычно объединяют в цепочку несколько трансформеров. (Основополагающая статья эпохи LLM, опубликованная исследователями Google в 2017 году, называлась «Attention Is All You Need».)
Плотное внимание работает так: когда трансформер обрабатывает фрагмент текста, он сначала кодирует каждое слово (или часть слова, называемую токеном) числом. Чтобы уловить смысл всего текста, он затем умножает каждое из этих чисел на каждое другое число этого текста. Например, для текста длиной 10 000 слов потребуется почти 50 миллионов отдельных умножений. Это огромный объём вычислений и основная причина, по которой LLM печально известны своим высоким энергопотреблением.
«Если вы хотите сделать краткое содержание „Великого Гэтсби", вам нужно рассмотреть первое и последнее слово вместе, а затем — все остальные комбинации», — говорит Дангел.
По мере увеличения длины текста количество вычислений резко возрастает. Это происходит потому, что каждое новое число должно быть умножено на все предыдущие числа. Если удвоить количество слов, количество вычислений увеличится примерно в четыре раза — такой темп роста называется квадратичным расширением.
(Вы можете представить это сами: нарисуйте круг и отметьте точки по его краю. Каждая точка — это токен. Затем проведите линии между парами точек, представляющие умножение этих двух токенов. В круге с пятью точками будет 10 пересекающих его линий. Сделайте 10 точек — получится 45 линий, 20 точек — 190 линий и так далее.)
Снижение затрат
Решение Subquadratic — отказаться от плотного внимания, основной операции трансформера, в пользу так называемого разреженного внимания (sparse attention), которое резко сокращает количество необходимых вычислений. Вместо умножения числа, присвоенного каждому токену, на каждое другое число, разреженное внимание выбирает только некоторые числа для умножения. Идея в том, что не все взаимосвязи между словами в тексте имеют значение.
«Разреженное внимание говорит, что не все эти взаимосвязи важны, потому что это действительно так, — говорит Уидон. — Если вы читаете книгу, вы не будете смотреть на первое и второе слово, первое и третье — это безумие».
Это простой подход, и Subquadratic не первый, кто его пробует. «Были испробованы практически все возможные варианты, — говорит Уилл Депо (Will Depue), независимый исследователь ИИ, ранее работавший в OpenAI. — Это не невозможно, но сравнимо с тем, чтобы пробежать милю за четыре минуты».
Предыдущие методы выбора того, какие числа умножать, а какие игнорировать, не давали механизма, способного улавливать смысл документа так же хорошо, как плотное внимание.
Subquadratic утверждает, что наконец решил эту проблему. Компания позиционирует SubQ как первую LLM с разреженным вниманием, которая по производительности конкурирует с массовыми моделями плотного внимания.
«Исторически большинство механизмов использовали фиксированные шаблоны, например, всегда сравнивали первое слово с пятым, — говорит Уидон. — Это довольно ограничивает. Язык слишком сложен для этого. И поэтому одна из особенностей, которая делает наш механизм уникальным, — это то, что мы динамически выбираем, какие взаимосвязи важны».
Компания не раскрывает, как именно SubQ выбирает слова, на которых нужно сосредоточиться, но выбор вычисляется на лету и отличается для каждого фрагмента текста, подаваемого модели. «В этом и заключается наш секретный ингредиент», — говорит Уидон.
Тестирование, тестирование
Результат заключается в том, что для определённых задач SubQ может работать быстрее и дешевле, чем большинство других моделей. Appen оценил SubQ по нескольким стандартным тестам. В прямом тесте скорости, который задаёт базовый уровень того, насколько быстро модель может работать в теории, а не оценивает, что модель может делать на практике, Appen обнаружил, что SubQ в 56 раз быстрее моделей, использующих FlashAttention — предыдущую технику разреженного внимания.
На тесте LiveCodeBench, который проверяет, насколько хорошо модели справляются с задачами по конкурентному программированию из реальных соревнований, SubQ набрал 89,7%, что ставит его на один уровень с другими лучшими моделями для кодинга. «Эта модель продолжает демонстрировать производительность передового уровня в программировании», — говорит Синанан-Сингх из Appen.
Заявления Subquadratic о стоимости проверить сложнее, поскольку SubQ пока не широко доступен. По словам Дангела, запуск модели Opus 4.6 от Anthropic на тесте RULER 128 (разработанном Nvidia для оценки способности модели извлекать информацию из больших наборов данных) стоит 2600 долларов. А SubQ? «Это обошлось нам в восемь долларов», — говорит он.
SubQ действительно, похоже, способен обрабатывать очень большие наборы данных. Модель имеет контекстное окно (грубо говоря, рабочую память) длиной до 12 миллионов токенов. У большинства современных топ-моделей контекстные окна имеют длину один миллион токенов. В демо-версии, которую Уидон показал мне, он попросил SubQ выполнить задачу, требующую анализа информации, содержащейся в 400 документах. Модель ответила за секунды. Когда он дал ту же задачу Perplexity — популярному поисковому сервису на базе LLM — он не смог загрузить все 400 документов.