«Тёмные фабрики» и код с телефона: как агентные ИИ ломают привычную разработку — VogueTech

Что появилось / что изменилось

Саймон Уиллисон в разговоре с Ленни Рачицким описывает точку перелома в ноябре, когда, по его словам, всё по‑настоящему сдвинулось. Он называет это «ноябрьским инфлекшен-поинтом».

Главное:

Появились новые версии моделей, которые он называет GPT 5.1 и Claude Opus 4.5. Они стали инкрементально лучше, но этого хватило, чтобы перейти порог: код, который они пишут, почти всегда делает именно то, что вы просите.
До этого ИИ «в основном работал», но требовал постоянного микроконтроля. Теперь можно запустить кодового агента с запросом уровня «собери мне Mac‑приложение, которое делает X» — и получить рабочий результат, а не «кучу багов, которая ничего не делает».
Уиллисон говорит, что до 95% кода, который он использует, он уже не печатает сам. Он даёт указания агенту: переименовать переменную, отрефакторить модуль, добавить строки — и агент делает это быстрее, чем он сам на клавиатуре.
Он спокойно пишет полезный код на iPhone, идя по пляжу с собакой. Для этого он использует приложение Claude на iOS: обычный чат (который умеет выполнять код) и управление Claude Code в браузере.
Появились практики «тёмных фабрик» в разработке: сначала «никто не пишет код руками», затем следующий шаг — «никто не читает код». StrongDM уже экспериментирует с этим подходом.
Бутылочное горлышко разработки сдвинулось: главная проблема теперь не написание кода, а тестирование. Кодогенерация стала дешёвой и быстрой, а проверка, что всё работает корректно, — нет.

Как это работает

Ключевое изменение — в надёжности агентных циклов. Раньше вы просили ChatGPT или Claude сгенерировать фрагмент кода, затем вручную запускали и тестировали его. Сейчас агенты берут этот шаг на себя.

Агентный цикл выглядит так:

ИИ генерирует код под задачу.
Сам запускает его в среде выполнения.
Анализирует ошибки и логи.
Правит код и повторяет цикл, пока тесты не проходят или программа хотя бы запускается без фатальных сбоев.

Для кода это особенно удобно, потому что результат бинарный: либо работает, либо нет. Это сильно отличается от текста, юридических документов или журналистики, где «правильность» не так очевидна.

Идея «тёмной фабрики» переносит классическую промышленную автоматизацию в софт:

Шаг 1: разработчики не набирают код руками, а только формулируют требования и правят направление работы агента.
Шаг 2: разработчики не читают весь сгенерированный код, а полагаются на тесты, мониторинг и метрики.

StrongDM уже пробует подход, где люди не просматривают каждый файл, а взаимодействуют с системой через запросы и проверки, а не через построчное ревью.

Что это значит для вас

Для разработчиков

Скорость. Если вы до сих пор используете ИИ как «подсказчик кода», вы недополучаете. Уиллисон говорит, что может «выдавать 10 000 строк кода в день, и большая часть работает». Вопрос теперь не в количестве, а в том, как довести «большую часть» до «почти всё».
Фокус на тестах и архитектуре. Писать руками циклы и boilerplate больше не главное. Важнее продумать контракт, тесты и границы системы. Без этого «тёмная фабрика» превратится в генератор скрытых багов.
Vibe‑coding только для себя. Если вы «кодите по вайбу» для личного проекта, где сломается только у вас — можно расслабиться. Как только код идёт к пользователям и может кому-то навредить, нужна дисциплина: код‑ревью, тесты, аудит.
Телефон как рабочий инструмент. Если вы часто в разъездах, стоит попробовать писать мелкие фичи, фиксы и прототипы прямо с телефона через приложение Claude или аналогичные клиенты. Но для сложных задач экран и клавиатура всё ещё удобнее.

Для других специалистов

Юристы уже обжигаются. Уиллисон ссылается на базу AI‑hallucination‑кейсов в юриспруденции — там уже 1 228 случаев, когда юристы приносили в суд документы с выдуманной ИИ «юридической реальностью». Это хороший пример, как агентные циклы могут навредить, если их не контролировать.
Журналисты как пример устойчивости. Журналисты привыкли работать с ненадёжными источниками. Они знают, что любой факт нужно проверять. Этот навык сейчас нужен всем, кто использует ИИ: от аналитиков до маркетологов.
Оценка качества становится сложнее. В коде видно, работает ли программа. В тексте, отчёте или исковом заявлении качество оценить сложнее. Если вы не можете формализовать проверку (как тесты в разработке), не стоит полностью доверять агенту.

Личное планирование карьеры

Если вы в «середине» — не джун, но и не тот, кто проектирует системы, — период будет болезненным. Рутинную часть вашей работы агенты уже умеют делать.
Стоит смещаться либо в сторону проектирования и тестирования сложных систем, либо в сторону глубокой экспертизы и аудита (безопасность, комплаенс, критические отрасли).

ИИ‑инструменты для кода и сейчас часто требуют VPN и зарубежные аккаунты, особенно на мобильных платформах. Если вы работаете из России, придётся учитывать это в своём рабочем процессе и политике компании.

Место на рынке

Уиллисон напрямую сравнивает только два игрока: GPT 5.1 и Claude Opus 4.5. Оба он описывает как «немного лучше предыдущих версий», но этого оказалось достаточно, чтобы пересечь порог практической полезности для кодогенерации.

Конкретных чисел по скорости, стоимости токена или размеру контекста он не приводит. Главное отличие, на которое он опирается, — надёжность агентных циклов при работе с кодом: теперь «почти всё делает то, что вы сказали». Это и позволило ему перейти к «95% кода, не набранного руками» и к экспериментам с «тёмными фабриками».

Coding‑агенты уже полезны не только для быстрого прототипирования, но и для задач безопасности. Уиллисон отдельно подчёркивает, что агенты сейчас хорошо подходят для security‑research: они помогают быстро перебирать варианты атак и защит, генерировать и проверять эксплойты в контролируемой среде.

Если вам нужно:

максимизировать скорость разработки и вы готовы инвестировать время в тестирование и инфраструктуру;
экспериментировать с агентными пайплайнами в безопасности и DevOps;

— связка GPT 5.1 и Claude Opus 4.5 выглядит сейчас как одно из самых практичных решений для кодогенерации и агентных сценариев. Если же вам важнее предсказуемая цена и локальная инфраструктура, придётся смотреть на другие продукты и on‑prem‑модели — но это уже другая история.