Google Veo — обзор нейросети для генерации видео от DeepMind

Когда OpenAI показала Sora, в интернете несколько дней стояла тишина — в хорошем смысле. Люди смотрели на видео с женщиной в Токио под дождём и не находили слов. Но Google, который обычно не торопится с публичными шоу, тихо делал своё. В мае 2024 года на Google I/O они показали Veo — и сразу стало понятно, что эта история будет интересной.

С тех пор прошло достаточно времени, чтобы понять: Veo — это не просто ответ Google на Sora. Это самостоятельный продукт с собственными сильными сторонами, который в ряде сценариев обходит конкурентов с заметным отрывом. Разберёмся, что именно умеет Veo, кто его делает, и зачем вам вообще об этом знать.

Что такое Veo и почему это важно

Veo — это видеогенеративная модель от Google DeepMind. Не от того отдела Google, который делает поиск или Android, а именно от DeepMind — исследовательской лаборатории, которую Google купил в 2014 году за полмиллиарда фунтов и которая с тех пор отвечает за самые серьёзные AI-исследования внутри компании. Те самые ребята, которые сделали AlphaGo, AlphaFold и немало всего остального, что вошло в учебники по истории искусственного интеллекта.

Это важно по одной причине: DeepMind не делает продукты ради продуктов. У них серьёзная научная культура, и то, что они выпускают наружу, — обычно результат нескольких лет исследований, а не гонки за хайпом. Veo — не исключение.

Первая версия появилась публично в мае 2024-го. В декабре 2024 года вышла Veo 2 — и вот тут уже начались по-настоящему интересные разговоры. Потому что Veo 2 умеет то, что у других моделей либо не работает вовсе, либо работает значительно хуже: понимание физики реального мира.

Что это значит на практике? Вы пишете промпт «замедленная съёмка, как капля молока падает в чашку» — и получаете видео, где молоко ведёт себя как настоящее молоко: расплёскивается, поднимается корона, оседает. Не размытая имитация движения, а физически правдоподобное поведение жидкости. Или «волны бьются о скалы на закате» — и камни мокрые именно там, где должны быть мокрые, а пена не просто наложена поверх, а взаимодействует с поверхностью.

Для видеографов и продакшн-команд это не абстрактное техническое достижение. Это конкретные часы, которые не нужно тратить на поиск подходящего стокового видео или аренду оборудования ради двухсекундного б-ролла.

Плюс — Google сразу интегрировал Veo в свою экосистему. YouTube Shorts, Google Workspace, Vertex AI для разработчиков. Когда у тебя такая дистрибуция, модель перестаёт быть лабораторным экспериментом и становится инфраструктурой.

Отдельный момент, который сильно влияет на восприятие Veo в профессиональной среде: Google открыл доступ к Veo для независимых кинематографистов и творческих команд раньше, чем к массовой аудитории. Это была сознательная стратегия — сначала дать инструмент людям, которые умеют его использовать, получить обратную связь, понять реальные ограничения. В результате первые публичные работы с Veo появились в довольно высоком художественном качестве. Не «смотрите, нейросеть нарисовала человечка», а полноценные короткометражки, рекламные ролики и экспериментальные художественные видео.

Это создало репутацию Veo как «профессионального» инструмента — и в целом она оправданная. Не то чтобы обычному человеку он недоступен (нет), но результаты у тех, кто умеет формулировать задачу, ощутимо лучше.

Возможности Veo: качество, разрешение, длительность

Начнём с цифр, а потом поговорим о том, что за ними стоит.

Veo 2 генерирует видео в разрешении до 4K. Для сравнения: большинство конкурентов на момент выхода Veo 2 работали с максимумом 1080p. 4K — это не просто маркетинговая цифра, это реальная возможность использовать сгенерированное видео в профессиональном продакшне без масштабирования и потери качества.

По длительности: Veo 2 умеет генерировать клипы от нескольких секунд до минуты. Одна минута — это другой разговор по сравнению с 20 секундами у Sora. Когда у тебя минута, можно строить нарратив, делать переходы, рассказывать историю. Двадцать секунд — это в лучшем случае один эффектный кадр.

Но главное преимущество Veo — не в разрешении и не в длительности. Главное — в том, как выглядит результат.

Veo обучена понимать кинематографический язык. Не «широкий план», а «широкий план с глубиной резкости как у Паноса Косматоса». Не «ночная сцена», а «ночная сцена, снятая на плёнку, с характерным зерном и холодными тенями». Модель выучила не просто паттерны изображений, но и визуальный словарь кино — операторские приёмы, жанровые конвенции, световые схемы. Это чувствуется в результате.

Ещё одна функция, которую стоит выделить отдельно: управление движением камеры. В Veo можно задавать не только то, что происходит в кадре, но и то, как ведёт себя камера. «Медленный dolly-in», «круговое движение вокруг объекта», «ручная камера с лёгкой вибрацией», «статичный кадр». Это кажется деталью, но попробуйте поработать с моделью, где камера делает что хочет, — и поймёте, насколько это важно.

Есть и ещё одна вещь, про которую почти никто не говорит, но которая имеет значение: согласованность персонажей. Если в вашем видео появляется человек в красной куртке — он остаётся в красной куртке на протяжении всей сцены, не меняет причёску между кадрами и не теряет черты лица при повороте. Звучит как базовое требование, но у многих конкурентов именно здесь регулярно случаются провалы.

Технически Veo построена на диффузионных трансформерах — той же архитектурной идее, что лежит в основе современных топовых моделей. DeepMind добавил к этому собственные исследования по пространственно-временному согласованию, которые они публиковали в академических работах задолго до релиза продукта. Иными словами, за красивыми видео стоит несколько лет реальной науки.

Ещё одна деталь, которую стоит упомянуть: Veo поддерживает генерацию видео из изображения. Вы загружаете фотографию или сгенерированную картинку — и модель «оживляет» её, добавляя движение, которое органично вытекает из статичного кадра. Статичный портрет начинает моргать и чуть поворачивать голову. Пейзаж — облака начинают двигаться, трава колышется. Это особенно полезно, если у вас уже есть визуальный стиль, зафиксированный в изображении, и вы хотите сохранить его в видео.

Veo vs Sora vs Runway: сравнение

Честное сравнение — это всегда неудобно, потому что у каждого инструмента есть своя ниша и свои условия, при которых он выглядит лучше. Но попробуем без лишней дипломатии.

Veo 2 vs Sora 2

OpenAI Sora появилась раньше и задала планку качества, которая тогда казалась недостижимой. Sora очень хороша в кинематографических сценах — город, природа, абстракция. Визуально она иногда выглядит «роскошнее» чем Veo за счёт некоего кинематографического лоска, который OpenAI научила модель воспроизводить.

Veo 2 выигрывает в физике, в длительности и в разрешении. Если вам нужно что-то с взаимодействием жидкостей, ткани, или физически сложными сценами — Veo справляется стабильнее. Если нужно видео длиннее 20 секунд — у Sora варианта просто нет. Плюс 4K против максимум 1080p у Sora — для профессионального использования это принципиально.

Veo 2 vs Runway Gen-3

Runway — это про инструменты и интеграцию в рабочий процесс. Там есть всё: загрузить видео и трансформировать его, взять референс и сгенерировать похожее, применить стиль, сделать inpainting. Runway активно используют монтажёры и видеографы не потому что там лучшее «сырое» качество, а потому что это законченный инструмент, встроенный в реальный продакшн.

Veo по сырому качеству генерации на сегодня сильнее Runway. Но Runway — это экосистема, а Veo — пока больше про саму модель. Для профессионала, которому нужен весь пайплайн работы с видео, Runway удобнее. Для того, кто хочет получить максимально качественный клип по промпту — Veo.

Параметр	Veo 2	Sora 2	Runway Gen-3
Макс. разрешение	4K	1080p	4K
Макс. длина	~1 минута	20 секунд	10 секунд
Физика и реализм	Очень высокий	Высокий	Средний
Управление камерой	Гибкое	Гибкое	Гибкое
Инструментальность	Базовая	Базовая	Расширенная
Доступность	Через API/агрегаторы	Через API/агрегаторы	Прямой доступ
Цена	Pay-per-use	Pay-per-use	От $15/мес

Если совсем просто: Veo — лучший выбор для качества, Runway — для профессионального workflow, Sora — для кинематографического лоска и простоты промптинга. Нет универсального ответа. Есть задача и подходящий инструмент.

Отдельно скажу про ценообразование, потому что это часто решающий фактор. Sora доступна через ChatGPT Plus или Pro ($20–200 в месяц), причём лимиты на генерацию всё равно есть. Runway — подписка от $15/мес, тоже с лимитами по кредитам. Veo доступна через Vertex AI по модели pay-per-use — платите за секунды сгенерированного видео, без фиксированной подписки. Для тех, кто генерирует видео нерегулярно, это экономически выгоднее. Для тех, кто работает с видео каждый день — нужно считать конкретные объёмы.

Одно наблюдение из практики: Veo 2 значительно лучше работает с промптами, где чётко описаны движения камеры и физические взаимодействия. Если промпт сухой — «человек за столом» — разница с конкурентами минимальна. Если промпт детальный — «камера медленно поднимается и открывает вид на горный хребет, ранний туман стелется между вершинами, первые лучи солнца окрашивают облака в розовый» — вот тут Veo 2 показывает, зачем она существует.

Примеры генерации видео

Лучший способ понять возможности модели — посмотреть, что она делает в разных сценариях. Расскажем о нескольких категориях задач, где Veo 2 действительно сильна.

Природа и стихии. Вода, огонь, ветер, дым — это традиционно самое сложное для видеогенераторов. Veo справляется с этим значительно лучше конкурентов. Промпт «волна накатывает на берег и пена рассыпается по мокрому песку, закатное освещение, съёмка с низкой точки» даёт результат, который при быстром просмотре сложно отличить от настоящего. При медленном — видно ограничения, но они куда менее заметны, чем у других моделей.

Архитектура и пространства. Интерьеры, городская среда, архитектурные объёмы. Здесь Veo очень убедительна — особенно когда в промпте есть инструкции для камеры. «Камера движется через анфиладу комнат заброшенного особняка, мягкий свет через пыльные окна, слегка пошатывающийся кадр» — хорошо описывает, как модель умеет работать с пространством.

Рекламные сцены. Продукт на столе, рука тянется к чашке кофе, флакон духов на мраморе — классические рекламные визуалы. Здесь качество Veo такое, что небольшие бренды реально начали использовать результаты в маркетинге. Не как финальный продукт, но как черновики для согласования с клиентом или контент для соцсетей.

Научная визуализация. Это неожиданная, но сильная ниша. Клетки под микроскопом, молекулы, астрономические объекты, геологические процессы. Google DeepMind в своих демо отдельно показывал использование Veo для образовательного контента — и это выглядело убедительно. Понятно, что фактически неточная научная визуализация может быть проблемой, но для иллюстративных целей работает.

Кинематографические сцены. Персонаж идёт по улице, разговор двух людей за столом, погоня, сцена из фильма нуар. Здесь важна согласованность персонажей — и Veo держится лучше большинства конкурентов, хотя проблемы с руками и точной мимикой при сложных действиях всё ещё встречаются. Как и у всех остальных, честно говоря.

Что пока не работает хорошо ни у кого, и у Veo в том числе: синхронизация движения губ, мелкие детали рук в действии (нарезка ножом, набор на клавиатуре), точный текст в кадре. Если в вашей задаче это критично — либо генерировать без этих элементов и добавлять постпродакшном, либо делать много итераций и выбирать лучший вариант.

Ещё одна практическая вещь: Veo очень хорошо реагирует на кинематографические термины в промптах. Не «снятый широко», а «wide establishing shot». Не «медленно приближается», а «slow push-in». Не «неяркий свет», а «chiaroscuro lighting» или «motivated practical lighting». Модель обучалась на огромном объёме профессиональных описаний видео — и этот словарь она понимает буквально.

Реальный рабочий сценарий. Небольшое digital-агентство хочет сделать промо-ролик для нового клиента — кофейня в центре Москвы. Классический путь: съёмочный день, оператор, свет, монтаж — от 80 000 рублей и выше, плюс минимум неделя на всё. Альтернатива с Veo: несколько промптов под разные сцены («бариста готовит латте, замедленная съёмка, пар над чашкой», «утро в кофейне, солнечный свет через большие окна, немного посетителей, живая атмосфера»), четыре-пять итераций на каждый — и через несколько часов есть черновой набор клипов. Не финальный продукт, но достаточно, чтобы согласовать концепцию с клиентом и понять направление. Если нужна полная замена съёмки — пока нет. Если нужен быстрый прототип или б-ролл для дополнения настоящих кадров — вполне рабочий вариант, который экономит и деньги, и время.

Как пользоваться Veo через Бот Вася

Доступ к Veo напрямую — это либо Google AI Studio для разработчиков, либо VideoFX (экспериментальный интерфейс Google для широкой аудитории). Ни то, ни другое официально не работает с российскими аккаунтами без дополнительных телодвижений. Иностранная карта, VPN, геоблок — стандартная история для зарубежных AI-сервисов. Платёжная карта с российским биллингом банально не проходит, а оформлять иностранную карту ради одного инструмента — удовольствие ниже среднего.

Более простой вариант — Бот Вася. Это российский агрегатор нейросетей, где среди прочего есть доступ к видеогенерации. Оплата в рублях, работает без VPN, ничего настраивать не нужно. Если вы уже пользуетесь Бот Вася для текстовых задач или генерации картинок — это та же экосистема, те же деньги на балансе.

Как это работает на практике.

Шаг 1: зайдите в Бот Вася. Через браузер на app.botvasya.ru или через мобильное приложение. Если аккаунта нет — регистрация минута, только email и пароль.

Шаг 2: выберите видеогенерацию. В меню выбора модели найдите видеогенератор. Интерфейс простой — поле для промпта, параметры (соотношение сторон, длительность если доступно), кнопка запуска.

Шаг 3: напишите промпт. Здесь стоит потратить минуту-две на формулировку. Структура хорошего видео-промпта:

Субъект и действие — кто или что, что происходит
Движение камеры — это отдельный слой, без него модель выбирает сама
Освещение и атмосфера — «золотой час», «пасмурный день», «ночная сцена с неоном»
Стиль — «кинематографический», «документальный», «рекламный», «анимация»

Пример плохого промпта: кот спит на диване

Пример хорошего: рыжий кот лениво свернулся на диване у окна, мягкий утренний свет падает полосами через жалюзи, камера начинает с общего плана и медленно приближается к мордочке кота, кот щурится и снова засыпает, тёплые тона, кинематографический стиль

Разница в результате — принципиальная. Это не преувеличение.

Шаг 4: дождитесь результата. Генерация видео медленнее, чем изображений — обычно от минуты до нескольких минут. Это нормально: модели просчитывают каждый кадр и согласованность между ними. Не торопитесь и не жмите «ещё раз» — просто ждите.

Шаг 5: оцените и итерируйте. Первый вариант редко бывает финальным. Это касается всех видеогенераторов, не только Veo. Смотрите на результат, формулируйте, что не так — слишком быстрое движение, неправильное освещение, не та динамика — и уточняйте промпт. Через три-четыре итерации обычно получается то, что нужно.

Несколько советов из опыта. Начинайте с простых сцен — один объект, одно действие, чистый фон. Когда поймёте, как модель интерпретирует ваши описания, переходите к сложным сценам. Для серии видео в едином стиле фиксируйте ключевые параметры (освещение, стиль, соотношение сторон) и меняйте только содержимое. Сразу указывайте нужный формат — «вертикальный 9:16» для Reels, «горизонтальный 16:9» для YouTube — это сэкономит время на перекадрирование.

Пополнить баланс в Бот Вася можно стандартными российскими способами — Сбербанк, Т-Банк и другие. Подписка не нужна — платите за конкретные генерации. Никакого автопродления, никаких сюрпризов в конце месяца. Использовали — заплатили. Не использовали — ничего не списалось.

Ещё одно удобство: в Бот Вася в одном интерфейсе доступны и текстовые модели (ChatGPT, Claude, Gemini, DeepSeek), и генерация изображений, и видео. История чатов хранится вместе, балансом можно пользоваться для любого типа задач. Если вы уже работаете там с текстом — видео подключается буквально в два клика, не нужно заводить отдельный аккаунт и разбираться с новым интерфейсом.

Veo — это один из тех продуктов, который в 2025 году изменил представление о том, что вообще возможно в видеогенерации. Не потому что Google, не потому что хайп. А потому что 4K, минута хронометража и физика воды, которая ведёт себя как настоящая вода — это реальные технические достижения, а не маркетинговые обещания.

Параллельно с тем как Sora задала планку кинематографической эстетики, Veo 2 поставила новый стандарт в физическом реализме и длительности. Конкуренция между этими командами — DeepMind и OpenAI — в итоге делает инструменты лучше быстрее, чем если бы каждый из них работал в вакууме. Нам как пользователям от этого только лучше.

Если вы ещё не пробовали видеогенерацию вообще — это хороший момент. Технология уже вышла из стадии «интересный эксперимент» и стала «рабочий инструмент для конкретных задач». А начать можно с app.botvasya.ru — без VPN и иностранных карт.

25 марта 2026 г.