Google представив Veo 2 для генерації відео в Gemini

Нові можливості для користувачів Google Gemini

За даними Forbes, Користувачі ШІ-бота Gemini від Google отримали можливість створювати та ділитися відео, використовуючи нову відеомодель Veo 2. Як повідомляє компанія в своєму блозі, генератор перетворює текстові підказки в динамічні 8-секундні відеоролики, що відкриває нові горизонти для творчості.

Технічні характеристики Veo 2

Нова функція ШІ створює відео з роздільною здатністю 720p, яке передається у форматі MP4 в альбомному співвідношенні 16:9. На даний момент Gemini підтримує лише генерацію тексту у відео, але компанія вже працює над розширенням функціоналу в майбутніх оновленнях. Всі відео, створені за допомогою Veo 2, позначені SynthID — цифровим водяним знаком, вбудованим у кожен кадр, що вказує на те, що відео створено за допомогою штучного інтелекту.

Доступність та функціонал

Генерувати відео можуть користувачі Gemini Advanced, які досягли 18 років, усіма мовами та в усіх країнах, де доступні програми Gemini. "Veo 2 є значним кроком уперед у створенні відео за допомогою ШІ, розроблений для створення високоякісних, деталізованих відео з кінематографічним реалізмом", – зазначає Google.

Завдяки покращеному розумінню фізики реального світу та руху людини, генератор забезпечує плавний рух персонажів, реалістичні сцени та більш тонкі візуальні деталі у різних предметах та стилях. Щоб згенерувати відео, користувачам потрібно вибрати "Veo 2" з меню моделей у лівому верхньому куті Gemini Advanced. Створювати та ділитися відео можна також у мобільному додатку Gemini.

Інтеграція з Google Labs

Veo 2 також доступний у Google Labs через інструмент Whisk, який дозволяє створювати нові зображення, використовуючи як текстові, так і графічні підказки, а тепер анімувати їх у відео. Це свідчить про прагнення Google інтегрувати нові технології в свою екосистему.

Конкуренція на ринку ШІ

Контекст Gemini – це відповідь Google компаніям Microsoft Corp. та OpenAI, які, на думку деяких експертів, швидше скористалися перевагами нинішнього буму штучного інтелекту, зокрема серед хмарних клієнтів та розробників. Тепер Google прагне заманити цих користувачів у свою екосистему за допомогою більш потужних інструментів.

Google презентував Gemini у грудні 2023 року, і модель обійшла GPT-4 у більшості тестів, демонструючи потужність в аналізі наукових текстів, відео та юридичних документів. Проте свято тривало недовго – одразу почалися спроби масштабувати функціональність: довга пам’ять, генерація подкастів, обробка PDF. Команда почала інтегрувати Gemini у всі продукти компанії.

Незважаючи на це, ChatGPT продовжує випереджати Gemini за кількістю завантажень: 600 млн проти 140 млн, за даними Sensor Tower. Це свідчить про те, що конкуренція на ринку штучного інтелекту залишається надзвичайно напруженою.

Детальніше про те, як створювався конкурент чату GPT, читайте тут.