ИИшница №98
Всем привет! Это «ИИШНИЦА», 10 новостей про нейросети, контент и заработок. Сегодня в выпуске: AI-новости недели: GPT Image 2 с “мышлением” и тест против Nano Banana Canva AI 2.0 и агентный дизайн из одного запроса Grok анализирует и продолжает видео через smart extensions Claude Design, Skills и AI-агенты — где реально работает, а где нет
#1. GPT Image 2 теперь умеет думать
OpenAI без громкого анонса выпустила GPT Image 2, и по разбору комьюнити это первая их модель изображений с элементами «мышления». При выборе reasoning-модели в ChatGPT она, как сообщается, подтягивает информацию из интернета в реальном времени, генерирует несколько вариантов по одному запросу и перепроверяет результат. Среди примеров — корректно работающие QR-коды и сцены с десятками объектов, где каждый элемент подписан прямо на изображении.
В демо блогеров модель воссоздаёт объекты с высокой точностью: при генерации книги «Good to Great» появился штрих-код, который, по их словам, оказался активным и вёл на страницу товара. Пользователи также комбинируют ChatGPT Images 2.0 с ChatGPT Codex, превращая статичную картинку в управляемую 3D-панораму . Отмечают и улучшение лиц: меньше артефактов, ближе к фото. В сравнении с Nano Banana Pro лицо выглядит натуральнее, хотя одежда и детали сцены у конкурента, по наблюдениям, проработаны точнее.
Источник: https://www.youtube.com/watch?v=WJ8Jj44ehWE
#2. Canva AI 2.0: теперь дизайн делает сама
Canva представила Canva AI 2.0 — обновление с девятью новыми функциями, где ключевой акцент на автоматизации дизайна через диалог. Пользователь описывает задачу текстом, после чего система сама собирает макет без шаблонов и ручной верстки. В агентном режиме Canva, как сообщается, автоматически подбирает шрифты, цвета, изображения и композицию, а встроенная память учитывает прошлые проекты и стиль, адаптируя новые работы под пользователя.
Появилась послойная генерация: каждый элемент можно редактировать отдельно без полной перегенерации. Добавлены коннекторы к Slack, Gmail, Google Drive и Calendar, чтобы использовать контекст из переписок и задач. Также заявлены веб-ресёрч с автоматическим сбором данных из интернета и планировщик с автогенерацией контента по расписанию. Функция Brand Intelligence подтягивает фирменный стиль, а Canva Code 2.0 позволяет превращать HTML и код в редактируемые drag-and-drop блоки при поддержке Anthropic и OpenAI, включая создание интерактивных элементов без программирования
Источник: https://www.youtube.com/watch?v=WJ8Jj44ehWE
#3. Grok уже смотрит видео за вас?
Grok, по сообщениям пользователей, получил функцию анализа видео по ссылке: модель извлекает сцены, действия и смысл и превращает это в текст. Можно быстро получить краткое содержание, найти конкретный момент или разобрать структуру ролика без просмотра. Это используют для ускоренного анализа обучающих видео и чужого контента, когда важна не подача, а суть.
Параллельно заявлены smarter video extensions — режим продолжения видео с учётом предыдущих сцен и исходного промпта. В таком сценарии модель удерживает стиль, логику переходов и звук между фрагментами, делая продолжение более связным, чем раньше. По описаниям, Grok начинает работать как система с памятью для видео, а не как генератор отдельных клипов, что может применяться в рекламе и сторителлинге
Источник: https://x.com/Junicbear/status/2046267974365913138?s=20
#4. Gemini 3.1 делает голос лучше ElevenLabs?
Google представила Gemini 3.1 Flash TTS — модель синтеза речи с упором на скорость и управляемость звучания. Пользователь задаёт не только текст, но и подачу: интонацию, паузы, ритм и эмоцию. Заявлена почти мгновенная генерация голоса, что важно для ассистентов и аватаров в реальном времени. Поддерживается мультиспикерность: в одном запросе можно создать несколько голосов и получить диалог.
Инструмент встроен в экосистему Gemini: текст редактируется и сразу озвучивается в одном пайплайне. В сравнениях с ElevenLabs отмечают преимущество Gemini в скорости и интеграции, тогда как качество речи остаётся спорным — ElevenLabs, по отзывам, звучит чище в сложных интонациях и эмоциональных сценах. Выбор между решениями зависит от приоритета: отклик и связка сервисов против финального качества аудио.
Источник: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
#5. Claude Design переоценён или нет?
Anthropic представила Claude Design — режим в Claude, где интерфейсы, презентации и документы собираются через диалог с визуальным холстом. Пользователь задаёт задачу в чате, а модель формирует макет справа, предлагая варианты для сайтов, слайдов или коммерческих предложений. На старте выбирается тип проекта и уровень детализации — от wireframe до более проработанного визуала, а встроенные «skills» задают логику работы под формат.
Поддерживается загрузка контекста — файлов, кода, изображений, но на практике возникают ограничения: по отзывам, модель может некорректно считывать PDF и фирменные гайды, из-за чего стиль и визуальные элементы приходится настраивать вручную. В пользовательских тестах Claude Design уверенно собирает структуру и каркас, но финальный визуал и точность бренда часто требуют доработки, при этом быстро расходуются лимиты Pro. В текущем виде инструмент рассматривают как решение для прототипирования, а не для финальной продакшн-версии.
Источник: https://www.anthropic.com/news/claude-design-anthropic-labs
#6. Что такое Skills для LLM и зачем они нужны?
Skills — это способ задавать LLM конкретную роль, логику работы и формат результата заранее. Вместо того чтобы каждый раз заново писать подробный промпт, пользователь вызывает готовый модуль: с инструкциями, стилем, структурой, иногда файлами и действиями. Так модель меньше импровизирует и работает не как универсальный чат, а как специалист под конкретную задачу.
В отличие от GPTs, skill не обязательно является отдельным ботом или новой сессией. Это скорее рабочий слой внутри текущего контекста, который помогает модели выполнять задачу по заранее заданным правилам. Первой Skills как отдельный продуктовый слой публично показала Anthropic для Claude, а OpenAI пришла к похожей логике позже, при том что tool-calling возможности у OpenAI существовали раньше. Также заявляются интеграции со сторонними сервисами вроде HeyGen, Kling и Canva, где модель может подготовить сценарий и передать его дальше в генерацию.
Источник: https://x.com/EugenioFierro3/status/2043814105362911621?s=20
#7. ChatGPT выдал вам сотрудника на полную ставку
OpenAI представила Workspace Agents — облачных агентов для команд, которые выполняют длительные задачи в фоне. В отличие от GPTs и Skills, такие агенты не привязаны к одной сессии: они продолжают работать после закрытия вкладки, запускаются по расписанию или триггерам и сохраняют контекст между запусками. Основной фокус — автоматизация регулярных процессов, а не разовые запросы.
Агент создаётся из текстового описания: ChatGPT формирует инструкции, имя и сценарий работы, после чего можно подключить Skills, файлы, папки и интеграции вроде Slack. Поддерживается долговременная память для предпочтений и контроль действий — операции с почтой, таблицами и календарём требуют подтверждения. Доступ заявлен для тарифов Business, Enterprise, Edu и Teachers, с временным бесплатным периодом до 6 мая и переходом на кредитную модель. Ожидается, что существующие GPTs можно будет конвертировать в Workspace Agents
Источник: https://x.com/OpenAI/status/2047008987665809771?s=20
#8. Adobe запустил агента в Firefly
Adobe представила Firefly AI Assistant — агент, который управляет Photoshop, Premiere, Illustrator, Lightroom и Express из одного чата. Пользователь описывает задачу словами, а система собирает цепочку действий и доводит её до результата. Агент сохраняет контекст между приложениями: начатый проект можно продолжить в другом инструменте без повторной настройки.
Внутри заявлена библиотека Creative Skills — готовых сценариев для ретуши, подготовки контента под соцсети и других задач. Поддерживается обучение на пользовательских предпочтениях и ассетах, а интеграция с Frame.io позволяет автоматически обрабатывать комментарии и вносить правки [verify]. В Firefly доступно более 30 моделей, включая Kling 3.0, Google Veo 3.1, Runway Gen-4.5 и ElevenLabs Multilingual v2. Среди инструментов — Enhance Speech, цветокоррекция и доступ к библиотеке Adobe Stock, а также функции Precision Flow и AI Markup для точечного редактирования изображений.
Источник: https://x.com/EugenioFierro3/status/2045072054563541308?s=20
#9. Как создавать рекламные ИИ-ролики за вечер
Показан сценарий, как собирать рекламные ролики для соцсетей с помощью нейросетей без съёмки и продакшна. Вместо сложных раскадровок и длинных промптов под SEEDANCE 2.0 используется связка из трёх инструментов: LLM для генерации структурированного промпта, модель изображений для исходных визуалов и видеогенератор для финального ролика. В примере это реализуется внутри Syntx AI: через Claude (Opus 4.6) формируется промпт, затем создаются изображения и передаются в SEEDANCE с нужным форматом и разрешением.
Для стабильного результата важно задавать референсы и показывать продукт с разных сторон, особенно в одежде, а также явно описывать материалы и детали. Отдельно отмечается, что логотипы и фирменный стиль часто искажаются при генерации, поэтому брендинг проще добавлять на финальном монтаже. Такой подход позволяет за один вечер подготовить несколько креативов и собрать контент-план для публикаций
Источник: https://youtu.be/K8n5QNtvyY8
#10. HeyGen Instant Highlights V2
HeyGen обновила Instant Highlights до версии V2: инструмент для автонарезки длинных видео переписан и теперь формирует короткие клипы из подкастов, вебинаров и стримов. Пользователь загружает исходник и может искать нужные моменты по текстовому запросу — система находит фрагменты внутри многочасового видео и превращает архив в навигируемую библиотеку. Также доступна настройка длины и количества клипов, оформление субтитров и базовых параметров.
Среди ключевых функций — трекинг лица с динамической «камерой», которая следует за спикером, и поддержка мультиспикерных сцен с автоматическим кадрированием или переключением между участниками. В одном пайплайне добавляются субтитры, перевод с липсинком на 175+ языков и апскейл до 4K. Готовые клипы можно публиковать напрямую через интеграции с платформами вроде YouTube и LinkedIn, без промежуточных экспортов.
Источник: https://x.com/HeyGen/status/2046627631404392547?s=20
Смотреть на YouTube: https://youtu.be/gy1DMSi4jOE?si=FbWS5p-3gDc5Ra4O
Смотреть на Rutube: https://rutube.ru/video/24f94eb660bc8ea0bdd16e31b89a5d0d/
* * *
Если вы AI-креатор и хотите быть в курсе самых актуальных новостей про нейросети, AI-видео и цифровых аватаров, подписывайтесь на мой Telegram-канал «Гари ИИ-Аватар».
Там — больше новостей, разборов инструментов и моего практического опыта: https://t.me/gari_azat
Если вы уже работаете с нейросетями, создаёте AI-контент и видео для себя или клиентов и хотите получать больше заказов, выстроить системную работу, научиться делегировать и со временем создать собственный видеопродакшн, приходите на мой авторский курс:
https://aiavatar.school
Это про мышление креатора в AI-видеоиндустрии: от хаотичных заказов к понятной модели роста и работе с командой.
В нашем видеопродакшене мы используем сервис Syntx AI для создания нейросетевых видео в коммерческих проектах.
По моей ссылке вы можете получить подарочные токены и скидку 15% на подписку по промокоду GARI:
https://syntx.ai/welcome/jbgz60nM
