Обучение с подкреплением

Новости об обучении с подкреплением: RLHF, GRPO, PPO — методы выравнивания и улучшения LLM.

15 материалов

Дата публикации
6 июля 2026 г.
Как Amazon учит многошаговых ИИ‑агентов на Nova через SageMaker HyperPod: полный гайд по инфраструктуре
ai_products
Что нового Amazon запустила готовую инфраструктуру для обучения многошаговых (multi‑turn) RL‑агентов на моделях Amazon Nova с помощью Amazon SageMaker HyperPod и SDK Nova Forge. Это не просто ещё один...
Обучение с подкреплением Amazon Web Services Amazon Bedrock ИИ-агенты
Читать далее →
Дата публикации
2 июля 2026 г.
Как обучать многошаговых AI‑агентов в Amazon SageMaker: практическое руководство по reinforcement learning
ai_products
Что нового Amazon запустила в SageMaker AI отдельный контур для обучения многошаговых (multi‑turn) агентов с помощью reinforcement learning (RL). Это не ещё один «чат с моделью», а сервис, который бер...
Обучение с подкреплением Amazon Web Services ИИ-агенты Amazon Bedrock
Читать далее →
Дата публикации
13 июня 2026 г.
GLM‑5: открытый конкурент GPT‑5.2 для сложной инженерии и длинных агентных задач
ai_products
Что нового Z.ai выпустила GLM‑5 — крупную открытую LLM, заточенную под сложную системную инженерию, код и долгоживущие агентные сценарии. Главные цифры и изменения по сравнению с GLM‑4.5/4.7: - Размер...
glm Open Source Языковые модели Генеративный ИИ DeepSeek Обучение с подкреплением
Читать далее →
Дата публикации
29 апреля 2026 г.
Granite 4.1: открытый ИИ от IBM с контекстом 512K и 8B, который догоняет прошлый 32B
ai_products
Что нового IBM выпустила линейку языковых моделей Granite 4.1: три плотных (dense) LLM на 3, 8 и 30 миллиардов параметров. Все они доступны по лицензии Apache 2.0 и ориентированы на корпоративные зада...
Языковые модели Transformer Open Source Обучение с подкреплением Llama
Читать далее →
Дата публикации
6 апреля 2026 г.
Три новых open-source модели в Microsoft Foundry: для речи, кода и поиска
ai_products
Что появилось / что изменилось Microsoft Foundry добавила три open-source модели из экосистемы Hugging Face, которые закрывают сразу три слоя AI-стека: 1. Cohere Transcribe (cohere-transcribe-03-2026)...
Cohere Hugging Face Обучение с подкреплением
Читать далее →
Дата публикации
4 апреля 2026 г.
Apple показала, как ИИ может сам себя обучать и лучше писать код
science
Что открыли Исследователи описали простой способ прокачать генерацию кода у больших языковых моделей без внешних проверяющих, без учителя и без reinforcement learning. Метод называется Simple Self-Dis...
Llama Qwen (Alibaba)Обучение с подкреплением
Читать далее →
Дата публикации
1 апреля 2026 г.
Holo3: агент, который сам работает за компьютером вместо вас
ai_products
Что появилось / что изменилось Hugging Face представила линейку Holo3 — агенты, которые управляют обычным десктопом почти как человек. Фокус не на болтовне, а на реальной работе с интерфейсами. Главна...
Hugging Face Языковые модели Машинное обучение Обучение с подкреплением ИИ-ассистенты
Читать далее →
Дата публикации
30 марта 2026 г.
Cursor прокачивает ИИ-ассистента Composer каждые 5 часов — на живых данных пользователей
ai_products
Что появилось / что изменилось Cursor перестал относиться к обновлениям модели как к редкому событию. Теперь Composer получает новый чекпоинт примерно каждые 5 часов. Это не «переобучили раз в квартал...
Cursor Обучение с подкреплением
Читать далее →
Дата публикации
26 марта 2026 г.
Composer учится на ваших запросах: как работает «реальное» RL с чекпоинтом каждые 5 часов
coding
Что появилось / что изменилось Cursor перенастраивает своего кодового ассистента Composer прямо на боевых запросах пользователей. Команда называет это real-time RL — обучением с подкреплением на реаль...
Cursor Обучение с подкреплением
Читать далее →
Дата публикации
10 марта 2026 г.
ИИ-врач, который сам изобретает себе новые инструменты для анализа снимков
science
Что открыли Исследователи представили MACRO — медицинского ИИ-агента, который сам учится придумывать новые «суперинструменты» для анализа снимков. Обычно такие агенты работают с фиксированным набором...
Машинное обучение ИИ-агенты Компьютерное зрение Обучение с подкреплением RAG
Читать далее →

1 / 2Следующая →