- Дата публикации
Apple научила классические RNN масштабироваться до 7B параметров и работать не хуже трансформеров
scienceЧто открыли Apple показала, что классические рекуррентные нейросети (RNN) можно обучать параллельно и масштабировать до миллиардов параметров — без отказа от нелинейностей. Ключевые результаты из рабо...