Google сократила потребление памяти ИИ-моделями в шесть раз без потери точности — с алгоритмом TurboQuant

Исследовательский отдел Google Research опубликовал работу о технологии TurboQuant — алгоритме квантизации, который сокращает разрядность KV-кеша больших языковых моделей до 3 битов без потери точности в ответах и без потребности в дополнительном обучен…
Теги:
Источник
Читать оригинал на 3dnews.ruПоделиться
Похожие новости

Эпоха, когда нужно было с усилием крутить мельницу ради щепотки перца, официально закончилась. Пока технологии упрощают наш быт, ручной помол специй окончательно уходит в прошлое, уступая место...Читать дальше
Для этого на предприятии внедрят бережливые технологии.

Принято считать, что китайская полупроводниковая промышленность в силу своего исторического отставания от западной не может претендовать на существенную выгоду от наблюдаемого бума искусственного интеллекта, но с этой точкой зрения участники китайского рынка …