腾讯推出 Hunyuan-Large 开源大模子：389B 总参数、52B 激活参数

栏目分类

你的位置：九游下载中心_九游游戏中心官网 > 新闻资讯 > 腾讯推出 Hunyuan-Large 开源大模子：389B 总参数、52B 激活参数

发布日期：2024-11-07 06:40 点击次数：91

IT之家 11 月 5 日音问，腾讯当天文告推出 Hunyuan-Large 大模子，官方暗意这是现在业界如故开源的基于 Transformer 的最大 MoE 模子，领有 3890 亿总参数（389B）和 520 亿激活参数（52B）。

腾讯当天在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。并发布了时代申报和检修推理操作手册，崇敬先容了模子才调解检修与推理的操作。

其中模子时代上风如下：

高质料合成数据：通过合成数据增强检修，Hunyuan-Large 约略学习到更丰富的暗意，措置长迂回文输入，并更好地泛化到未见数据

KV 缓存压缩：给与分组查询注意力（GQA）和跨层注意力（CLA）政策，权臣减少了 KV 缓存的内存占用和筹算支出，提高了推理糊涂

群众特定学习率缩放：为不同群众建造不同的学习率，确保每个子模子皆能有用地从数据中学习，并为合座性能作念出孝敬

长迂回文措置才调：预检修模子相沿高达 256K 的文本序列，Instruct 模子相沿 128K 的文本序列，权臣擢升了长迂回文任务的措置才调

粗俗的基准测试：在多种话语和任务上进行粗俗现实，考证了 Hunyuan-Large 的实质愚弄后果和安全性

▲ Hunyuan-Large 预检修模子与具有雷同激活参数大小的 Dense 和 MoE 竞争敌手比拟

IT之家附关系流通如下：

论文：https://arxiv.org/pdf/2411.02265

Github：https://github.com/Tencent/Tencent-Hunyuan-Large

Huggingface：https://huggingface.co/tencent/Tencent-Hunyuan-Large

腾讯云：https://cloud.tencent.com/product/hunyuan