IT之家 11 月 5 日音问,腾讯当天文告推出 Hunyuan-Large 大模子,官方暗意这是现在业界如故开源的基于 Transformer 的最大 MoE 模子,领有 3890 亿总参数(389B)和 520 亿激活参数(52B)。
腾讯当天在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。并发布了时代申报和检修推理操作手册,崇敬先容了模子才调解检修与推理的操作。
其中模子时代上风如下:
高质料合成数据:通过合成数据增强检修,Hunyuan-Large 约略学习到更丰富的暗意,措置长迂回文输入,并更好地泛化到未见数据
KV 缓存压缩:给与分组查询注意力(GQA)和跨层注意力(CLA)政策,权臣减少了 KV 缓存的内存占用和筹算支出,提高了推理糊涂
群众特定学习率缩放:为不同群众建造不同的学习率,确保每个子模子皆能有用地从数据中学习,并为合座性能作念出孝敬
长迂回文措置才调:预检修模子相沿高达 256K 的文本序列,Instruct 模子相沿 128K 的文本序列,权臣擢升了长迂回文任务的措置才调
粗俗的基准测试:在多种话语和任务上进行粗俗现实,考证了 Hunyuan-Large 的实质愚弄后果和安全性
▲ Hunyuan-Large 预检修模子与具有雷同激活参数大小的 Dense 和 MoE 竞争敌手比拟IT之家附关系流通如下:
论文:https://arxiv.org/pdf/2411.02265
Github:https://github.com/Tencent/Tencent-Hunyuan-Large
Huggingface:https://huggingface.co/tencent/Tencent-Hunyuan-Large
腾讯云:https://cloud.tencent.com/product/hunyuan