腾讯推出 Hunyuan-Large 开源大模子:389B 总参数、52B 激活参数

九游下载中心_九游游戏中心官网

栏目分类
九游下载中心_九游游戏中心官网
案例
设计师
在施工地
别墅实施
陈设
新闻资讯
关于我们
你的位置:九游下载中心_九游游戏中心官网 > 新闻资讯 > 腾讯推出 Hunyuan-Large 开源大模子:389B 总参数、52B 激活参数
腾讯推出 Hunyuan-Large 开源大模子:389B 总参数、52B 激活参数
发布日期:2024-11-07 06:40    点击次数:89

IT之家 11 月 5 日音问,腾讯当天文告推出 Hunyuan-Large 大模子,官方暗意这是现在业界如故开源的基于 Transformer 的最大 MoE 模子,领有 3890 亿总参数(389B)和 520 亿激活参数(52B)。

腾讯当天在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。并发布了时代申报和检修推理操作手册,崇敬先容了模子才调解检修与推理的操作。

其中模子时代上风如下:

高质料合成数据:通过合成数据增强检修,Hunyuan-Large 约略学习到更丰富的暗意,措置长迂回文输入,并更好地泛化到未见数据

KV 缓存压缩:给与分组查询注意力(GQA)和跨层注意力(CLA)政策,权臣减少了 KV 缓存的内存占用和筹算支出,提高了推理糊涂

群众特定学习率缩放:为不同群众建造不同的学习率,确保每个子模子皆能有用地从数据中学习,并为合座性能作念出孝敬

长迂回文措置才调:预检修模子相沿高达 256K 的文本序列,Instruct 模子相沿 128K 的文本序列,权臣擢升了长迂回文任务的措置才调

粗俗的基准测试:在多种话语和任务上进行粗俗现实,考证了 Hunyuan-Large 的实质愚弄后果和安全性

▲ Hunyuan-Large 预检修模子与具有雷同激活参数大小的 Dense 和 MoE 竞争敌手比拟

IT之家附关系流通如下:

论文:https://arxiv.org/pdf/2411.02265

Github:https://github.com/Tencent/Tencent-Hunyuan-Large

Huggingface:https://huggingface.co/tencent/Tencent-Hunyuan-Large

腾讯云:https://cloud.tencent.com/product/hunyuan



上一篇:亚太科技:拟投资建造辽宁亚太轻合金科技有限公司汽车轻量化铝材成品东北总部分娩基地(一期)边幅
下一篇:ins前卫博主穿搭格调:甜好意思与崭新的无缺交融