昆仑万维开源「天工」13B系列大模型,0门槛商用

10月30日,昆仑万维宣布开源百亿级大言语模型「天工」Skywork-13B系列,并罕见地配套开源了600GB、150B Tokens的超大高质量开源华文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了平等范围模型的最好效果,其华文本领尤为出色,在华文科技、金融、政务等范围表现均高于其他开源模型。Skywork-13B下载地址(Model Sc

10月30日,昆仑万维宣布开源百亿级大言语模型「天工」Skywork-13B系列,并罕见地配套开源了600GB150B Tokens的超大高质量开源华文数据集。

昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型Skywork-13B-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了平等范围模型的最好效果,其华文本领尤为出色,在华文科技、金融、政务等范围表现均高于其他开源模型。

Skywork-13B下载地址(Model Scope): https://modelscope.cn/organization/skywork

Skywork-13B下载地址(Github): https://github.com/SkyworkAI/Skywork

除模型开源外,Skywork-13B系列大模型还将开源600GB150B Tokens的高质量华文语料数据集Skypile/Chinese-Web-Text-150B,这是目前最大的开源华文数据集之一。

同时,昆仑万维「天工」Skywork-13B系列大模型即将片面开放商用——开发者无需申请,即可商用。

130亿参数、两大模型、最大华文数据集之一、片面开放商用。昆仑万维「天工」Skywork-13B系列大模型堪称业内开源最彻底的百亿高质量商用模型。

Skywork-13B系列大模型的开源将为大模型的场景应用和开源社区发展提供最好技能支持,降低大模型商业门槛,推动人工智能技能落地千行百业,为人工智能生态建设添砖加瓦,携手开源社区索求未知世界、创造美好未来。

两大模型 领先行业

昆仑万维「天工」Skywork-13B系列包括两大模型及150B高质量华文数据集。

Skywork-13B-Base模型是Skywork-13B的基础模型,其经由3.2万亿个多言语高质量数据训练,在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了平等范围模型的最好效果。Skywork-13B-Math模型经过专门的数学本领强化训练,在GSM8K等数据集上取得了平等范围模型的最好效果。Skypile/Chinese-Web-Text-150B数据集。该数据集是根据我们经过精心过滤的数据处理流程从华文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总token数量约为(1500亿),是目前最大得开源华文数据集之一。

除此之外,Skywork-13B系列还公开了模型中使用的评估方法、数据配比研究和训练基础设施调优方案等。希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。

五大特点 片面超越

昆仑万维「天工」Skywork-13B系列大模型在CEVAL, GSM8K等多个权威评测与基准测试上都展现了平等范围模型的最好效果,其华文本领尤为出色,在华文科技、金融、政务等范围表现均高于其他开源模型。

Skywork-13B系列模型的五大特点:

最强参数表现:片面超越平等范围大模型 

本次开源的Skywork-13B系列模型在CEVAL, CMMLU, MMLU, GSM8K等几大权威评估基准中片面超越LLaMA2-13B等开源大模型,在平等范围大模型间取得最好效果。(截止至10月25日数据)

昆仑万维开源「天工」13B系列大模型,0门槛商用

最多训练数据:3.2T高质量的多言语训练数据

Skywork-13B系列大模型拥有130亿参数、3.2万亿高质量多言语训练数据。模型的生成本领、创作本领和数学推理本领提升明显。

最强华文言语建模本领:华文言语建模困惑度评测,超越所有华文开源模型

Skywork-13B系列大模型在华文言语建模方面表现出色,具有优秀的华文文创本领。在华文文本创作范围的评测中,Skywork-13B系列大模型展现出了卓越的本领,尤其在科技、金融、政务、企业服务、文创、游戏等范围均表现高于业内其他开源模型。

昆仑万维开源「天工」13B系列大模型,0门槛商用

上图为不同范围数据下评估模型的困惑度,越低代表模型在该范围建模本领越强。结果显示天工13B在技能文章,电影,政务报告,游戏,金融,通用范围均表现出色

最大华文开源数据集之一:150B Tokens高质量华文语料

Skywork-13B系列将配套开源600GB、150B Tokens的高质量华文语料数据集Skypile/Chinese-Web-Text-150B,这是目前最大的开源华文数据集之一。开发者可以最大程度地借鉴技能报告中大模型预训练的过程和经验,深度定制模型参数,有针对性的进行训练与优化。

最有诚意的开源商用:无需申请,即可实现商用

目前开源社区中的华文大模型多数并非是完全可商用,一般开源社区用户通常需要进行复杂的商用授权申请流程,在某些情况,甚至有对公司范围、所在行业、用户数等维度有明确规定不给予商业授权。 

昆仑万维对Skywork-13B系列开源的开放性和可商用性高度重视,将授权流程做到极简,取消对行业、公司范围、用户等方面的限制,目的是帮助更多对华文大模型感兴趣的用户和企业在行业中不断索求和进步。

此次Skywork-13B系列大模型将片面开放商用许可,用户在下载模型并同意并遵守《Skywork模型社区许可协议》后,无需再次申请授权即可将大模型进行商业用途。希望用户能够更便捷地索求Skywork-13B系列大模型技能本领,索求在不同场景下的商业化应用。

推动开源生态繁荣,让更多开发者们参与到AIGC的技能发展中,在共创和共享中推动技能的提升。

面向AI的时代,蓬勃发展的开源生态建设是构建AI和应用融合的重要一环。降低模型的研发门槛,使用成本,最大化的共享技能本领和经验,让更多的企业和开发者们参与到此次AI引领的科技变革中去。昆仑万维董事长兼CEO方汉是最早参与到开源生态建设的开源老兵,也是华文Linux开源最早的推动者之一,开源的精神和AIGC技能的发展将会在昆仑万维战略中完美融合。

All in AGIAIGC

All in AGI与AIGC是昆仑万维的战略。

4月17日,昆仑万维发布了中国第一个真正实现智能涌现的国产大言语模型——「天工3.5」,并启动邀请测试。

5月19日,北京市经济和信息化局公布第一批《北京市通用人工智能产业创新伙伴计划成员名单》。昆仑万维凭借在AIGC范围的前沿索求和投资布局,成为第一批模型伙伴和投资伙伴。

8月23日,昆仑万维发布国内第一款AI搜索产品——天工AI搜索。

9月1日,计算机视觉和机器学习范围的国际顶级专家颜水成教授正式加盟昆仑万维,与昆仑万维创始人周亚辉一起出任天工智能联席CEO,并兼任昆仑万维2050全球研究院院长,负责前沿技能的研究。

9月5日,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大言语模型测评中,综合得分排名第一。

9月25日,昆仑万维正式控股艾捷科芯,布局AI芯片。

今天,天工Skywork-13B系列大模型的开源标志着昆仑万维持续投资AGI生态的决心。

昆仑万维集团介绍

昆仑万维于2008年成立,2015年深交所上市,从游戏起家到AII In AGI与AIGC, 片面构建多元化的业务生态,至今十余年的发展,我们始终致力于为全球用户提供领先的互联网产品与服务。现今,昆仑万维还在不断索求AI范围的无限可能。目前昆仑万维逐渐构建了AGI与AIGC、海外信息分发与元宇宙、投资三大业务板块,业务覆盖全球一百多个国家和地区,全球平均月活跃用户近4亿。

凭借对科技发展趋势的超前预判,昆仑万维早在2020年便已开始布局AIGC范围。至今,已积累近三年的相关工程研发经验,并建立了行业领先的预训练数据深度处理本领,昆仑万维也在人工智能范围取得了重大突破,目前已形成AI大模型、AI搜索、AI游戏、AI音乐、AI动漫、AI社交六大AI业务矩阵,是国内模型技能与工程本领最强,布局最片面,同时全身心投入开源社区建设的企业之一。

给TA打赏
共{{data.count}}人
人已打赏
应用

国内唯一全面对标OpenAI的守业公司,大模型曾经出到第三代

2023-10-30 12:03:00

应用

元乘象Chatimg3.0来了,赶超GPT-4V,还给出家当降级新打法

2023-10-30 14:57:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索