文本

Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta 团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V，刷新 SOTA。GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-4o 与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分

5/19/2024 6:54:10 PM 清源

讯飞星火大模型 V3.5 春季上新，V4.0 官宣 6 月 27 日发布

感谢科大讯飞今日官宣，讯飞星火大模型 V3.5 春季上新，科大讯飞董事长刘庆峰发布讯飞星火大模型一系列新功能。刘庆峰表示，目前星火大模型通用长文本能力，包括长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等，总体已经达到 GPT-4 Turbo 今年 4 月最新长文本版本的 97% 的水平，而在多个垂直领域的知识问答任务上，星火大模型长文本总体水平已经超过 GPT-4 Turbo。讯飞星火大模型 V3.5 进行了多项更新，IT之家汇总如下：支持长文本、长图文、长语音的大模型上新，首发星火图文识别大模型

4/26/2024 10:37:25 AM 汪淼

360 智脑 7B 参数大模型开源，支持 50 万字长文本输入

感谢360 公司日前在 GitHub 上开源了 360 智脑 7B（70 亿参数模型）。360 智脑大模型采用 3.4 万亿 Tokens 的语料库训练，以中文、英文、代码为主，开放 4K、32K、360K 三种不同文本长度。360 表示，360K（约 50 万字）是当前国产开源模型文本长度最长的。360 表示，他们在 OpenCompass 的主流评测数据集上验证了模型性能，包括 C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、L

4/12/2024 6:30:18 PM 沛霖（实习）

周鸿祎自称“开源信徒”：宣布将开源 360 智脑 7B 模型，支持 50 万字长文本输入

感谢360 创始人周鸿祎近日透露即将开源 360 智脑 7B（70 亿参数模型），支持 360k（50 万字）长文本输入。周鸿祎表示，前段时间大模型行业卷文本长度，100 万字“很快将是标配”。“我们打算将这个能力开源，大家没必要重复造轮子，定为 360k 主要是为了讨个口彩。”他还自称“开源的信徒”，信奉开源的力量。据介绍，360 智脑长文本能力已入驻大模型产品“360AI 浏览器”。周鸿祎还谈到了小模型的优势：其认为小模型速度快、用户体验也好，单机单卡就能跑，具备更高的性价比。目前，360AI 浏览器已向用户免

3/29/2024 3:27:56 PM 清源

来自一线大咖的前沿观察与洞见，大模型技术 Workshop 第一期活动举行

3/27/2024 10:21:00 AM 新闻助手

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

前Meta首席工程负责人胡鲁辉带领Seeking AI携手哈佛、斯坦福、北大等知名学府推出WorldGPT，实现静态内容与动态视频的高度融合

3/21/2024 4:51:00 PM 机器之心

全球最长开源！元象开源大模型XVERSE-Long-256K，无条件免费商用！

元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K，支持输入25万汉字，让大模型应用进入“长文本时代”。该模型全开源，无条件免费商用，且附带手把手训练教程，让海量中小企业、研究者和开发者更早一步实现“大模型自由”。全球主流长文本大模型图谱参数量和高质量数据量决定了大模型的计算复杂度，而长文本技术（Long Context）是大模型应用发展“杀手锏”，因技术新、研发难度高，目前多为闭源付费提供。 XVERSE-Long-256K支持超长文本输入，可用于大规模数据分析、多文档阅读理解

1/16/2024 3:52:00 PM 李亚洲

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

机器之能报道编辑：吴昕这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？机器之能报道编辑：吴昕这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？试听地址： Audiobox Maker，你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。有了它，仅用几分钟的时间，机器之心也随意生成了关于五月天假唱热搜的对话：试听地址： Audiobox Maker ，即使是小白用户也可以设计、生成不同人物（比如小红帽、大灰狼和外婆）的声音文件，同时添加不

12/12/2023 7:08:00 PM 机器之能

从“源头”保护数据安全：腾讯安全推出大模型隐私保护脱敏技术

大模型已经被广泛应用在各类场景，帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作，极大地提升了工作效率，但同时公众对于大模型带来的数据泄露的隐忧也从未停止。近日，腾讯安全玄武实验室披露了一项关于大模型隐私保护的安全脱敏与还原（Hide and Seek, HaS）技术，有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。HaS为业内首个支持信息还原的自由文本脱敏技术，通过对用户上传给大模型的prompt（提示词）进行隐私信息脱敏，并在大模型返回计算结果后进行恢复，该方案兼顾了隐私安全和计算资源消耗：脱

12/6/2023 9:41:00 AM 新闻助手

腾讯OCR团队斩获ICDAR大赛四项冠军

在全球文字识别（OCR）领域顶级盛会ICDAR 2023上，腾讯OCR团队基于自研算法，斩获四项冠军，这是继2017年、2019年、2021年以来，连续四届参会同时创造佳绩，共获得18项官方认证冠军，展示了腾讯OCR技术在全球的一流水平。ICDAR大会是全球文档图像分析识别领域公认的权威学术会议，每两年举办一次，赛事举办至今已经吸引了超过100多个国家的近8000支队伍参与其中。ICDAR竞赛因其极高的技术难度和强大的实用性享誉国内外，与赛后非正式刷榜不同，ICDAR官方认证的正式竞赛采用全新的数据集，并且在比赛期

10/20/2023 3:51:00 PM 新闻助手

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

代码和Demo地址：：、模型偷懒、上下文越长大模型越笨......如果体验过大语言模型产品,用户多少会对文本输入长度带来的限制有所感触，比如当想和大模型讨论一些稍长的内容，需要拆分输入，而前面输入的要点，很快就会被大模型忘记。这是典型的大语言模型对话缺陷！就像先天有注意力缺陷的儿童，难以专注看完一本新书。而缺陷的关键，在于模型缺乏长文本处理能力。这个局面如今被打破。近日，贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜：hugging face热榜第一、paperwithcode热度第一，Gith

10/9/2023 11:36:00 AM 新闻助手

还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

机器之能报道编辑：吴昕还记得一周前我们介绍过的那个文生图工具吗？对，让马斯克「穿越」，变身古风大侠的那个。也是让 Blackpink Jennie 「变胖」的那个：当时， Ideogram 官宣成立并公开了测试版 v0.1 。机器之能赶紧排队注册，试用了一下。据说，短短一周内，积累了超过 90,000 名用户，生成了超过 300 万张图像！今天， Ideogram 进一步宣布向地球上的每个人开放 Ideogram ！免费的，没有任何限制！（传送门）官方博客也第一次介绍了 Ideogram v0.1 —— 「它是

8/30/2023 6:22:00 PM 机器之能

大型语言模型与知识图谱协同研究综述：两大技术优势互补

多图综述理清当前研究现状，这篇 29 页的论文值得一读。

7/3/2023 2:58:00 PM 机器之心

论文插图也能自动生成了，用到了扩散模型，还被ICLR接收

如果论文中的图表不用绘制，对于研究者来说是不是一种便利呢？有人在这方面进行了探索，利用文本描述生成论文图表，结果还挺有模有样的呢！

6/26/2023 2:11:00 PM 机器之心

图文实录｜澜舟科技合伙人李京梅：基于预训练模型的 AIGC 技术与应用实践

在 AIGC 领域，人类应该持续提升创造力，不要停止，不要因为有了 AI 就不去创造了，而 AI 也将通过提升整个产业效率的方式来帮助人类更好地创造价值。

2/28/2023 2:50:00 PM 澜舟科技

AIGC用于智能写作的技术综述-达观数据

详细介绍AIGC用于智能写作的相关技术和达观数据的智能写作产品实践

1/13/2023 11:46:00 AM 达观数据

文字语义纠错技术探索与实践-张健

介绍文字语义纠错的技术算法，技术难点与挑战以及实际产品的落地情况

12/27/2022 12:07:00 PM 达观数据

多模态文档LayoutLM版面智能理解技术演进-纪传俊

LayoutLM经过从1.0到3.0版本的迭代，不断优化模型，可见多模态技术对于文档理解的可行性和未来巨大的潜力未读抱拳拒绝赞感谢找文档图片文件@消息更多酷应用

12/20/2022 3:28:00 PM 达观数据

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

文本

Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA

讯飞星火大模型 V3.5 春季上新，V4.0 官宣 6 月 27 日发布

360 智脑 7B 参数大模型开源，支持 50 万字长文本输入

周鸿祎自称“开源信徒”：宣布将开源 360 智脑 7B 模型，支持 50 万字长文本输入

来自一线大咖的前沿观察与洞见，大模型技术 Workshop 第一期活动举行

WorldGPT来了：打造类Sora视频AI智能体，「复活」图文

全球最长开源！元象开源大模型XVERSE-Long-256K，无条件免费商用！

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

从“源头”保护数据安全：腾讯安全推出大模型隐私保护脱敏技术

腾讯OCR团队斩获ICDAR大赛四项冠军

两行代码解决大语言模型对话局限！ 港中文贾佳亚团队联合MIT发布超长文本扩展技术

还记得让马斯克一键「穿越」的利器吗？现在面向所有人开放！免费！

大型语言模型与知识图谱协同研究综述：两大技术优势互补

论文插图也能自动生成了，用到了扩散模型，还被ICLR接收

图文实录｜澜舟科技合伙人李京梅：基于预训练模型的 AIGC 技术与应用实践

AIGC用于智能写作的技术综述-达观数据

文字语义纠错技术探索与实践-张健

多模态文档LayoutLM版面智能理解技术演进-纪传俊

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术