文本

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

8/24/2024 6:57:06 AM 故渊

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。今天，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。AI在线附示例如下：Text to Speech Avatar 具有以下功能：将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频，该视频具有自

8/23/2024 7:29:09 AM 汪淼

Exists 发布新 AI 平台：零编程经验者也可制作高质量 3D 游戏

AI 初创公司 Exists 于 8 月 15 日发布新闻稿，介绍最新上线的生成式 AI 平台，没有任何编程经验的用户通过文本输入，就能创建高质量的 3D 游戏。该公司创始人兼首席执行官约塔姆・赫特林格博士（Dr. Yotam Hechtlinger）表示：我们的目标是像文本、图像、视频和音频创作一样，让生成式 AI 在游戏领域带来范式转变。根据官方公布的宣传视频，整个游戏 AI 工具易于上手，在生成后用户还能指令调整细节。不过这款 AI 目前也有局限性，人脸建模看起来有点不自然，这一点可以在 0:43 分钟体现

8/17/2024 8:04:47 AM 故渊

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型，Qwen2-Audio 能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本，有两种不同的音频交互模式：语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入音频分析：用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试，Qwen2-Audio 超越了先前的最佳模型。▲ Q

8/13/2024 12:07:20 PM 沛霖（实习）

科大讯飞宣布讯飞智文2.0全新版本正式上线

8月12日，科大讯飞宣布旗下智能文档产品——讯飞智文2.0全新版本正式上线。新版基于讯飞星火V4.0 大模型底座，引入全新的PPT文本生成大模型、AI PPT编排创作引擎和PPT在线编辑模组，大幅提升编辑自由度和样式多样性。新增的实时联网搜索和长文本解析功能，增强了内容的时效性和深度。同时，AI Word和AI读写功能，助力用户高效阅读和撰写文档，进行知识管理，进一步丰富了AI在文档创作领域的应用。据悉，讯飞智文自2023年11月上线以来，生成文档数已超千万。

8/12/2024 10:49:00 AM 新闻助手

科大讯飞智文 2.0 版本发布：内置 AI PPT 编排创作引擎，基于星火大模型

AI在线从讯飞开放平台获悉，讯飞智文 2.0 版本今天正式发布，带来 PPT 文本生成大模型、AI PPT 编排创作引擎、AI PPT 在线编辑模组三大技术升级。据介绍，讯飞智文 2.0 依托讯飞星火 V4.0 的底座能力，在文本生成方面进行了独立训练，对用户输入的主题具备更强大的理解能力。用户在“主题创建”中输入一句话主题，再勾选“联网搜索”，大模型即可自动抓取实时资讯，以确保事实的时效性、准确性。▲ 图为讯飞智文 1.0 生成结果▲ 图为讯飞智文 2.0 生成结果官方表示，讯飞智文 2.0 对长文本的内容理解、

8/12/2024 8:53:58 AM 清源

统信发布中国首款操作系统级端侧模型 UOS LM，支持问答、翻译、创作等

感谢统信软件今日宣布，中国首款操作系统级端侧模型 UOS LM 正式发布。目前，UOS LM 端侧模型面向所有统信 UOS 社区版（deepin V23）用户发起定向邀约内测，添加 deepin 小助手申请内测资格。为保证流畅体验，统信推荐以下硬件性能：1.5B 模型：内存 2G，GPU 显存 4G，10TOPS7B 模型：内存 8G，GPU 显存 10G，20TOPS对于个人用户，UOS LM V1.0 版本实现本地文档构建知识库，并通过向量数据库支持基于语义的相似性搜索和向量分析操作，帮助用户通过 UOS AI

8/8/2024 7:49:10 PM 浩渺

无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成

在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型，

8/7/2024 12:46:42 PM 汪淼

OpenAI 开发 ChatGPT「反作弊神器」：99.9% 超高命中率，但没发布

感谢AI在线网友 Xiaozhi 的线索投递！去各大高校图书馆转一圈，会发现头上一副耳机、手边一杯咖啡，电脑上一个 AI 工具网页几乎成了当代大学生标配。学生热衷于在 ChatGPT 的帮助下完成作业，教师们却头疼于无法杜绝学生用 ChatGPT 作弊的行为。人工智能可以根据一个提示，在几秒钟内免费创建整篇论文或研究论文。教师和教授表示，他们迫切需要帮助来打击滥用行为。《每日邮报》2023 年 1 月 30 报道称，UNSW 的 1 名学生使用 ChatGPT 自动生成论文被抓，这也是全澳第一个使用 AI 技术作弊

8/5/2024 1:22:51 PM 汪淼

OpenAI 承认正研发 ChatGPT 文本水印，但面临挑战

据《华尔街日报》报道，OpenAI 已经开发出一款能够高精度识别 ChatGPT 生成文本的工具，但迟迟未发布。对此 OpenAI 进行了回应，承认正在研究文本水印技术，但表示这项技术仍存在诸多挑战。图源 Pexels据AI在线了解，通过文本水印，OpenAI 将只专注于检测来自 ChatGPT 的文字，而不是来自其他公司模型的文字。其将通过对 ChatGPT 选择单词的方式进行微小的更改来实现这一点，本质上是在文字中创建一个不可见的水印，以后可以被一个单独的工具检测到。OpenAI 称，文本水印是他们探索的多种解

8/5/2024 7:12:17 AM 远洋

科大讯飞星火 Spark Pro-128K 大模型开放调用，最低 0.21 元 / 万 tokens

科大讯飞今日宣布，讯飞星火 API 正式开放长上下文版本 —— Spark Pro-128K 大模型，价格最低 0.21 元 / 万 tokens。据介绍，用户与大模型之间的对话交流，通常被认为是短期记忆。一旦对话长度超过了其上下文承载能力，超出的部分就可能会被模型遗忘。区别于传统的文本处理模型，长文本模型具备更准确的文本理解和生成能力以及更强大的跨领域迁移能力，可以一次性理解和生成更多的信息，适用于复杂的对话、长篇内容创作和详细的数据分析等任务，能提升模型解决问题的边界。6 月 27 日，讯飞星火 V4.0 发布

7/18/2024 6:24:36 PM 汪淼

中山大学联合字节智创数字人团队提出MMTryon虚拟试穿框架，效果优于现有SOTA

虚拟换装技术在特效以及电商的场景下有着广泛的应用，具有较高的商业潜质与价值。近期，中山大学联合字节跳动智能创作数字人团队提出了一种多模态多参考虚拟试穿 (VITON) 框架 MMTryon，可以通过输入多个服装图像及指定穿法的文本指令来生成高质量的组合试穿结果。对于单图换装，MMTryon有效的利用了大量的数据设计了一个表征能力强大的服装编码器, 使得该方案能处理复杂的换装场景及任意服装款式；对于组合换装，MMTryon消除了传统虚拟换装算法中对服装精细分割的依赖，可依靠一条文本指令从多张服装参考图像中选择需要试穿

7/8/2024 3:42:00 PM 新闻助手

22个任务超越SOTA，43个任务媲美SOTA，Google推出医学治疗通用大模型

编辑 | 萝卜皮医生和科学家如果想开发一种新的疗法，这将是一个漫长且昂贵的任务，需要满足许多不同的标准，而能够加快这一过程的人工智能模型将是无价之宝。然而，目前大多数人工智能方法只能解决一组定义狭窄的任务，通常局限于特定领域。为了弥补这一差距，Google 团队提出了 Tx-LLM，这是一种通用大型语言模型（LLM），由 PaLM-2 微调而成，可编码有关各种治疗方式的知识。仅使用一组权重，Tx-LLM 可同时处理与自由文本交织的各种化学或生物实体（小分子、蛋白质、核酸、细胞系、疾病）信息，使其能够预测广泛的相关属

6/12/2024 2:36:00 PM ScienceAI

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域，但视觉与语言之间的连接尚未被彻底打通。举些例子，大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

6/11/2024 2:45:00 PM 机器之心

科大讯飞：讯飞星火 V4.0 正在训练中，对标 GPT-4o 的产品也在研发

科大讯飞在“深交所互动易”平台回复网友提问时透露，对标 GPT-4 当前能力的讯飞星火 V4.0 正在训练中，预计在 2024 年 6 月底发布，对标 GPT-4o 的产品正在研发中。科大讯飞方面表示，公司将紧密结合人工智能的演进和突破，把成果持续应用到智慧教育的每个产品中，不断提升产品的用户体验和客户渗透率。而在今年 4 月，科大讯飞董事长刘庆峰曾透露，今年 6 月 27 日，讯飞星火 V4.0 将正式发布。刘庆峰当时表示，星火大模型（IT之家注：讯飞星火大模型 V3.5）的通用长文本能力，包括长文档信息抽取、长

6/2/2024 4:30:06 PM 清源

AI 赋能剪贴板：微软 PowerToys 新增“高级粘贴”功能

微软正为 PowerToys 加入一项名为“高级粘贴”的新功能，其利用人工智能的强大功能，可以实时转换剪贴板内容。这项新功能能够帮助用户提升工作效率，例如将一种编程语言的代码复制粘贴成另一种语言的代码。不过，要使用高级粘贴功能的一些更高级特性，需要 OpenAI API。“高级粘贴”包含在 PowerToys 0.81 版本中，启用后可以通过组合键 Windows 键 Shift V 调出。这会打开一个 “高级粘贴” 文本窗口，提供纯文本、markdown 和 JSON 等粘贴格式转换选项。如果在“高级粘贴

5/22/2024 7:47:13 PM 远洋

AI在用 | 原来，360 AI浏览器还能轻松编辑长视频

编辑：Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。视频为王。不过，和视频生成领域的精彩纷呈相比，剪辑战场总差那么一口气。就拿长视频剪辑来说，费时费力，趁手的 AI 剪辑兵器却不多， Spikes Studio 、Nova A.I.、剪映....... 一只手也能数的过来。现在，又

5/22/2024 7:30:00 PM 机器之能

讯飞星火 Lite API 能力免费开放：在线联网搜索、低算力推理场景

感谢科大讯飞今日官宣，旗下讯飞星火 Lite API 永久免费开放，支持在线联网搜索、适用于低算力推理与模型精调等定制化场景。IT之家注：讯飞星火 Pro / Max API 价格为：0.21 元 / 万 tokens。据介绍，1token 相当于 1.5 个中文汉字，用户付费 0.21 元即可调用“讯飞星火 3.5 Max”生成一部“余华《活着》”的内容量。讯飞星火大模型 V3.5 发布于今年 1 月，该模型带来七大能力提升：文本生成提升 7.3%，语言理解提升 7.6%，知识问答提升 4.7%，逻辑推理提升 9

5/22/2024 10:39:07 AM 归泷（实习）

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉