输入
阿里通义万相Wan2.1-VACE开源 号称首个开源的视频编辑统一模型
通义万相宣布VACE开源,这标志着视频编辑领域迎来了一次重大的技术革新。 此次开源的Wan2.1-VACE-1.3B支持480P分辨率,而Wan2.1-VACE-14B则支持480P和720P两种分辨率。 VACE的出现,为用户带来了一站式的视频创作体验,用户无需在不同模型或工具之间频繁切换,即可完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务,极大地提高了创作效率和灵活性。
5/15/2025 9:01:02 AM
AI在线
【IT之家评测室】讯飞输入法 14.0 体验:端侧 AI 大模型加持,重构输入体验
10 月 24 日,科大讯飞第七届世界声博会暨 2024 科大讯飞全球 1024 开发者节,在本次大会上,全新讯飞输入法 14.0 正式亮相。 当前生成式 AI 的发展正如火如荼,特别是端侧 AI 大模型正处于快速演进的阶段。 一方面,随着模型技术的进步,模型参数越来越小同时也可以做到效果越来越好,我们可以看到 2024 年以来包括 Meta、谷歌、苹果、微软等行业巨头都推出了自家适合终端侧运行的“小模型”。
10/25/2024 9:36:18 PM
汐元
15 个 AI 模型只有 3 个得分超 50%,SIUO 跑分被提出:评估多模态 AI 模型的安全性
最新发表在 arXiv 的研究论文指出,包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型,处理用户的多模态输入(例如一起输入图片和文本内容)之后,输出结果并不安全。这项研究标题为《跨模态安全调整》(Cross-Modality Safety Alignment),提出了一个全新的“安全输入但不安全输出”(SIUO),涉及道德、危险行为、自残、侵犯隐私、信息误读、宗教信仰、歧视和刻板印象、争议性话题以及非法活动和犯罪等 9 个安全领域。研究人员说,大型视觉语言模型(LVL
6/25/2024 9:12:58 AM
故渊
大模型时代还不理解自注意力?这篇文章教你从头写代码实现
自注意力是 LLM 的一大核心组件。对大模型及相关应用开发者来说,理解自注意力非常重要。近日,Ahead of AI 杂志运营者、机器学习和 AI 研究者 Sebastian Raschka 发布了一篇文章,介绍并用代码从头实现了 LLM 中的自注意力、多头注意力、交叉注意力和因果注意力。太长不看版这篇文章将介绍 Transformer 架构以及 GPT-4 和 Llama 等大型语言模型(LLM)中使用的自注意力机制。自注意力等相关机制是 LLM 的核心组件,因此如果想要理解 LLM,就需要理解它们。不仅如此,这
2/16/2024 5:06:00 PM
机器之心
编译 ONNX 模型
本篇文章译自英文文档Compile ONNX Models — tvm 0.13.dev0 documentation作者是 Joshua Z. Zhang更多 TVM 中文文档可访问 →Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。 | Apache TVM 中文站。本文将介绍如何用 Relay 部署 ONNX 模型。首先安装 ONNX 包,最便捷的方法推荐安装 protobuf 编译器:或参考官方网站: ONNX 模型下面示例中的超分辨率模型与 ONNX
6/25/2023 6:06:00 PM
HyperAI超神经
深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点
激活函数是神经网络模型重要的组成部分,本文作者Sukanya Bag从激活函数的数学原理出发,详解了十种激活函数的优缺点。
2/24/2021 2:39:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
芯片
Anthropic
生成式
蛋白质
开发者
腾讯
神经网络
研究
3D
生成
计算
Sora
机器学习
苹果
训练
AI设计
智能体
AI for Science
GPU
Claude
AI视频
华为
人形机器人
搜索
场景
百度
xAI
预测
大语言模型
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
驾驶
算力
工具
API
应用
大型语言模型
亚马逊
安全
架构