Arena

AI 基准测试平台 Chatbot Arena 成立一家新公司

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下，Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力，正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道，Chatbot Arena 旨在通过这家新公司获取更多资源，从而显著改善其平台的功能和服务。

4/18/2025 12:02:40 PM AI在线

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

太卷了，大模型迭代开始以「周」为单位了吗？一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的胜利十分振奋人心。

11/22/2024 1:15:00 PM 机器之心

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

科技媒体 NeoWin 昨日（9 月 14 日）发布博文，报道称微软官方推出了 Windows Agent Arena 基准框架，用于评估生成式 AI Agents 在 Windows PC 上的性能。Windows Agent Arena 基准框架微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度，其中包括 Microsoft Edge 和谷歌 Chrome 浏览器，Visual Studio Code 等编程应用，记事本、时钟和画图等预装 Windows 应用，VLC 等主流

9/15/2024 10:04:37 AM 故渊

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试：谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

谷歌在 I / O 2024 开发者大会上，宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens，那么 Gemini 1.5 Pro 性能究竟有多强悍？根据 LMSYS Org 公布的总排行榜对比，通过 Arena Elo 系统的测量，Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。上述两款模型在中文方面的表现也非常优秀，Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。IT之家注：Aren

5/30/2024 10:32:50 AM 故渊

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉