AI在线 AI在线

评估

代码大模型安全规范正式定稿:百度阿里小米 vivo 等参与,中国信通院启动首轮评估

近年来,代码大模型已成为企业研发人员辅助编程必备助手,能够生成、翻译、补全代码,帮助定位和修复错误。然而,代码大模型背后隐藏的风险挑战还有待讨论。中国信息通信研究院(以下简称“中国信通院”)依托中国人工智能产业发展联盟(AIIA),联合业内近 30 家单位共同编制了《代码大模型安全风险防范能力要求及评估方法》规范(简称“规范”),聚焦代码大模型的安全能力,从基础功能出发,评估代码大模型的基础能力和安全风险防范能力。2024 年 6 月 18 日,规范第三次研讨会成功举办,对规范内容做出进一步的完善和修订,现已完成定
6/20/2024 4:18:53 PM
汪淼

CoT提出者Jason Wei:大模型评估基准的「七宗罪」

Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。在大模型时代,我们该如何评估 LLM 性能?现阶段,研究者已经提出了诸如 MMLU、GSM8K 等一些评估基准,不断有 LLM 在其上刷新得分。但这些评估基准真的完美吗?思维链提出者 Jason Wei 在一篇博客中进行了深入的研究。Jason Wei 首先列举了几种成
5/27/2024 3:43:00 PM
机器之心

每年节省 2000 多万美元,美国得州率先利用 AI 阅卷给学生评分

感谢得克萨斯州成为美国首个公开采用人工智能阅卷评分的州。得州近日宣布学术准备评估(STAAR)考试中笔试部分将使用“自动评分引擎”给学生打分。IT之家注:STAAR 是在每学年结束时,美国得州针对 3 至 12 年级公立学校学生,评估其能力的考试。STAAR 考试基于得州课程标准,涵盖包括阅读,写作,数学,科学和社会学在内的核心科目。美国得州于 2023 年开始推进 STAAR 考试改革,修订后的考试减少了选择题,开放式问题数量是此前的 7 倍。TEA 学生评估主管 Jose Rios 表示未来的考试尽可能推行开放
4/11/2024 12:08:16 PM
故渊

大模型增速远超摩尔定律!MIT 最新研究:人类快要喂不饱 AI 了

【新智元导读】近日,来自 MIT (麻省理工学院)的研究人员发表了关于大模型能力增速的研究,结果表明,LLM 的能力大约每 8 个月就会翻一倍,速度远超摩尔定律!硬件马上就要跟不上啦!我们人类可能要养不起 AI 了!近日,来自 MIT FutureTech 的研究人员发表了一项关于大模型能力增长速度的研究,结果表明:LLM 的能力大约每 8 个月就会翻一倍,速度远超摩尔定律!论文地址: 的能力提升大部分来自于算力,而摩尔定律代表着硬件算力的发展,—— 也就是说,随着时间的推移,终有一天我们将无法满足 LLM 所需要
3/18/2024 4:41:06 PM
清源