新闻中心 -尊龙凯时登录

如何评测一个大语言模型?

编者按:大型语言模型(large language models, llms)因其在学术界和工业界展现出前所未有的性能而备受青睐。随着 llms 在研究和实际应用中被广泛使用,对其进行有效评测变得愈发重要。近期已有多篇论文围绕大模型的评测进行研究,但尚未有文章对评测的方法、数据、挑战等进行完整的梳理。日前,微软亚洲研究院的研究员们参与完成了介绍大模型评测领域的第一篇综述文章《a survey on evaluation of large language models》。该论文一共调研了219篇文献,以评测对象 (what to evaluate)、评测领域 (where to evaluate)、评测方法 (how to evaluate)和目前的评测挑战等几大方面对大模型的评测进行了详细的梳理和总结。研究员们也将持续维护大模型评测的开源项目以促进此领域的发展。

发布时间:2023-07-20 类型:深度文章

mabim:多智能体强化学习算法的“炼丹炉”

编者按:现实世界中,许多问题和任务都是由多个参与者交互进行的,所以要想使用人工智能技术解决真实世界的问题,就需要更好地模拟这种复杂的环境,而这正是多智能体强化学习(marl)的强项。早在2020年,微软亚洲研究院基于多智能体强化学习,推出了面向多行业横截面上的多智能体资源调度平台 maro。

发布时间:2023-07-19 类型:深度文章

acl 2023 | 持续进化中的语言基础模型

尽管如今的 ai 模型已经具备了理解自然语言的能力,但科研人员并没有停止对模型的不断改善和理论探索。自然语言处理(nlp)领域的技术始终在快速变化和发展当中,酝酿着新的潮流和突破。

发布时间:2023-07-12 类型:深度文章

微软亚洲研究院推出ai编译器界“工业重金属四部曲”

编者按:编译器在传统计算科学中一直是一个重要的研究课题。在人工智能技术快速发展和广泛应用的今天,人工智能模型需要部署在多样化的计算机硬件架构上。同时,训练和部署大型人工智能模型时又对硬件性能有着更高的要求,有时还需根据硬件定制化代码。这些都对人工智能时代的编译器提出了新的更高的要求。

发布时间:2023-07-11 类型:深度文章

distributional graphormer:从分子结构预测到平衡分布预测

编者按:近年来,深度学习技术在分子微观结构预测中取得了巨大的进展。然而,分子的宏观属性和功能往往取决于分子结构在平衡态下的分布,仅了解分子的微观结构还远远不够。在传统的统计力学中,分子动力学模拟或增强采样等是获得平衡分布中采样的常用方法,但这些方法昂贵又耗时。

发布时间:2023-07-07 类型:深度文章

qlib全新升级:强化学习能否重塑金融决策模式?

编者按:2020年,微软亚洲研究院开源了金融 ai 通用技术平台 qlib。qlib 以金融 ai 研究者和金融行业 it 从业者为用户,针对金融场景研发了一个适应人工智能算法的高性能基础设施和数据、模型管理平台。一经开源,qlib 便掀起了一阵热潮,相关开源项目在 github 上已收获了11.4k颗星。作为一个通用技术平台,qlib 不仅大大降低了行业从业者使用 ai 算法的技术门槛,还为金融 ai 研究者提供了一个相对完整的研究框架,让他们可以基于专业知识探索更广泛的金融 ai 场景。

发布时间:2023-07-06 类型:深度文章

acl 2023|大模型时代,自然语言领域还有什么学术增长点?

国际计算语言学年会(annual meeting of the association for computational linguistics,简称 acl)是自然语言处理(nlp)领域的顶级国际会议,acl 2023 将于2023年7月9-14日在加拿大多伦多举行。随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个需要攻坚的问题。微软亚洲研究院也在不断推进负责任的人工智能的探索发现与应用实践。今天我们为大家带来3篇微软亚洲研究院以负责任的人工智能为主题入选 acl 2023 的论文。

发布时间:2023-07-04 类型:深度文章

cvpr 2023 | 掩码图像建模mim的理解、局限与扩展

编者按:掩码图像建模(masked image modeling, mim)的提出,为计算机视觉模型训练引入无监督学习做出了重要贡献。得益于 mim 的预训练算法,计算机视觉领域在近年来持续输出着优质的研究成果。然而整个业界对 mim 机制的研究仍存在不足。

发布时间:2023-06-20 类型:深度文章

网站地图