当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示,一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试(如SimpleQA)主要衡量模型检索基本孤立事实的能力,这类测试已被具备快速浏览工具(如支持浏览功能的GPT-4o)的模型所饱和。为了衡量AI智能体在互联网上定位难以查找、相互关联信息的能力,现开源基准测试BrowseComp。
相关文章
-
马斯克,盯上苹果!
当地时间8月11日,美国企业家埃隆·马斯克在社交平台发文称,苹果公司涉嫌通过限制措施,使除美国开放人工智能研究中心(OpenAI)外的任何人工智能公司都无法在其应用商店排行榜中登顶,称此为“明确的反垄断违规行为”。马斯克表示,其旗下xAI公司将立即采取法律行动。xAI是马斯克于2023年创办的人工智
2025-08-12 19:24:00
-
300815,突然直拉!暴涨超15%!智元机器人入股!
企查查显示,深圳玉树智能机器人有限公司(下称“深圳玉树”)股权结构在近日发生了变更。智元创新(上海)科技有限公司(下称“智元创新”)新增成为深圳玉树股东,持股5%。智元创新即智元机器人运营主体。深圳玉树成立于今年3月,原注册资本为5000万元,由玉禾田(深圳)智慧科技投资有限公司(下称“玉禾田智慧”
2025-08-12 02:53:00
-
人民日报评“邵医生坠亡事件”:绝不能任由网暴者肆意横行,必须严惩!
人民日报客户端8月9日刊发评论文章《绝不能任由网暴者肆意横行》。全文如下:近日,河南周口一名妇产科医生疑因不堪网暴长期侵扰坠楼身亡。家属接受采访称,网暴源于三起医疗纠纷。目前,当地相关部门已成立调查组。相关医疗纠纷责任划分有待进一步查清,相信有关部门会给出明确的结论。从家属披露的遗书和网络平台有关记
2025-08-09 17:41:00
-
瞄准可靠性难题,全国首个高阶程序大模型可信框架开源
7月27日,在2025年世界人工智能大会(WAIC)的“从通用智力到专业生产力:高阶程序引领的AI应用新范式”论坛上,蚂蚁集团旗下蚂蚁密算宣布对外开源高阶程序(High-Order Program)大模型可信应用技术框架,推动解决大模型在专业应用中的可靠性困境,加速大模型在专业领域的规模化应用。据悉
2025-07-27 17:23:00
-
一把标准尺“量”出产业新动能
统一划分标准后,执法过程更加直观、简便,更具操作性。受访者供图7月22日,广东樱井科技有限公司的智能坐便器生产车间机器轰鸣,一条先进的环形生产线正全速运转。一批刚刚完成3C认证的产品摆放整齐,即将发往各大市场。“现在认证周期缩短至10天,检测费用也下降了15%。”公司负责人黄丽敏说。这一变化,源于6
2025-07-24 08:12:00
-
大模型浪潮下,电力数智化转型破局之路
在人工智能浪潮席卷全球的今天,电力行业正迎来前所未有的创新变革。从传统电网到新型电力系统,从人工运维到智能决策,AI 技术正深度融入电力生产、传输、分配和消费的全链条。随着 “双碳” 战略的推进和新型电力系统建设的加速,电力行业对智能化的需求愈发迫切 —— 如何提升安监效率、优化设备运维、精准管控能
2025-07-23 00:04:00