Claude团队发布了全面的Prompt Engineering指南,助力无代码开发热潮。该指南面向多层次用户,提供系统化操作方法和实用建议,通过视频和文档形式详细介绍如何与Claude交互以获得更精准、高效的输出。它包含多项实用技巧,如清晰任务定义、示例引导、结构化提示等,并强调了这些建议的重要性。这份指南的发布标志着AI技术快速发展的关键时期,展示了Claude在技术上的领先地位,体现了Anthropic致力于让AI更易用、更普惠的愿景。目前,该指南已通过官方渠道免费开放,未来可能迎来更多更新,为AI应用的广泛落地提供持续助力。
2025-04-03 16:29
Infosys与Formula E合作推出AI驱动的数据中心,提升车迷互动体验。该平台提供实时赛事分析,通过AI解决方案简化复杂数据,使车迷能更深入参与比赛。新电动赛车GEN3Evo发布,性能提升30%,预示赛车运动变革。Infosys完成Formula E数据湖云迁移,增强数据可用性和互动性。
2025-04-03 16:29
根据AIBase的全球生成式AI市场趋势报告,2025年3月期间,生成式AI市场在各个领域都显示出显著增长。其中,开发运维与代码完成工具、数据分析工具以及通用AI工具的增长尤为突出。具体来看,OpenAI、Deepseek和谷歌等公司的产品同比增长显著,而Character AI、Lovable和Replit等小型公司的强劲表现也值得关注。此外,传统教育科技、自由职业平台和网站构建工具等行业受到生成式AI工具的冲击,呈现出下滑趋势。整体来看,生成式AI市场正在加速扩张,对多个行业产生了深远影响。
2025-04-03 16:29
上海交通大学和上海人工智能实验室联合复旦大学,在ICLR 2025上发表了一篇关于参数高效微调的新范式研究。该研究提出了一种名为NoRM(Noisy Reduction with Reserved Majority)的算法,旨在通过保留冗余部分来提高微调的性能。 实验结果显示,NoRM在指令微调、数学推理和代码生成任务上的表现优于LoRA和其他参数冗余微调方法,实现了无痛涨点。NoRM通过随机SVD对参数更新部分进行分解,并使用Sim-Search方法基于裁剪后的delta权重和预训练权重间的子空间相似度决定拥有最小幻觉成分的c个通道。接着,计算的主要列子空间近似特征空间,并在低维空间上得到delta权重的投影。最后,通过确定整个计算流程后,研究者们通过一种Sim-Search的方法来确定要保留的分量。 此外,NoRM还发现可学习参数中存在大量冗余,这也是LoRA无法使用大秩提升性能的原因之一。因此,NoRM的设计哲学在于尽可能保留下游语料中和预训练参数中重叠最大的部分。通过测试在WikiText-103测试集上的损失函数值,可以看到NoRM的损失降低,而LoRA相比于基模型都有着一定程度上的升高。 总之,NoRM是一种高效的参数冗余微调算法,能够智能识别并保留最有价值的参数,同时去除有着负面作用的冗余参数,给微调参数做了一次“减重手术”。
2025-04-03 14:29
这篇文章主要介绍了OpenAI推出的PaperBench基准测试,这是一个用于评估大模型在复现人工智能研究论文方面能力的系统。文章详细描述了PaperBench的设计、功能以及如何通过这个基准测试来评估大模型的能力。 首先,文章提到大模型能够写出ICML Spotlight论文是一个重要的里程碑,因为这意味着这些模型已经达到了相当高的学术水平。接着,文章详细介绍了PaperBench的设计理念和目标,即评估大模型在复现人工智能研究论文中实验结果的能力。 PaperBench的测试环境包括一个测试环境,用于评估具有自主编程能力的AI智能体。在这个环境中,研究人员要求智能体复现机器学习研究论文中的实验结果,包括论文理解、代码库开发以及实验执行与调试等。这种复现任务具有较高的难度,即使是人类专家也需要数天时间来完成。 为了提高评估效率,PaperBench开发了一个基于LLM的自动评判系统,并设计了JudgeEval辅助评估框架,用于将自动评判结果与人类专家评判的金标数据集进行对比。其中,使用定制框架的o3-mini评判器表现最佳,在辅助评估中获得0.83的F1分数。 研究表明,智能体在复现机器学习研究论文方面展现出了不容忽视的能力。Claude 3.5 Sonnet(最新版)在配备基础代理框架的情况下,于 PaperBench 基准测试中获得了21.0%的得分。此外,研究团队还开发了一个轻量级评估版本——PaperBench Code-Dev,在该版本中,GPT-4(o1)在相同子集上获得了43.4%的得分。 PaperBench的任务是对每个样本,受评估的智能体会收到论文及其补充说明。在这里,智能体需要提交一个代码仓库,其中包含复现论文实验结果所需的全部代码。该仓库根目录必须包含一个 reproduce.sh文件,作为执行所有必要代码以复现论文结果的入口点。如果 reproduce.sh 能够复现论文中报告的实验结果,则视为成功复现该论文。 PaperBench的设计对智能体框架保持中立,因此对其运行环境没有特定要求。不过为确保公平比较,该基准测试制定了以下规则:智能体可以浏览互联网,但不得使用团队为每篇论文提供的黑名单中列出的网站资源。智能体可使用的资源,如运行时间和
2025-04-03 14:28
ATEC2025科技精英赛由ATEC前沿科技探索社区主办,联合清华大学、浙江大学等顶尖学府及蚂蚁集团共同承办。赛事聚焦人工智能与机器人技术融合创新,设置软件算法与硬件设计双赛道,推动具身智能技术在养老援助、灾害救援等现实场景的应用。大赛总奖金池达21万美元(税前),为顶尖科技团队提供激励。入围决赛团队将使用商业级机器人设备参与决赛,并有机会获得专项硬件补贴。知名高校牵头命题,知名学者评委和产业级硬件生态支撑,采用全户外真实环境构建技术验证关卡。组织机构包括ATEC 前沿科技探索社区、清华大学等多所高校和蚂蚁集团等企业。
2025-04-03 14:28
NotebookLM推出新功能"Discover Sources",通过AI技术自动搜集和筛选研究资料,极大提升用户的信息收集与研究效率。该功能简化了手动上传网页链接或文本的过程,只需输入研究主题即可获得相关来源,并可一键导入笔记本使用。此外,还新增了“I'm Feeling Curious”按钮,提供随机主题和相关来源,激发灵感。这一功能的发布标志着NotebookLM在提升用户研究效率和信息整理能力方面迈出了重要一步,迅速引发了科技界和用户的广泛关注。
2025-04-03 14:28
NotebookLM推出新功能“Discover sources”,用户输入主题后,系统迅速搜集并推荐相关网页内容。该功能简化了信息搜集过程,使用户能够轻松获取网络资源。这一创新功能预计将提升用户的学习效率和信息获取体验。
2025-04-03 14:28
饿了么推出AI入驻智能经理,简化新商家入驻流程,最快仅需5分钟。该工具提供24小时服务,支持材料上传、实名认证等一站式入驻流程。此举旨在提升商家体验和效率,同时计划在2025年前投入超10亿元用于AI技术应用支持。
2025-04-03 14:28
2025年4月3日,Google的Gemini-2.5-pro在MathArena评测中以绝对优势领跑,展现了其在未污染的高难度数学竞赛中的卓越表现。该模型在测试中取得了24.40%的准确率,领先第二名DeepSeek-R1五倍之多。这一成绩不仅证明了其高级数学推理能力,也为AI辅助教育、科研和复杂问题求解开辟了新的可能性。
2025-04-03 14:28