嘿咯AI新闻

2025-04-01 12:18

标题:ChartMoE:探索Sparse MoE结构在下游任务中的应用 摘要: 近期,全球 AI 和机器学习顶会ICLR 2025 Oral 中,来自IDEA、清华大学、北京大学和香港科技大学的团队提出了ChartMoE,这是一个创新的多模态大语言模型,专注于图表(Chart)的理解和生成。该模型通过引入多样化对齐任务来增强模型对图表的理解能力,并保持对其他通用任务的性能。此外,该模型还利用了专家初始化方法来提高模型的异质性,从而获得更全面的视觉表征。 研究动机与主要贡献: 不同于传统的MoE架构,ChartMoE的目标不是扩展模型的容量,而是探究MoE这种稀疏结构在下游任务上的应用。它通过第一阶段的图文对齐来增强模型对图表的理解,同时保持对其他通用任务的性能。此外,ChartMoE利用多样的对齐任务进行专家初始化,加大了专家间的异质性,使得模型能够学习到更全面的视觉表征。 技术细节与实验结果: ChartMoE的训练分为三个阶段:多阶段对齐、广泛学习高质量知识以及领域特定任务的学习。在多阶段对齐阶段,模型仅训练MLP Connector,最后拼成MoE Connector。在广泛学习高质量知识阶段,模型使用MMC-Instruct数据集,包括许多与图表相关的任务,如图表总结和图表分类等。最后,在领域特定任务的学习阶段,模型通过PoT任务来输出代码来解决具体问题。 ChartMoE的表征可视化显示,模型倾向于选择与图表内容最相关的专家,例如数据点、图像元素和图像元素间的交互等。此外,模型在通用领域的性能表现优于直接使用图文对齐的任务,显示出其对图表理解能力的提升。 结论: ChartMoE展示了Sparse MoE结构在下游任务中的潜力和应用价值。通过多样化对齐和专家初始化,模型不仅增强了对图表的理解能力,还保持了在其他通用任务上的性能。这一工作为未来探索Sparse MoE结构在更多下游任务中的应用提供了重要的参考和启示。

2025-04-01 12:17

一种名为CPPO(完成剪枝策略优化)的强化学习算法,它通过选择性地保留具有高优势的完成结果来加速训练过程。实验结果表明,在GSM8K和MATH数据集上,CPPO比GRPO快8.32倍和3.51倍,显示出了显著的性能提升。此外,CPPO还引入了一种动态完成结果分配策略,以进一步提高训练效率。最后,文章还讨论了CPPO的稳定性和收敛性,证明了其稳健而稳定的训练稳定性。

2025-04-01 12:17

一脑多机!智源研究院发布跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,实现单机智能到群体智能的飞跃。 在2025中关村论坛“未来人工智能先锋论坛”上,智源研究院发布了首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,为构建具身智能开源统一生态场景提供底层技术支持。 RoboOS基于“大脑-小脑”分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供高效、灵活、可扩展的底层支持,实现从单机智能到群体智能的跃迁。 RoboOS的核心要素包括具身大脑RoboBrain、小脑技能库以及跨机器人数据中枢,它们共同构成了一个感知 - 认知 - 决策 - 行动的闭环。 RoboBrain由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的A-LoRA模块和用于轨迹预测的T-LoRA模块。在推理时,它首先感知输入视觉信息,将指令分解为一系列可执行子任务,然后执行可操作区域感知和轨迹预测。 RoboOS实现了从单体智能迈向群体智能的转变,通过模块化设计和智能任务管理,为机器人提供高效、灵活、可扩展的底层支持。 此外,RoboOS还提供了端云协作能力,将任务规划为技能粒度,实现云端 RoboBrain 分发规划,端侧执行技能并实时反馈。 RoboOS原生支持异构机器人本体的灵活接入,以 Profile 模板机制快速完成机器人能力建模与适配。 RoboOS基于智源研究院研发的并行训练与推理框架FlagScale,提供了高效的发布 - 订阅机制和基于内存优化的数据访问引擎,满足复杂动态任务的闭环控制需求。 面向机器人在长期运行中产生的海量感知与行为数据,RoboOS提供了基于内存优化的数据访问引擎,支持TB级别历史数据的内存随机访问能力,为任务复现、异常回溯、跨任务知识迁移等场景提供基础能力。结合RoboBrain的任务推理与策略优化模块,历史数据还可用于多机之间的协作知识共享,实现更强的智能演化与自主学习能力。 此次发布的RoboOS及RoboBrain,有机融合和广泛链接不同构型的

2025-04-01 12:17

Lightmatter 公司宣布推出两项新技术,旨在加速人工智能芯片之间的数据传输。该公司位于硅谷,估值高达44亿美元,已筹集8.5亿美元风险投资。新技术使用硅光子学技术,通过光纤连接代替传统电信号传输数据,显著提高信息传输速度。知名 AI 芯片公司如 AMD 和 Nvidia 已在其产品中采用光子技术,以增强计算能力。Lightmatter 计划在2025年推出中介层技术,并在2026年发布芯片单元,与 GlobalFoundries 合作确保技术的稳定性和可靠性。这些技术创新将推动 AI 产业进一步发展,带来更智能、灵活的人工智能应用,提升用户体验。

2025-04-01 12:16

知名作家联名呼吁英国政府追究 Meta 的版权责任 近日,一群著名作家联合签署公开信,要求英国政府对 Meta 公司在人工智能训练中使用版权书籍的行为进行追责。信中请求文化、媒体与体育大臣丽莎・南迪召见 Meta 高层到国会作证。作家们认为,任何第三方使用作者作品时都应该给予相应的赔偿,包括改编、翻译和复印等行为。他们表示,这种行为明显违反了版权法,在英国,爬取作者作品用于生成式 AI 训练是违法的,但像 Meta 这样的科技巨头却在英国运营,却没有对其行为进行足够的审查。信中声称,这种行为是大规模的盗窃,必须停止。不作为将对所有英国作者造成灾难性和不可逆转的影响。

2025-04-01 12:16

人工智能公司Anthropic最近发布了一项新政策,旨在加强AI模型的安全性,以防止技术被用于不道德或非法目的。该政策要求在推出新技术前,对AI模型进行压力测试,以识别可能的风险。如果发现模型有可能帮助开发化学或生物武器,或全自动化初级研究员的工作,公司将采取额外的安全措施。此外,Anthropic还计划引入物理办公室的安全检查和内部安全团队,以确保公司内部的安全。这一举措体现了Anthropic对AI安全和责任的重视,以及对整个行业健康发展的保障。

2025-04-01 12:16

谷歌母公司 Alphabet Inc.(NASDAQ:GOOG,NASDAQ:GOOGL)推出了一系列新功能,旨在提升用户的旅行规划体验。这些更新包括了谷歌搜索、地图以及最新的Gemini人工智能平台,标志着谷歌在旅行搜索领域的重要布局。新功能包括利用AI概述生成详细的旅行行程,并在全球范围内扩展酒店价格跟踪功能,及时通知用户价格变动。此外,谷歌地图的新截图功能和Gemini的“宝石”功能现在对所有用户免费开放,允许用户创建个性化的AI助手。分析师指出,这些新推出的 AI 功能能够激发用户更早地参与决策过程,从而增加搜索量。谷歌通过这些新功能提升了与新兴 AI 搜索平台的竞争力,未来的旅行计划将会变得更加智能化和便捷,给用户带来全新的体验。

2025-04-01 12:16

埃隆·马斯克的新 AI 聊天机器人 "Grok" 因名称争议引发关注。另一家名为 Grok 的 AI 创业公司已在商标局提交了相关的商标注册申请,并指责马斯克盗用其品牌名称。这一事件引发了广泛的讨论,许多人开始关注大公司的命名行为是否会侵害到小企业的合法权益。随着 AI 技术的发展和应用的普及,类似的商标争议可能会愈发频繁。无论结果如何,这起事件都提醒了人们在科技行业中,创新与知识产权保护同样重要。

2025-04-01 12:16

GPT-4的生图功能引发了AI视频领域的关注,而Runway公司推出了Gen-4模型,该模型在保真度、一致性和可控性方面达到了新的高度。与前代相比,Gen-4能够生成具有逼真运动和高度动态的视频,同时具备优秀的提示遵循能力和一流的全球理解能力。此外,使用视觉参考和文字指令,Gen-4可以创建具有一致风格、主题、位置等的新图像和视频,让故事更具连续性和控制力。测试结果显示,Gen-4在短片和音乐视频制作中表现出色,如《孤独的小火焰》和《纽约是动物园》等作品展现了其强大的视觉效果功能。尽管面临艺术家对其和其他生成 AI 公司的诉讼,Runway 仍计划筹集新一轮融资,估值将达到 40 亿美元。

2025-04-01 10:16