动作捕捉技术迎来革命性突破,通过字节跳动提出的全新框架DreamActor-M1实现高精度、高保真的人体动画生成。该技术基于扩散式Transformer(DiT)和混合引导机制,能够跨尺度生成从肖像到全身的高质量动画,同时保持人物身份特征和细节的高度还原。论文标题为“DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance”,展示了其在面部表情与身体动作生成、尺度适应以及外观引导方面的创新方法。实验结果表明,DreamActor-M1在多个任务上均优于现有技术,有望改变电影特效制作中对动捕的依赖。尽管存在局限性,但这项技术预示着未来电影中危险特技可能被AI替代。
2025-04-05 18:35
微软首席技术官凯文斯科特预测,到2030年,高达95%的编程代码将由人工智能生成。这一预测引发了对软件开发未来工作模式的广泛讨论。尽管人工智能将承担更多的编码任务,但斯科特强调,人类开发者的角色不会消失,而是会从重复性工作中解放出来,专注于更高级的任务,如设计和解决问题。此前,IBM的CEO也表达了类似的观点,认为人工智能可以提高生产力,而非直接取代程序员。
2025-04-05 10:35
卡内基梅隆大学开发了创新框架AI2T,旨在提升智能体开发效率,赋能多领域应用。该框架通过用户交互快速完成开发流程,内置STAND算法保障学习过程可控,具备自适应能力。在自动化智能教学助手中,AI2T辅助学生学习网页开发,能分析布局、考虑体验、调试问题,提升学习效率。
2025-04-05 10:35
DeepSeek 与清华联合研究发布新论文,探讨了奖励模型推理方法,提升可扩展性。研究者发现点式生成式奖励建模(GRM)能提升模型适应能力和推理阶段可扩展性。为此,他们提出自我原则点评调优(SPCT)学习方法,经此训练得到 DeepSeek - GRM 模型,如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验显示 SPCT 显著提高了 GRM 的质量和可扩展性,在多个基准测试中表现优于现有方法和模型。此外,引入元奖励模型(meta RM)引导投票过程,提升扩展性能。
2025-04-05 10:35
百度AI萝卜快跑在2025年“2025爱迪生奖”评选中荣获无人车领域最佳新产品奖金奖,这是中国无人驾驶领域的首次获奖。同时,百度与IFAW联合开发的“濒危物种 AI 守护官2.0”获得可持续发展领域最佳新产品银奖,有效打击网络野生动物非法贸易,提升识别效率和范围。这两项荣誉彰显了百度在科技创新方面的卓越实力和贡献。
2025-04-05 10:35
微软联合创始人比尔·盖茨最近在一次演讲中指出,人工智能(AI)将对工作格局产生深远影响。他指出,尽管AI能够承担大量常规工作,但程序员、能源专家和生物学家这三类职业因其需要人类独特的能力和经验,难以被AI取代。
2025-04-05 10:34
Midjourney V7 图像模型正式发布,标志着AI行业在图像生成技术领域的又一重要进步。V7 以其卓越的美学风格和高品质输出赢得了广泛赞誉,其开发耗时数月,采用了“完全不同的架构”,并引入了全新的数据集和语言处理技术。V7 的核心亮点包括草稿模式、更高的图像质量与连贯性、默认个性化功能以及未来更新计划。对于创意工作者而言,V7 的到来意味着更高效的工具和更广阔的可能性。
2025-04-04 22:34
Multi-Token Attention (MTA) 是一种突破性的Transformer注意力机制,它通过引入多token的概念来解决传统多头注意力在处理长距离依赖任务时的性能瓶颈。该技术的核心在于利用多个向量对的相似性来确定注意力必须集中在哪里,从而有效提升模型在处理长上下文信息时的准确度和效率。 论文首先通过一个有趣的玩具任务揭示了标准多头注意力的缺陷,并证明MTA可以轻松解决这一问题。接下来,研究者通过在大规模预训练任务中对1050亿个词库的880M个参数模型进行测试,验证了MTA方法的有效性。实验结果显示,MTA在验证复杂度和标准基准任务方面都有所改进,而参数数量只增加了0.001%。 MTA由三个重要部分组成:键 - 查询卷积、头混合卷积和带深度缩放的组归一化。这些部分共同工作,通过在头部内组合多个键和查询,并在头之间共享知识来放大重要信息。此外,研究者还提出了一种创新的混合注意力权重计算方式,允许跨不同头共享注意力信息,进一步提升了模型的性能。 在实际应用中,MTA不仅适用于标准的语言建模任务,还能有效地应用于需要处理长距离依赖的任务,如LAMBADA、NeedleInTheHaystack和BabiLong等。这些任务要求模型能够关注到埋藏在上下文中的长距离tokens,而MTA在这些任务上的表现明显优于传统的Transformer模型。 总之,Multi-Token Attention(MTA)作为一种新兴的注意力机制,通过引入多token的概念,解决了传统多头注意力在处理长距离依赖任务时的性能瓶颈。其创新性的设计和出色的实验结果为未来的自然语言处理任务提供了新的解决方案和研究方向。
2025-04-04 20:33
OpenAI宣布为美国和加拿大大学生提供免费ChatGPT Plus服务,为期一个月。此优惠面向全日制和非全日制学生,旨在帮助他们通过期末考试。此外,OpenAI还推出了ChatGPT Edu,与多家大学合作,并承诺投入5000万美元加速人工智能研究。Anthropic也宣布进入高等教育市场,提供专门版本的Claude聊天机器人,帮助学生培养批判性思维。两个实验室同时发布教育计划,揭示了大学生人群的高价值。
2025-04-04 20:33
AdaReTaKe 是华为和哈尔滨工业大学联合提出的一个长视频理解框架,它通过在推理过程中动态压缩视频冗余信息,显著提高了多模态大模型处理长视频的能力。该技术不仅提升了长视频理解的性能,还为长视频的智能处理提供了新的思路和方法。 AdaReTaKe 的核心在于其独特的视频序列分块压缩方法和基于时间与模型层间冗余性的动态压缩率分配策略。首先,它将视频帧分割成多个包含 τ 帧的块,然后根据最大上下文长度为每个块分配一个基于其内容的压缩比率,确保最终序列长度不超过设定的限制。接着,将每个块依次输入大模型进行预填充,并在完成预填充后,对对应的 KV cache 进行压缩以保持重要细节。 此外,AdaReTaKe 还提出了一种基于视频时间与模型层间冗余性的压缩率分配方法。这种方法包括三个主要部分:时间自适应分配、层次自适应分配以及理论保障。时间自适应分配是根据相邻帧相似度动态分配压缩比;层次自适应分配则根据不同模型层的抽象特征调整各层的压缩比率;而理论保障则确保了动态分配策略接近最优解,从而最大化信息保留。 实验结果表明,AdaReTaKe 方法在四个长视频理解榜单上均取得了超越其他模型的表现,平均提升幅度高达 3%-5%。特别是在处理时长最长的视频时,AdaReTaKe 能够将 7B 和 72B 模型的准确率分别提升 5.9% 和 6.0%。 此外,AdaReTaKe 还对细粒度时序感知能力进行了研究,发现虽然 ReTaKe 对视频的压缩可能会轻微损害某些细粒度任务的性能,但由于它允许模型在同一上下文长度内处理更多的帧,从而吸收了更丰富的信息,最终实现了净性能增益。 总的来说,AdaReTaKe 通过动态压缩视频冗余信息的方法,显著提高了多模态大模型处理长视频的能力,为长视频理解领域带来了新的突破。
2025-04-04 14:32