IBM发布z17大型机,日处理AI推理4500亿次,性能提升50%。这款完全加密的大型机专为250多种AI用例设计,包括AI代理和生成式AI应用场景。新系统设计理念是能够与其他硬件、软件和开源工具完全集成,提供灵活的企业计算解决方案。IBM Z产品管理和设计副总裁蒂娜·塔奎尼奥表示,这次大型机升级已经筹备了五年,远早于2022年ChatGPT引发的当前AI热潮。z17的设计考虑了AI市场的快速发展趋势。这款大型机在发布时将支持48个IBM Spyre AI加速器芯片,并计划在12个月内将这一数字提高到96个。
2025-04-08 14:46
Sync Labs 发布 Lipsync-2:全球首个零-shot 嘴型同步模型,无需额外训练或微调即可保留演讲者的独特风格。这一突破性技术在真实感、表现力、控制力、质量和速度方面均实现了显著提升,适用于真人视频、动画以及AI生成的内容。Lipsync-2的核心亮点在于其“零-shot”能力,即无需针对特定演讲者进行预训练,模型便可即时学习并生成符合其独特说话风格的嘴型同步效果。此外,Lipsync-2引入了一项名为“温度”的控制功能,允许用户调节嘴型同步的表现程度,满足不同场景的需求。这一技术已在 fal 平台上开放体验,自4月1日宣布以来,Twitter 上关于 Lipsync-2的讨论持续升温,许多用户对其跨领域应用的潜力表示期待。作为人工智能视频技术的先锋企业,Sync Labs 通过 Lipsync-2再次证明了其在创新领域的领导地位。随着该技术的逐步推广,内容创作的门槛或将进一步降低,而观众也将享受到更加自然、沉浸式的视听体验。
2025-04-08 14:46
ElevenLabs推出MCP服务器,实现AI语音能力无缝整合到智能助手。该服务通过文本提示让AI助手访问ElevenLabs的完整AI音频平台能力,简化了API调用流程。支持文字转语音、语音克隆等核心功能,并支持启动语音代理执行外拨电话任务。
2025-04-08 12:46
阿里云旗下AI大模型Qwen系列迎来新成员Qwen3,其相关支持已正式合并至vLLM代码库中。Qwen3包含两个版本:Qwen3-8B和Qwen3-MoE-15B-A2B,分别针对不同规模和架构的创新尝试。Qwen3-8B预计延续Qwen家族在语言理解与生成任务上的优异表现,而Qwen3-MoE-15B-A2B则采用混合专家(Mixture-of-Experts, MoE)架构,拥有15亿参数,其中约2亿为活跃参数。这一进展预示着Qwen3将在全球AI竞赛中抢占先机,为企业应用和开发社区带来新的活力。
2025-04-08 12:45
国产AI模型HiDream-I1发布,拥有17亿参数,由HiDream-ai团队开发。该模型基于扩散模型技术,能够将文本描述转化为高质量图像,在细节渲染和图像一致性方面展现出令人瞩目的实力。初步测试显示,HiDream-I1在色彩还原、边缘处理和构图完整性上表现不俗,特别是面对复杂场景和多样化风格时,依然能够生成清晰且富有艺术感的画面。这款模型已完全开源,采用MIT许可证授权,并提供了详尽的使用指南和优化工具。业内专家普遍认为,HiDream-I1有望成为国产开源AI领域的一匹黑马,有潜力在国际舞台上与顶尖技术同台竞技。
2025-04-08 12:45
谷歌推出了名为Sec-Gemini v1的全新AI安全模型,旨在秒级洞悉网络攻击根源。该模型结合了Gemini的推理能力和实时网络安全知识,显著提升防御者的能力,帮助扭转攻防不对称的局面。此外,Sec-Gemini v1在多个基准测试中表现优异,领先其他模型至少11%和10.5%,展示了其在威胁情报分析、漏洞理解及事件响应效率方面的潜力。谷歌还开放了该模型,鼓励与网络安全社区合作,共同探索AI在网络安全领域的前沿应用。
2025-04-08 12:45
英伟达完成对Lepton AI的收购,交易价值数亿美元。该初创企业成立于2023年,专注于为初创企业提供高效的云端解决方案,包括出租英伟达GPU服务器和开发配套软件。此次收购使英伟达得以整合贾扬清团队在GPU服务器租赁和AI软件开发领域的丰富经验,进一步巩固其在云端AI计算市场的竞争力。
2025-04-08 12:45
火山引擎Q-Insight引入强化学习,使AI技术在视频云画质理解方面取得重大突破。通过将评分视为引导信号,模型能深入思考图像质量的本质原因,而非仅依赖简单的评分型方法或描述型方法。这种创新不仅提高了画质评估的准确性和泛化能力,还降低了对大量标注数据的依赖。此外,基于强化学习的多模态大模型(如Q-Insight)已在多个任务上达到业界领先水平,展示了出色的性能。 随着生成式人工智能与多模态大模型的发展,用户视频体验正经历深刻变革。从UGC/PGC到AIGC,视频生成模型的普及大大降低了视频生产的门槛,推动了「音视频」成为新的通用语言,为用户提供了更多样化的交流方式。同时,交互方式也从人机交互、人人交互迈向人与AI融合交互的新阶段,为用户带来更沉浸的交互体验。 面对多模态大模型对视频生态及技术架构的影响,视频云作为底层基础设施正面临机遇和挑战。火山引擎多媒体实验室联合北京大学研究人员提出了基于强化学习训练的多模态大模型图像画质理解方案Q-Insight,该方案首次将强化学习引入图像质量评估任务,创造性地运用了「群组相对策略优化」(GRPO)算法,挖掘大模型自身的推理潜力,实现对图像质量的深度理解。实验结果充分验证了Q-Insight在图像质量评分、退化感知、多图比较、原因解释等多个任务上的卓越表现,展现了其强大的泛化推理能力和对图像质量的深度理解。 以多模态画质理解大模型Q-Insight为基石之一,火山引擎视频云已经围绕多媒体链路搭建起基于大模型的解决方案,包括生成式画质增强大模型、沉浸音频大模型、生成式视频编码大模型、多模态内容理解大模型等。此外,已有的传统媒体处理能力也与大模型能力方案形成有机结合与互补,提供了感知理解、智能决策规划和输出算法能力方案。结合视频云自研多媒体处理框架BMF以及大规模多媒体实验仿真平台VLAB等工程支持,进一步提高了大模型媒体服务的稳定性和效率,有效降低了部署成本。 超越技术,体验跃迁。火山视频云产品正在把用户从流畅、实时、高清的数字视频世界带入更智能、更交互、更沉浸的AI视频世界。这不仅意味着技术的飞跃,更代表着体验方式的一场变革。在算
2025-04-08 10:45
Mozilla 最近推出了名为 LocalScore 的工具,旨在简化本地大型语言模型(LLM)的基准测试。该工具兼容 Windows 和 Linux 系统,基于 Llamafile0.9.2版本开发,可在 CPU 和 GPU 上评估 LLM 性能。LocalScore 提供了易于使用的 API,允许用户直接从 Llamafile 包调用或使用独立二进制文件进行测试。此外,LocalScore.ai 存储库用于存储结果,使用户能够轻松运行基准测试。这一工具的推出不仅提升了 Mozilla 在 AI 领域的知名度,也为开发者和研究人员提供了一个便捷的开源基准测试工具。
2025-04-08 10:45
五菱汽车推出了“灵语座舱”,一个集成了先进AI中枢大模型的智能驾驶舱,旨在消除语言沟通障碍。该系统具备强大的方言识别能力,能够支持多达8种方言和12种重口音,识别率超过95%。此外,灵语座舱还提供百科助手、灵感创作、旅游助手、音乐助手以及景点和建筑查询等功能,提升驾驶体验并为用户提供信息和灵感。这一创新产品将推动智能汽车领域的发展,使汽车成为智慧的交流伙伴。
2025-04-08 10:45