Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs In a field where large models are king, Pangu Ultra stands out as a testament to the power of using domestic technology to achieve state-of-the-art results. This model, developed by the team at Pangu Technology, is not only based on the powerful Ascend NPUs but also leverages the latest advancements in deep learning techniques for training dense language models. With a total parameter count of 135B and an embedding size of 94 layers, Pangu Ultra represents a significant milestone in the development of large language models. The key to Pangu Ultra's success lies in its innovative architecture and optimization strategies. The model is designed around a 94-layer Transformer structure, with FANN (SwiGLU) layers at the front end, attention layers at the back, and GQA (GQA) layers in between. The use of Sandwich-Norm and TinyInit initializers ensures that the model maintains stable performance even during training. Additionally, the team has optimized the pre-training process by carefully selecting data and fine-tuning the model based on quality assessment scores. One of the most impressive aspects of Pangu Ultra is its ability to train on massive amounts of data without sacrificing accuracy or stability. The model can process up to 128K tokens per second, allowing it to handle tasks like text classification, reasoning, and decoding in real-time. This capability is particularly valuable in scenarios where processing speed is critical, such as natural language generation and dialogue systems. Another highlight of the research is the extensive testing and evaluation conducted on a variety of benchmarks. Pangu Ultra achieved state-of-the-art results across multiple domains, including Llama 405B, MiSTral 2016, and DeepSeek R1. These achievements demonstrate the model's ability to generalize well beyond its initial training data and compete with leading global models. In terms of system optimization, Pangu Ultra utilizes a range of advanced techniques to improve efficiency and reduce resource usage. For example, the team employed a combination of hybrid parallelism, fine-grained load balancing, efficient fused operations, and subsequence splitting to achieve optimal performance on large clusters
2025-04-13 17:12
扩散模型奖励微调新突破:Nabla-GFlowNet让多样性与效率兼得 在最新的AI技术研究中,来自机器之心的团队提出了一种创新的方法来提高扩散模型在美学评分奖励函数(Aesthetic Score)上的性能。他们开发了名为Nabla-GFlowNet的算法,通过引入梯度信息和精心设计的网络结构,实现了高效且平衡的微调过程。这项技术不仅提高了生成图像的质量,还保持了较高的多样性,同时加快了训练速度。 核心在于利用生成流网络(GFlowNet)框架,该框架将扩散模型的生成过程视为一个动态系统,其中“水流”从源头流向终点,每个节点的水流都对应着一定的奖励。通过推导出新的平衡条件——Nabla-DB,并设计了一个参数化的损失函数,Nabla-GFlowNet能够有效地调整模型参数,以适应不同的奖励函数。 实验结果表明,Nabla-GFlowNet方法在多个奖励函数上均表现出色,特别是在Aesthetic Score奖励函数上,可以快速得到奖励更高的生成图像,同时避免了过拟合。此外,该方法在保持生成样本多样性方面也显示出优势,相较于其他直接奖励优化的方法,如ReFL和DRaFT,Nabla-GFlowNet更难陷入过拟合。 总之,Nabla-GFlowNet为扩散模型提供了一种既高效又平衡的微调方法,有望在实际应用中取得更好的效果。
2025-04-13 15:12
MegaMath 数据集由LLM360推出,是全球最大的开源数学推理预训练数据集,包含3710亿tokens,覆盖网页、代码和高质量合成数据三大领域。该数据集的构建解决了以往开源数据集规模过小、质量不足的问题,为数学语言模型的训练提供了高质量的数据支持。MegaMath不仅在规模上超越DeepSeek-Math Corpus(120B),而且在质量与多样性上也有所突破。通过严格的工程优化和技术迭代,MegaMath确保了数据的实用性与泛化能力并存。实验表明,MegaMath在多个标准数学任务上取得了显著提升,为构建更强数学语言模型奠定了基础。
2025-04-13 15:12
这篇文章是关于语言模型推理性能的最新研究,特别是关注强化学习(RL)在小蒸馏模型上的应用。文章指出,尽管强化学习在某些情况下可能有助于改进较小的蒸馏模型,但其效果被夸大了,需要更好的评估标准来了解哪些方法真正有效。此外,研究者强调了对结果可靠性的影响最大的因素包括采样差异、解码配置和硬件异构性等。 文章还探讨了推理设计空间中的重要问题,如Pass@1的准确性、响应长度与性能之间的关系以及多样性坍缩现象。研究发现,通过强化学习训练的方法未能显著提升性能,而SFT(监督微调)模型在基准测试中获得显著且可推广的提升。此外,较长的响应与较高的错误概率相关联,表明响应长度可能是影响推理准确性的一个重要因素。 最后,文章提出了一些关键问题,如响应长度与性能之间的关系是否适用于所有情况,以及这种现象是否主要由截断或不完整响应导致。这些问题的答案对于进一步理解强化学习和推理性能的关系至关重要。
2025-04-13 15:12
爱尔兰数据保护委员会(DPC)对社交媒体平台X公司展开调查,因未经用户同意使用其个人数据训练AI聊天机器人Grok。此举违反了欧盟通用数据保护条例(GDPR)规定,可能面临全球收入4%的罚款。此事件凸显了企业在处理用户数据时必须遵守法律和道德标准的重要性,并提醒科技公司重视数据隐私和保护,以赢得用户信任和可持续发展。
2025-04-13 11:11
谷歌DeepMind计划整合Gemini与Veo,打造智能全能助手。此举旨在提升Gemini对物理世界的理解能力,开发一个能在现实生活中提供帮助的通用数字助手。Gemini模型最初设计为多模态系统,能够处理多种类型的数据和信息。Hassabis指出,这一举措将使助手更好地理解和与世界互动。整个AI行业正朝着“全能”模型发展,许多公司也在探索类似的方向。谷歌通过扩大服务条款获取更多YouTube内容用于AI模型训练,确保模型的多样性和准确性。这一计划预示着AI助手将不再局限于单一任务,而是能够在多个领域提供实用的支持,为用户的生活带来更多的便利。
2025-04-13 11:11
前OpenAI员工指控公司重组违背非营利使命,引发行业关注。诉讼中,员工强调非营利结构对吸引人才的重要性,并指出马斯克批评奥尔特曼的营利化转型做法。尽管禁令未获批,但案件将于今年秋季审理,可能影响OpenAI未来发展方向。
2025-04-13 11:11
《Science子刊》发表的论文《FairDiffusion: Enhancing Equity in Latent Diffusion Models via Fair Bayesian Perturbation》首次提出了一种基于公平贝叶斯扰动的医学图像生成方法,旨在解决模型在生成过程中对不同人群(性别、种族、族裔)的不公平问题。该方法通过引入自适应高斯扰动来缩小群体间的误差差距,并设计了新的公平性评价指标,如ES-FID和ES-IS,以量化各群体间的公平性。此外,该研究还构建了一个名为FairGenMed的数据集,用于评估其方法的有效性。 研究结果显示,FairDiffusion在多个医学影像数据集上均取得了显著的性能提升,特别是在图像清晰度和细节表现上,尤其是在弱势群体样本上的优势更为明显。此外,通过对比实验,证明了该方法在整体图像质量和各群体间公平性的双重提升效果。未来,研究团队将继续扩充数据集规模、丰富敏感属性维度,并探索更多应用场景下的公平生成策略,以推动医学生成模型在全球医疗影像领域实现更为普惠、公正的应用。
2025-04-12 19:10
新加坡国立大学LinS Lab的邵林团队开发了一种名为DexSinGrasp的强化学习算法,旨在提高机器人在复杂环境中抓取物体的能力。这项技术通过整合物体分离与抓取任务,使灵巧手在杂乱环境中能够自适应调整策略,显著提高了抓取成功率和操作效率。 研究团队提出了一种基于强化学习的统一策略,该策略通过融合物体分离与抓取动作,实现了「分离—抓取」动作的无缝衔接。该方法引入了分离奖励项,将「分离障碍」、「抓取目标」整合为一个连续的动作决策过程,避免了传统多阶段方法中各模块间效率低下和动作衔接不畅的问题。此外,研究还设计了一套多难度抓取任务,通过大量实验验证了所提方法的高效性与有效性。 为了解决机器人在多变的杂乱环境中高效分离物体并抓取目标的问题,DexSinGrasp 提出了「统一策略」的设计。该方法通过强化学习构建了一体化的策略框架,实现了「分离—抓取」动作的无缝衔接。该项研究的主要贡献有: - 统一强化学习策略:提出一种统一的强化学习策略,实现灵巧手在杂乱环境中对物体的有效分离和抓取。 - 课程学习与策略蒸馏:融入杂乱环境课程学习以提升不同场景下的策略性能,并通过策略蒸馏获得适用于实际部署的视觉抓取策略。 - 多难度抓取任务设计:设计一系列不同难度与排列的杂乱抓取任务,通过大量实验验证所提方法的高效性与有效性。 此外,研究团队还在实机平台上进行了验证。使用 uFactory xArm6 搭载 LEAP 手,并配备两台 Realsense RGB-D 摄像头以进行实时点云数据融合与滤波处理。图示为实机实验中对密集与随机摆放的 4、6、8 个物体场景下成功分离与抓取的演示。实验表明,经过教师—学生策略蒸馏后的视觉策略在实际操作中也能有效完成杂乱环境的有效分离与抓取。 总之,DexSinGrasp 是一种基于强化学习的统一框架,通过整合物体分离与抓取任务,实现了灵巧手在杂乱环境中的高效操作。该方法突破以往直接抓取或多阶段分割的策略,利用推移、滑动等动作在抓取过程中直接调整障碍物布局,结合环境复杂度递进式的杂乱环境课程学习与教师—学生策略蒸馏技术,有效提升视觉策略
2025-04-12 17:09
这篇文章由法国索邦大学、苹果的研究者共同撰写,主要研究了多模态模型(NMM)在处理不同数据类型时的性能和效率。文章指出,尽管传统的深度学习模型如长短期记忆网络(LSTM)在处理多模态数据时表现良好,但它们通常需要大量的参数和计算资源,这限制了它们的应用范围。因此,研究人员提出了原生多模态模型(NMM),这是一种不需要额外编码器层即可处理多种模态数据的模型。 研究表明,早融合架构在低参数数量下表现出更强的性能,训练效率更高,并且更易于部署。此外,通过结合混合专家(MoE),NMM 可以学习特定于模态的权重,从而显著提升性能。 论文还比较了NMM与纯文本语言模型(LLM)的Scaling Laws,发现两者遵循相似的规律,但NMM 在计算预算较低的情况下仍能保持较好的性能。此外,研究还探讨了后融合和早融合模型之间的权衡,指出后融合模型需要更多的参数,而早融合模型则受益于更多的训练 token。 最后,文章总结了多模态模型的研究进展,并强调了在统一架构内进行多模态特化的重要性。
2025-04-12 17:09