OpenAI 正在寻求400亿美元融资,以实现向盈利性公司的转型。若成功,估值可达3000亿美元,成为人工智能领域的“独角兽之王”。然而,这一目标面临微软等股东的否决权和法律监管不确定性。尽管面临挑战,OpenAI 预计收入将大幅增长,但仍需持续投入以保持技术领先。这场融资博弈不仅关乎 OpenAI 的未来,也折射出整个 AI 行业竞争的激烈。
2025-03-31 10:10
谷歌宣布推出其最新AI模型Gemini 2.5 Pro,该模型现已向所有Gemini应用用户免费开放。这一变化使得原本只对付费高级用户开放的高端功能现在也能被更多用户使用。Gemini 2.5 Pro被谷歌描述为“迄今为止最智能的AI模型”,在推理能力上显著提升。新模型支持多种功能,包括应用和浏览器扩展,并允许文件上传,与谷歌的协作工具Canvas无缝集成。这些更新旨在为用户提供更流畅的体验,并简化选择和记忆当前使用的Gemini模型的过程。目前,Gemini 2.5 Pro已在官网上线,并将在未来几天内推向Android和iOS平台的Gemini应用。尽管新模型已经向公众开放,但谷歌提醒用户,Gemini 2.5 Pro仍处于实验阶段,其功能包括应用与扩展的集成、文件上传和Canvas功能,这些都在进一步优化中。此外,该模型在LMArena排行榜上表现优异,显示出其在AI领域的竞争力。
2025-03-31 10:10
张亚勤院士预测,2025年将是无人驾驶技术迎来重大发展的“ChatGPT时刻”,届时将实现首次通过新图灵测试。这一预测激发了业界对自动驾驶未来的信心和期待。尽管面临挑战,但预计到2030年,10%新车将具备L4级自动驾驶能力,标志着技术的大规模普及。同时,小鹏汽车董事长何小鹏去年也表达了类似观点,强调了这一时刻的重要性。
2025-03-31 10:10
EmoEdit,由深圳大学可视计算研究中心黄惠教授课题组开发,是一种基于内容感知的图像情感编辑技术。它通过输入一个情感类别提示词,即可在用户图像上实现多样化的情感编辑,同时保持结构一致性和情感表达的准确性。该技术利用CLIP空间对情感图片进行聚类,并结合GPT-4V总结共性语义,构建情感因素树。此外,它还设计了即插即用的情感增强模块Emotion Adapter,通过融合情感知识提升扩散模型的情感感知能力。实验结果表明,EmoEdit在全局编辑、局部编辑和情感迁移三个维度上均优于其他方法,且可显著提高图像编辑效果。
2025-03-30 20:08
OverLoCK 是一种全新的基于动态卷积的视觉基础模型,旨在模仿人类视觉系统的「两步走」机制。该模型通过结合金字塔架构和Top-down Attention机制,实现了在复杂场景中快速获取全局信息并聚焦关键细节的能力。 论文的主要贡献包括: 1. **创新设计**:提出了一种新颖的深度阶段分解策略(DDS),用于构建Vision Backbone网络,使其能够同时具备全局和局部信息处理能力。 2. **独特的token mixer**:引入了ContMix模块,这是一种动态卷积模块,能够根据输入的不同分辨率自动调整卷积核的大小和形状,从而适应不同尺度的特征提取需求。 3. **实验验证**:在ImageNet、COCO和ADE20K等数据集上进行了广泛的实验,证明了OverLoCK在图像分类、目标检测和实例分割任务上的性能优于现有方法,特别是在大分辨率输入下仍能保持高效的长距离依赖建模能力。 4. **可视化研究**:通过Gradient-CAM技术,展示了OverLoCK在生成特征图时如何利用Top-down Guidance进行全局和局部信息的融合,进一步证实了其设计的合理性。
2025-03-30 20:07
Databricks 推出的 TAO 技术,通过利用测试时计算和强化学习算法,无需标注数据即可提升 LLM 的性能。这一突破性方法不仅提高了模型质量,还降低了企业级任务的执行成本。TAO 在文档问答和 SQL 生成等专业任务中的表现优于传统微调方法,将 Llama 8B/70B 等开源模型提升至 GPT-4o/o3-mini1 等商业模型的水平,且无需任何人工标注数据。此外,TAO 还能自动生成训练数据,使模型随着使用频次增加而持续进化。实验表明,TAO 能够显著提升 LLM 在多个企业任务上的性能,与 o1、o3 和 R1 等依赖测试时计算的模型相比,具有更低的推理成本。
2025-03-30 20:07
GPT-4o 在图像生成和编辑方面展现出了显著的能力,尤其是其“画笔”功能,允许用户通过简单的指令修改图片。此外,该模型还具备推理能力,能够显示生成过程的思维链,预示着未来可能整合推理与非推理模型。OpenAI 的这一进展不仅提升了 AI 技术的应用范围,也引发了关于 AI 未来发展模式的讨论。
2025-03-30 17:26
Midjourney与纽约大学研究人员合作,开发出一种提升语言模型创意文本多样性的新方法。通过引入偏差指标,并利用嵌入文本及其成对余弦距离计算差异,新训练方法显著提高了输出的多样性。实验结果显示,改进后的模型在故事质量和多样性方面均优于其他模型,且仅需四个不同的响应即可显著提升模型的多样性。尽管前景可期,但仍有一些问题需要进一步探索,如是否适用于创意写作以外的领域以及在线训练环境中的有效性。研究人员表示,他们将在GitHub上公开分享他们的代码,以供其他研究人员和开发者借鉴。
2025-03-30 11:01
讯飞医疗发布全球首个“1型糖尿病专病大模型”,超越GPT-4o,助力精准诊疗。该模型由国家“四大慢病”重大专项核心成果转化,聚焦1型糖尿病诊疗关键痛点,整合多模态数据与临床经验,构建数智化防控体系。权威知识中枢、动态感知网络和决策支持引擎三重智能支撑体系全面提升诊疗水平。在预防、诊断、治疗等65个应用场景测试中效果超越通用大模型GPT-4o和DeepSeek-R1,为1型糖尿病患者带来希望,预示着人工智能在慢性病管理领域将发挥越来越重要的作用。
2025-03-30 11:00
OpenAI的ChatGPT因模仿吉卜力风格而引发版权争议,面临法律挑战。用户生成类似动画风格的请求遭拒绝,引发了关于人工智能使用和版权法的激烈讨论。批评者认为,这种行为侵犯了人类艺术家和出版商的劳动成果。吉卜力工作室可能有权要求赔偿,并可能对OpenAI提起诉讼。目前尚不清楚吉卜力是否会采取法律行动,但这一事件凸显了人工智能在商业应用中可能面临的法律风险。
2025-03-29 12:58