Wisk Seek 首页 资讯中心 科技新闻 查看内容

豆包大模型1.8:多模态Agent时代的旗舰级生产力引擎

2025年12月18日,火山引擎在冬季FORCE原动力大会上正式发布豆包大模型1.8(Doubao-Seed-1.8),作为专为多模态Agent场景定向优化的旗舰级模型,该版本以“自主规划、高效理解、灵活适配”为核心目标,实现了Agent能 ...
 2025年12月18日,火山引擎在冬季FORCE原动力大会上正式发布豆包大模型1.8(Doubao-Seed-1.8),作为专为多模态Agent场景定向优化的旗舰级模型,该版本以“自主规划、高效理解、灵活适配”为核心目标,实现了Agent能力、多模态理解与上下文管理的全维度跃升,标志着豆包大模型正式跻身全球AI第一梯队,为企业级智能体规模化落地筑牢技术底座。

核心突破一:Agent能力跃迁,从“被动响应”到“主动解决”
豆包大模型1.8的核心革新在于Agent能力的系统性强化,彻底改变了传统AI“指令驱动”的被动模式,升级为具备自主决策与跨工具协作能力的“全能规划师”。其工具调用精度、复杂指令遵循稳定性与OS Agent交互能力均实现大幅提升,可自主拆解多步骤复杂任务并规划执行路径。在实测场景中,该模型能全程自动化完成“多平台电商比价-同款识别-跨平台加购”等需要跨应用协作的任务,无需人工介入即可精准定位目标商品、对比价格差异并完成操作闭环,展现出极强的业务落地适配性。
尤为值得关注的是OS Agent能力的突破,模型可直接实现屏幕可视化操作,精准完成点击、输入、页面切换等交互动作,打通了AI从“推理分析”到“实际操作”的最后一公里。这一能力不仅适配企业自动化办公场景,更为智能终端的交互革新铺垫了基础,推动手机、智能座舱等设备从“按钮菜单式”向“一句话完成复杂任务”的Agent式体验升级。

核心突破二:多模态理解升级,解锁复杂场景感知边界
在多模态理解领域,豆包大模型1.8实现了从“单一模态识别”到“跨模态深度关联”的跨越。通过融合视觉、语音与文本的联合编码机制,模型能精准捕捉不同模态间的隐含关联,输出结果的一致性较前代提升40%以上。其中,视频理解能力的突破尤为显著,单次视频理解帧数从640帧倍增至1280帧,在1秒1帧的配置下可完整理解20分钟超长视频内容。
依托“低帧率泛读+高帧率精读”的智能处理模式,模型可先快速扫描全片定位关键片段,再聚焦核心区域进行高精度分析,这一机制让其在安全巡检、产品质检、在线教育等场景中具备高效实用价值——例如能精准识别监控视频中的事故画面并分析时间节点,或逐帧拆解教学视频的知识点逻辑。权威评测数据显示,该模型在视觉推理、空间理解、视频运动分析等任务中表现超越多数同类模型,跻身全球第一梯队。

核心突破三:256K超长上下文+智能管理,平衡性能与成本
针对企业级长文档处理、多轮对话延续等核心需求,豆包大模型1.8将上下文窗口扩展至256K,支持最大224K输入Token与64K输出及思考Token,可连贯理解万字级长文本、复杂合同或技术文档,信息召回准确率达到92.7%,较前代提升18个百分点。更关键的是,模型引入原生API上下文管理功能,支持像整理文件夹一样按需清理低价值历史信息、保留核心内容,既降低了Token消耗成本,又提升了复杂任务执行的稳定性,避免长对话场景下的逻辑跑偏。
在运行效率上,模型实现5000kTPM(每分钟处理Token数)与30kRPM(每分钟请求数)的高性能表现,确保大规模并发场景下的流畅体验;同时搭载自适应推理引擎,可根据任务复杂度动态调配计算资源,简单查询启用精简推理路径降低能耗,复杂任务激活全算力集群,单位查询能耗较前代降低35%,实现性能与效率的最优平衡。
落地价值:全行业适配+低成本赋能,加速AI规模化渗透
豆包大模型1.8的技术突破已得到市场验证,截至2025年12月,豆包大模型日均Token使用量突破50万亿,自发布以来增长471倍,较去年同期增长超10倍,超100家企业客户累计Token用量破万亿。为推动技术普惠,该模型已通过API形式向企业开放测试,首批适配智能客服、内容创作、数据分析、金融风控、医疗辅助等多个领域,垂直适配度较通用版本提升2.3倍。
配合火山引擎推出的“AI节省计划”,企业使用豆包大模型1.8可享受阶梯式折扣,最高节省47%成本,叠加全预付、零预付等灵活付款方式,大幅降低中小企业AI转型门槛。而火山方舟“推理代工”服务的同步推出,更让企业无需投入巨额运维成本,仅需上传加密模型参数即可享受高效推理服务,硬件与运维成本下降约一半,吞吐提升1.6倍,实现分钟级算力弹性伸缩。

路过

雷人

握手

鲜花

鸡蛋
阅读 89· 评论 0
分享到:

分享好资源,安全无广告!微信扫码注册,简单一步,快速登录!