Claude Opus 4.8 正式发布:编码、智能体、推理全面升级,超越 GPT-5.5
Anthropic 发布 Claude Opus 4.8,在编码、智能体技能和推理方面全面升级。在 Online-Mind2Web 测评中得分 84%,超越 Opus 4.7 和 GPT-5.5;代码错误漏检率降低约 75%,快速模式价格降至三分之一。
星期五 · AI 领域每日精选 · 数据来源:aihot.virxact.com
Anthropic 发布 Claude Opus 4.8,在编码、智能体技能和推理方面全面升级。在 Online-Mind2Web 测评中得分 84%,超越 Opus 4.7 和 GPT-5.5;代码错误漏检率降低约 75%,快速模式价格降至三分之一。
Anthropic 完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资,估值达 9650 亿美元。公司年化收入已突破 470 亿美元,资金将用于 AI 安全研究、扩展算力和规模化产品。
Claude Code 推出"动态工作流"功能,可动态编写脚本并行运行数十到数百个子智能体,适用于跨代码库的 bug 查找、大规模迁移等复杂任务。Bun 团队利用该功能完成了从 Zig 到 Rust 的迁移。
DeepSeek 计划在完成当前约 500 亿美元(3500 亿人民币)融资轮后,立即申请科创板(A 股)IPO。如果成功,这将成为中国 AI 领域最大规模的上市案例之一。
阶跃星辰发布开源大模型 Step 3.7 Flash,主打智能体工作流效率。198B 参数 MoE 架构,约 11B 活跃参数,支持 256K 上下文。在 ClawEval-1.1(67.1 分)和 SimpleVQA Search(79.2 分)评测中排名第一,Apache 2.0 许可开源。
三星电子业内率先出样 HBM4E 内存,将单堆栈带宽推至 3.6TB/s,能效较前代提升 16%。HBM4E 将为下一代大语言模型训练提供关键硬件支撑。
Apple 正尝试将大型 Gemini 模型集成到 iPhone 中以支持全新的 Siri 功能。由于模型规模庞大,云端组件可能是必然选择,端云协同或成为苹果 AI 落地的关键路径。
xAI 最新编码模型 Grok Build 0.1 通过 API 进入公开测试,专为智能体编码训练。推理速度超 100 tokens/秒,定价输入 $1/m tokens、输出 $2/m tokens,竞争 LLM 编码市场。
OpenAI 发布"前沿治理框架",阐述 AI 安全与风险管理实践如何与欧盟 AI 法案和加州新法规对齐,旨在规范前沿模型的开发与部署流程,是 OpenAI 在监管合规上的重要一步。
Sam Altman 和 Dario Amodei 在同一周改口,从"大量失业"预测变成"需要适应",具有风向标意义。两位 AI 领袖态度转变可能与其公司即将 IPO 有关,也反映出对 AI 影响就业市场的重新评估。
Cursor 团队发布《开发者习惯报告》显示,开发者周均代码产出从约 3.6K 行增至 8.6K 行,更大规模 PR 占比上升,AI 智能体工具调用数增加约 30%,被接受的 AI 代码 60 分钟后留存率从 76% 提升至 81%。
hexoai 开源 SIA(自我改进 AI)框架,AI 智能体不仅能优化外部工作流,还能通过任务反馈直接更新自身模型权重。在 LawBench 上性能提升 56.6%,GPU kernels 运行耗时减少 91.9%。
阿里云 Qwen3.7-Max 以 77.3B tokens 的使用量登顶 OpenRouter 热门大语言模型榜单,显示出开源模型在实际应用中的强劲竞争力。
Mistral AI 发布 Search Toolkit 公共预览版,将数据摄取、检索和评估整合到单一开源框架中,支持云端、本地或边缘部署,适用于企业搜索、RAG 等场景。
Perplexity Computer 现已登陆 Excel、Word、PowerPoint 和 Outlook,用户可在侧边栏中直接使用 Computer 起草文档、建模、制作演示文稿和处理电子邮件,AI 助手深度嵌入办公场景。