How evals drive the next chapter in AI for businesses
推荐理由:涉及AI商业化应用中的关键实践——评估体系构建
文章探讨评估(evals)如何帮助企业定义、衡量和提升AI性能,从而降低风险、提高生产力并获得战略优势。
推荐理由:涉及AI商业化应用中的关键实践——评估体系构建
文章探讨评估(evals)如何帮助企业定义、衡量和提升AI性能,从而降低风险、提高生产力并获得战略优势。
推荐理由:展示AI在零售业的商业化落地案例
OpenAI与Target合作推出基于ChatGPT的购物应用,提供个性化推荐和快速结账,并扩大使用ChatGPT Enterprise提升员工效率与顾客体验。
推荐理由:涉及AI模型压缩与高效推理,属热门技术方向
文章介绍了Apriel-H1方法,通过新颖的蒸馏策略显著提升小型AI模型的推理效率和性能,适用于资源受限场景。
推荐理由:涉及AI编程模型新版本的安全设计,属AI模型发布与评测范畴
GPT-5.1-CodexMax系统卡披露了其安全机制,包括针对有害任务和提示注入的模型级防护,以及代理沙箱、可配置网络访问等产品级措施。
推荐理由:展示了AI在制造业的规模化落地与实际成效
全球制造商Scania通过ChatGPT Enterprise在全公司范围内推广AI应用,采用团队化培训和严格管控措施,显著提升生产力、质量和创新能力。
推荐理由:涉及AI模型在教育行业的商业化落地应用
OpenAI推出面向教师的ChatGPT免费版本,提供教育级隐私保护和管理控制,美国K–12认证教师可免费使用至2027年6月。
推荐理由:涉及AI辅助编程新模型发布及能力升级
OpenAI发布GPT-5.1-Codex-Max,一款面向项目级开发的智能编码模型,具备更强推理能力和更高token效率,适用于长时间运行的复杂编程任务。
推荐理由:展示AI在金融领域的商业化落地与产品集成
Intuit与OpenAI达成超1亿美元多年合作,将在ChatGPT中推出Intuit应用体验,并利用OpenAI前沿模型打造个性化金融工具。
推荐理由:涉及 AI 底层工具链与开源平台集成,对开发者有实用价值
本文介绍如何利用 Hugging Face 平台构建、测试和共享针对 AMD GPU 的 ROCm 内核,简化 AI 模型底层优化流程。
推荐理由:涉及AI商业化落地及区域生态建设
OpenAI联合爱尔兰政府及初创社区推出‘OpenAI for Ireland’计划,帮助当地中小企业和创业者利用AI提升创新与生产力,培育下一代科技初创企业。
推荐理由:涉及大模型可解释性前沿研究,有助于理解AI内部机制
OpenAI提出稀疏电路方法,通过机制可解释性研究神经网络推理过程,旨在提升AI系统的透明度与可靠性。
推荐理由:展示AI在医疗行业的规模化应用与员工赋能实践
飞利浦通过ChatGPT Enterprise对7万名员工进行AI素养培训,推动AI在医疗健康领域的负责任应用与落地。
推荐理由:涉及AI产品新功能发布,属于AI服务更新范畴
OpenAI在ChatGPT中推出群聊功能,支持多人与AI在同一对话中协作,提升团队沟通与协同效率。
推荐理由:涉及AI模型更新及开发者工具增强,契合AI编程与模型评测兴趣。
GPT-5.1上线API,提升编码性能,新增apply_patch和shell工具,支持更快自适应推理与扩展提示缓存。
推荐理由:展示ChatGPT Business在零售行业的商业化落地案例
Neuro公司利用ChatGPT Business以不到70名员工实现全国零售业务扩张,通过AI提升销售与运营效率,降低成本并加速执行。
推荐理由:涉及GPT-5.1新版本的安全性评测,属于AI模型发布及评测范畴。
OpenAI发布GPT-5.1 Instant与Thinking系统卡附录,更新安全指标,新增心理健康与情感依赖评估。
推荐理由:涉及大模型新版本发布及功能升级,符合AI模型发布评测主题。
OpenAI发布GPT-5.1,提升对话能力与个性化风格定制,面向付费用户逐步上线。
推荐理由:涉及AI系统安全性,对AI开发者和使用者有重要参考价值。
文章探讨了提示注入(prompt injections)这一AI系统前沿安全挑战,介绍了其攻击原理及OpenAI在模型训练与防护机制方面的应对措施。
推荐理由:展示GPT-5在生产力工具中的实际应用与产品化落地
Notion基于GPT-5重构AI架构,推出具备推理、行动与自适应能力的智能体,实现更高效灵活的自动化工作流,集成于Notion 3.0。
推荐理由:展示了AI在金融行业的规模化落地与实际效能提升
西班牙银行BBVA通过部署ChatGPT Enterprise,创建超2万个定制GPT,嵌入员工日常工作,实现最高80%效率提升,推动AI从试点走向规模化应用。