Understanding AI and learning outcomes
推荐理由:涉及AI在教育领域的实际应用与效果评测
OpenAI推出学习成果测量套件,用于评估AI在不同教育环境中对学生学习效果的长期影响。
推荐理由:涉及AI在教育领域的实际应用与效果评测
OpenAI推出学习成果测量套件,用于评估AI在不同教育环境中对学生学习效果的长期影响。
推荐理由:展示了AI在新闻行业的实际应用与工作流整合
Axios利用AI辅助本地记者、优化新闻编辑室工作流,以规模化产出高影响力本地新闻。
推荐理由:涉及大模型新版本发布及能力评测,契合用户对AI模型更新的关注。
OpenAI发布GPT-5.3的即时系统卡,概述其核心能力、安全措施及应用场景,强调在代码生成、多模态理解和推理方面的显著提升。
推荐理由:涉及大模型新版本发布及应用场景,符合AI模型发布与商业化兴趣
OpenAI发布GPT-5.3 Instant,优化日常对话流畅度与实用性,响应更快、上下文理解更强,适用于客服、个人助理等高频交互场景。
推荐理由:涉及AI在政府/军事领域的实际部署与合规应用
OpenAI与战争部签署协议,明确AI系统在涉密环境中的部署规范、安全红线及法律保护措施。
推荐理由:涉及大模型平台落地与云服务集成,属AI商业化重要进展
OpenAI与亚马逊达成战略合作,将OpenAI的前沿平台引入AWS,扩展AI基础设施、定制模型和企业级AI智能体。
推荐理由:涉及 AI 代理运行时环境新特性,属模型服务发布与工具链更新
Amazon Bedrock 推出 Stateful Runtime 环境,为基于 OpenAI 的多步 AI 工作流提供持久编排、记忆和安全执行能力。
推荐理由:涉及AI模型在政府流程中的实际应用及新基准评测
OpenAI与太平洋西北国家实验室推出DraftNEPABench基准,评估AI编程代理在联邦许可流程中的效率,可缩短NEPA草案撰写时间达15%。
推荐理由:涉及 AI 辅助编程与主流设计工具集成,契合 AI vibe coding 主题。
OpenAI 与 Figma 推出 Codex 集成,实现代码与设计无缝衔接,提升团队开发迭代效率。
推荐理由:涉及AI编程模型评测基准的可靠性分析,与AI模型评测密切相关
文章指出SWE-bench Verified存在测试缺陷和训练数据泄露问题,已无法准确评估前沿编码模型进展,建议改用SWE-bench Pro。
推荐理由:涉及AI商业化落地与企业级应用部署
OpenAI推出Frontier Alliance Partners计划,帮助企业将AI试点项目转化为安全、可扩展的生产级智能体部署。
推荐理由:涉及AI模型在复杂推理任务中的表现评测
文章展示了AI模型在First Proof数学挑战中的证明尝试,测试其在专家级问题上的研究级推理能力。
推荐理由:涉及AI模型评测及安全领域应用,契合AI模型评测与商业化场景
OpenAI与Paradigm推出EVMbench,用于评估AI智能体在检测、修复和利用高危智能合约漏洞方面的能力。
推荐理由:体现大模型在科研领域的突破性应用
GPT-5.2提出了一种新的胶子振幅公式,经OpenAI与学术合作者正式证明并验证,展示了AI在理论物理研究中的潜力。
推荐理由:涉及AI安全机制与企业级应用防护
OpenAI为ChatGPT推出Lockdown Mode和高风险标签,帮助组织防御提示注入和AI驱动的数据泄露攻击。
推荐理由:涉及AI模型服务的访问控制与规模化部署机制
OpenAI构建了一套结合速率限制、使用追踪和信用额度的实时访问系统,以支持Codex和Sora的持续调用。
推荐理由:推荐热门AI开源工具及其在科研领域的应用
OpenAI发布开源工具包GABRIEL,利用GPT将定性文本和图像转化为定量数据,助力社会科学研究规模化分析。
推荐理由:涉及AI编程模型新版本发布及性能提升
OpenAI发布GPT-5.3-Codex-Spark,首款实时编码模型,生成速度提升15倍,支持128k上下文,现面向ChatGPT Pro用户开放研究预览。
推荐理由:涉及大模型在政府/国防领域的商业化落地应用
OpenAI为美国国防团队在GenAI.mil平台部署定制版ChatGPT,提供安全、注重安全性的生成式AI能力。
推荐理由:涉及大模型全球化与本地化落地的关键实践
OpenAI介绍其AI本地化策略,探讨如何在不牺牲安全性的前提下,将前沿大模型适配到不同语言、法律和文化环境。