Teaching models to express their uncertainty in words
推荐理由:涉及AI模型输出可靠性,对AI应用落地有实际意义
文章探讨如何训练AI模型用自然语言表达其预测的不确定性,例如说“我不确定”或“这可能不准确”,以提升人机交互的可靠性与透明度。
推荐理由:涉及AI模型输出可靠性,对AI应用落地有实际意义
文章探讨如何训练AI模型用自然语言表达其预测的不确定性,例如说“我不确定”或“这可能不准确”,以提升人机交互的可靠性与透明度。
推荐理由:涉及Codex在实际应用中的部署,契合AI商业化与工具使用主题
OpenAI Codex 通过 API 支持70多个应用,覆盖多种使用场景,展示其在AI辅助编程和应用开发中的广泛落地。
推荐理由:涉及AI生成模型核心技术及评测,属热门AIGC方向
论文提出GLIDE模型,基于CLIP潜在空间实现分层文本到图像生成,通过先生成低分辨率图像再逐步超分,提升生成图像与文本的一致性和细节质量。
推荐理由:涉及AI模型新能力发布,属核心技术更新
OpenAI发布新版GPT-3和Codex,支持编辑和插入现有文本,而不仅限于文本补全。
推荐理由:聚焦AI编程工具的经济影响,契合AI商业化应用主题
本文提出评估代码生成模型经济影响的研究议程,探讨其对开发者生产力、软件行业结构及就业市场的潜在效应,并建议量化指标与实证方法。
推荐理由:涉及AI模型部署安全,属AI模型服务重要议题
文章分享了AI开发者在语言模型安全部署和防止滥用方面的最新思考与实践经验,旨在帮助其他开发者提升模型安全性。
推荐理由:涉及AI在形式化数学领域的前沿应用与模型能力突破
研究团队开发了一个基于Lean的神经定理证明器,能解决包括AMC12、AIME及IMO改编题在内的高难度数学竞赛问题。
推荐理由:涉及大模型对齐与指令遵循核心技术,属AI模型优化关键方向
本文探讨如何通过指令微调(instruction tuning)使语言模型更好地遵循人类指令,提升模型在未见任务上的泛化能力,并介绍相关训练方法与评估基准。
推荐理由:涉及AI模型服务新功能发布及技术应用
OpenAI 推出新的嵌入(embeddings)API 端点,支持文本和代码的语义搜索、聚类、主题建模与分类等任务。
推荐理由:涉及AI编程核心嵌入技术,对AI辅助编程工具开发有参考价值
文章介绍通过对比预训练方法构建文本和代码嵌入模型,提升代码搜索、克隆检测等任务效果,适用于AI编程工具底层技术。
推荐理由:涉及大模型能力增强与事实性改进,属AI模型技术进展
OpenAI通过微调GPT-3,使其能使用文本浏览器搜索网页信息,从而提升开放式问答的事实准确性,形成WebGPT模型。
推荐理由:涉及大模型定制化与实际应用,符合AI模型服务发布及使用主题
介绍如何通过单条命令对GPT-3进行微调,以适配特定应用场景,提升模型在垂直任务上的表现。
推荐理由:涉及主流AI模型服务开放,影响开发者使用
OpenAI宣布其API取消等待列表,现已向更多用户开放,此举得益于其在安全方面的进展。
推荐理由:涉及AI模型在特定任务上的性能突破与评测
新系统解决小学数学应用题的准确率接近人类儿童水平,比微调后的GPT-3准确率高出近一倍,在相同测试中得分55%(儿童为60%)。
推荐理由:涉及AI模型训练与人类反馈机制,属AI模型优化方向
探讨如何通过人类反馈扩展对AI系统的监督,以提升AI在难以评估任务(如书籍摘要)中的表现。
推荐理由:涉及AI模型评测与真实性评估,契合模型评测主题
TruthfulQA是一个用于评估大模型生成内容真实性的基准数据集,通过衡量模型模仿人类错误陈述的倾向,帮助识别和减少AI幻觉问题。
推荐理由:涉及AI编程核心模型更新,与AI辅助编程直接相关
OpenAI发布了改进版Codex,该AI系统可将自然语言转为代码,并通过API开启私测。
推荐理由:热门AI工具库推荐,提升神经网络开发效率
Triton 1.0发布,这是一个开源的类Python GPU编程语言,让无CUDA经验的研究者也能编写高效GPU代码,性能媲美专家手写代码。
推荐理由:聚焦代码大模型评测,契合AI vibe coding与模型评测主题
论文《Evaluating large language models trained on code》提出CodeXGLUE基准,系统评估代码大模型在代码生成、翻译、修复等任务上的性能,涵盖多个数据集和指标,为AI编程模型提供标准化评测框架。
推荐理由:涉及AI模型训练与行为优化,属模型改进技术
研究表明,通过在小型精选数据集上微调,可有效改善语言模型在特定行为价值观上的表现。