笑笑乐园 - 朝花夕拾

OpenAI Blog ★★★★☆ 2020-01-30

OpenAI standardizes on PyTorch

推荐理由：涉及主流AI框架选型，影响开发者技术栈

OpenAI宣布将深度学习框架统一为PyTorch，表明其对PyTorch生态的全面投入，可能影响未来AI模型开发和工具链选择。

阅读原文 →

OpenAI Blog ★★★★☆ 2020-01-23

Scaling laws for neural language models

推荐理由：涉及大模型核心训练规律，对AI模型研发有重要参考价值

论文探讨神经语言模型的缩放规律，分析模型性能随参数量、数据量和计算资源增长的变化趋势，为大模型训练提供理论指导。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-12-13

Dota 2 with large scale deep reinforcement learning

推荐理由：涉及大模型与强化学习在复杂场景的应用，具技术参考价值

文章介绍使用大规模深度强化学习技术训练AI在Dota 2游戏中达到人类顶尖水平，展示了复杂环境下的多智能体协作与决策能力。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-12-05

Deep double descent

推荐理由：揭示大模型训练中的关键现象，对AI模型开发有指导意义

研究发现双下降现象普遍存在于CNN、ResNet和Transformer等模型中，表现为模型性能随规模、数据量或训练时间增加先升后降再升，需通过正则化缓解。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-12-03

Procgen Benchmark

推荐理由：提供RL模型评测新基准，契合AI模型评测主题

OpenAI发布Procgen Benchmark，包含16个程序生成的强化学习环境，用于评估智能体泛化能力的学习速度。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-11-21

Benchmarking safe exploration in deep reinforcement learning

推荐理由：涉及AI模型评测与安全探索技术，契合模型评测兴趣点

该文章对深度强化学习中的安全探索方法进行了系统性基准测试，评估了多种算法在不同环境下的安全性与性能表现。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-11-21

Safety Gym

推荐理由：涉及AI模型训练中的安全机制，属热门研究方向

OpenAI发布Safety Gym，一套用于评估强化学习智能体在训练过程中遵守安全约束的环境和工具。

阅读原文 →

Lilian Weng's Blog ★★★★☆ 2019-11-10

Self-Supervised Representation Learning

推荐理由：涵盖主流自监督学习模型与技术演进，对理解AI模型训练有重要参考价值。

文章深入探讨自监督表征学习在图像、视频和控制问题中的多种方法，包括对比预测编码、MoCo、SimCLR、BYOL等关键技术。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-11-05

GPT-2: 1.5B release

推荐理由：涉及大模型发布及开源，符合AI模型发布与评测主题

OpenAI发布GPT-2最大版本（15亿参数），包含代码和模型权重，作为阶段性发布的最终环节，旨在为社区提供完整发布流程的参考案例，并推动负责任AI发布的讨论。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-10-15

Solving Rubik’s Cube with a robot hand

推荐理由：展示强化学习在实体机器人控制中的突破性应用

OpenAI利用强化学习和自动域随机化技术，在仿真中训练神经网络，成功让类人机器人手解魔方，展示了AI在现实物理任务中的高精度控制能力。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-09-19

Fine-tuning GPT-2 from human preferences

推荐理由：涉及AI模型微调方法与人类反馈机制，属AI模型训练前沿实践

研究团队基于人类偏好微调GPT-2（774M参数），在摘要等任务中使用6万条人工标注数据，发现模型倾向于直接复制原文以满足标注者对准确性的要求。目标是通过人机交互更好地理解人类价值观。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-09-17

Emergent tool use from multi-agent interaction

推荐理由：揭示AI智能体自主演化工具使用能力，对AI模型行为研究有启发

研究发现多智能体在捉迷藏游戏中自发演化出六种复杂工具使用策略，展示了多智能体协同适应可催生高度复杂行为。

阅读原文 →

Lilian Weng's Blog ★★★☆☆ 2019-09-05

Evolution Strategies

推荐理由：涉及AI模型训练的替代优化方法，属AI技术底层研究

文章介绍进化策略（ES）作为黑盒优化方法，适用于无法计算梯度的场景，并探讨其在深度强化学习中的应用。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-08-22

Testing robustness against unforeseen adversaries

推荐理由：涉及AI模型鲁棒性评测，契合模型评测主题

提出新方法评估神经网络对训练中未见对抗攻击的鲁棒性，引入UAR指标衡量模型在未知攻击下的可靠性。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-08-20

GPT-2: 6-month follow-up

推荐理由：涉及大模型发布及AI社区协作规范，属AI模型发布范畴

OpenAI发布7.74亿参数的GPT-2模型，并附带开源法律协议以促进模型共享，同时发布关于AI模型发布规范的技术报告。

阅读原文 →

Lilian Weng's Blog ★★★☆☆ 2019-06-23

Meta Reinforcement Learning

推荐理由：涉及AI前沿模型技术，符合模型发布与评测类兴趣

文章探讨元强化学习（Meta-RL），即在多个强化学习任务上训练后，智能体能快速适应新任务。内容涵盖Meta-RL的起源及其三大核心组件，属于AI模型方法论的深入解析。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-04-25

MuseNet

推荐理由：属于AI模型发布及技术应用案例，展示大模型在创意领域的落地。

OpenAI发布MuseNet，一个基于Transformer的AI模型，可生成4分钟多乐器音乐，融合多种风格，通过无监督学习从MIDI文件中掌握音乐规律。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-04-23

Generative modeling with sparse transformers

推荐理由：涉及大模型架构创新与性能突破，属AI模型发布及评测范畴

OpenAI提出稀疏Transformer模型，通过改进注意力机制，可处理比以往长30倍的序列，在文本、图像和音频生成任务中创出新纪录。

阅读原文 →

OpenAI Blog ★★★★☆ 2019-04-15

OpenAI Five defeats Dota 2 world champions

推荐理由：展示AI在复杂策略游戏中的能力突破

OpenAI Five在Dota 2比赛中击败世界冠军战队OG，成为首个在公开直播中战胜电竞职业选手的AI系统。

阅读原文 →

OpenAI Blog ★★★☆☆ 2019-03-21

Implicit generation and generalization methods for energy-based models

推荐理由：涉及AI模型新方法及性能提升，属模型技术进展

研究提出改进的能量模型（EBM）训练方法，提升生成质量和泛化能力，在低温度下生成效果媲美GAN，同时具备似然模型的模式覆盖保证。

阅读原文 →