笑笑乐园 - 朝花夕拾

OpenAI Blog ★★★☆☆ 2017-10-19

Generalizing from simulation

推荐理由：涉及AI模型从仿真到现实的迁移应用，属AI技术落地案例

新机器人技术使在仿真中训练的控制器能部署到实体机器人上，并对环境变化做出实时反应，实现闭环控制。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-10-18

Asymmetric actor critic for image-based robot learning

推荐理由：涉及AI在机器人领域的前沿算法应用，属AI模型技术进展

提出一种非对称Actor-Critic算法，用于基于图像的机器人学习，通过在策略网络和价值网络中使用不同信息提升样本效率和性能。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-10-18

Sim-to-real transfer of robotic control with dynamics randomization

推荐理由：涉及AI在机器人领域的落地应用与技术方法

本文探讨通过动力学随机化实现机器人控制的仿真到现实迁移，提升AI模型在真实环境中的泛化能力，涉及强化学习与机器人控制的结合。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-10-17

Domain randomization and generative models for robotic grasping

推荐理由：涉及AI在机器人领域的落地应用及技术方案

文章探讨了结合域随机化与生成模型提升机器人抓取泛化能力的方法，通过在仿真中生成多样化场景训练策略，并迁移到真实机器人系统。

阅读原文 →

Lilian Weng's Blog ★★★☆☆ 2017-10-15

Learning Word Embedding

推荐理由：涉及AI基础技术中的词嵌入模型与表示学习

文章介绍了词嵌入（word embedding）的基本概念及其学习方法，包括如何将自然语言转换为数值向量，并对比了one-hot编码与稠密向量表示的优劣。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-10-11

Competitive self-play

推荐理由：涉及AI训练方法及能力演化，契合AI模型技术进展主题

文章探讨了自对弈（self-play）如何让AI在无显式设计的情况下自主发现多种物理技能，并指出自对弈将成为未来强大AI系统的核心组成部分。

阅读原文 →

Lilian Weng's Blog ★★★☆☆ 2017-09-28

Anatomize Deep Learning with Information Theory

推荐理由：涉及AI模型理论基础与训练机制，对理解大模型有启发

文章介绍了Tishby教授提出的用信息论研究深度学习的新视角，包括信息瓶颈方法和DNN训练的两个阶段：拟合与压缩。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-09-14

Learning to model other minds

推荐理由：涉及AI多智能体协作与建模，属前沿模型能力探索

OpenAI发布LOLA算法，使AI能在博弈中建模其他智能体的学习行为，实现自利但协作的策略（如以牙还牙），是迈向具备“心智理论”的AI的重要一步。

阅读原文 →

Lilian Weng's Blog ★★★☆☆ 2017-08-20

From GAN to WGAN

推荐理由：详解GAN到WGAN的技术演进，对理解生成模型训练机制有帮助

文章深入讲解了GAN的数学原理及其训练难点，并介绍了Wasserstein GAN（WGAN）如何通过使用更平滑的概率分布距离度量来改善训练稳定性。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-08-18

OpenAI Baselines: ACKTR & A2C

推荐理由：发布热门AI算法开源实现，属于工具库推荐范畴

OpenAI开源了两种新的强化学习算法实现：A2C（同步确定性版本的A3C）和ACKTR（比TRPO和A2C更样本高效，计算开销略高于A2C）。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-08-16

More on Dota 2

推荐理由：涉及AI训练方法与性能突破，具技术参考价值

文章探讨Dota 2中自对弈（self-play）如何推动AI系统从远低于人类水平迅速提升至超人类水平，强调其相比监督学习的优势。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-08-11

Dota 2

推荐理由：展示AI在复杂游戏场景中的自主学习与决策能力，具技术突破性。

OpenAI开发的Dota 2 AI bot通过纯自博弈训练，在标准比赛规则下击败世界顶级职业选手，未使用模仿学习或树搜索，展示了AI在复杂人类环境中的目标达成能力。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-08-03

Gathering human feedback

推荐理由：推荐开源AI训练工具，契合AI工具库及安全对齐方向

RL-Teacher 是一个开源工具，通过人类反馈而非手工设计的奖励函数来训练AI，适用于奖励难以定义的强化学习场景，并有助于构建更安全的AI系统。

阅读原文 →

Lilian Weng's Blog ★★★☆☆ 2017-08-01

How to Explain the Prediction of a Machine Learning Model?

推荐理由：涉及AI模型透明性与落地合规，契合AI商业化应用主题

文章探讨机器学习模型可解释性，涵盖可解释模型与黑盒模型的解释方法，并讨论可解释AI在医疗、司法等关键领域的必要性。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-07-27

Better exploration with parameter noise

推荐理由：涉及AI模型训练技巧，属热门AI工具库及skill推荐范畴

文章介绍在强化学习算法参数中加入自适应噪声可提升性能，该探索方法实现简单且几乎不会降低表现，适用于各类问题。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-07-20

Proximal Policy Optimization

推荐理由：涉及AI模型算法发布与技术细节，属核心AI技术进展

OpenAI发布近端策略优化（PPO）算法，作为更简单易用且性能优越的强化学习新方法，现已成为其默认RL算法。

阅读原文 →

OpenAI Blog ★★★☆☆ 2017-07-17

Robust adversarial inputs

推荐理由：涉及AI模型鲁棒性与安全，属模型评测范畴

研究展示了能从不同尺度和视角稳定欺骗神经网络分类器的对抗样本，反驳了自动驾驶因多视角输入而难以被恶意攻击的观点。

阅读原文 →

Lilian Weng's Blog ★★★☆☆ 2017-07-08

Predict Stock Prices Using RNN: Part 1

推荐理由：提供AI模型实战教程及开源代码，契合AI工具使用与应用落地主题

本文教程介绍如何使用TensorFlow构建RNN模型预测标普500指数价格，附完整开源代码，适合学习AI在金融时序预测中的基础应用。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-07-01

Teacher–student curriculum learning

推荐理由：涉及AI模型训练新方法，属热门研究方向

提出一种教师-学生课程学习框架，通过动态调整训练数据难度提升模型学习效率，在多个AI任务中验证有效性。

阅读原文 →

OpenAI Blog ★★★★☆ 2017-06-28

Faster physics in Python

推荐理由：推荐热门AI开源工具库，契合机器人与AI仿真需求

开源了一个基于MuJoCo引擎的高性能Python机器人仿真库，用于加速物理模拟，适用于机器人研究。

阅读原文 →