当前位置： > 认证考试 > 思科认证 > 文章内容

openai教程(openai gym 教程)

http://www.itjxue.com 2023-02-23 04:50 来源:未知 点击次数:

Python中的Numpy生成随机码是怎么实现的呢？

明敏发自凹非寺

量子位报道 | 公众号 QbitAI

到底是怎样的一个bug，能让95%的Pytorch库中招，就连特斯拉AI总监深受困扰？

还别说，这个bug虽小，但有够“狡猾”的。

这就是最近Reddit上热议的一个话题，是一位网友在使用再平常不过的Pytorch+Numpy组合时发现。

最主要的是，在代码能够跑通的情况下，它甚至还会影响模型的准确率！

除此之外，网友热议的另外一个点，竟然是：

而是它到底算不算一个bug？

这究竟是怎么一回事？

事情的起因是一位网友发现，在PyTorch中用NumPy来生成随机数时，受到数据预处理的限制，会多进程并行加载数据，但最后每个进程返回的随机数却是相同的。

他还举出例子证实了自己的说法。

如下是一个示例数据集，它会返回三个元素的随机向量。这里采用的批量大小分别为2，工作进程为4个。

然后神奇的事情发生了：每个进程返回的随机数都是一样的。

这个结果会着实让人有点一头雾水，就好像数学应用题求小明走一段路程需要花费多少时间，而你却算出来了负数。

发现了问题后，这位网友还在GitHub上下载了超过10万个PyTorch库，用同样的方法产生随机数。

结果更加令人震惊：居然有超过95%的库都受到这个问题的困扰！

这其中不乏PyTorch的官方教程和OpenAI的代码，连特斯拉AI总监Karpathy也承认自己“被坑过”！

但有一说一，这个bug想要解决也不难：只需要在每个epoch都重新设置seed，或者用python内置的随机数生成器就可以避免这个问题。

到底是不是bug？

如果这个问题已经可以解决，为什么还会引起如此大的讨论呢？

因为网友们的重点已经上升到了“哲学”层面：

这到底是不是一个bug？

在Reddit上有人认为：这不是一个bug。

虽然这个问题非常常见，但它并不算是一个bug，而是一个在调试时不可以忽略的点。

就是这个观点，激起了千层浪花，许多人都认为他忽略了问题的关键所在。

这不是产生伪随机数的问题，也不是numpy的问题，问题的核心是在于PyTorch中的DataLoader的实现

对于包含随机转换的数据加载pipeline，这意味着每个worker都将选择“相同”的转换。而现在NN中的许多数据加载pipeline，都使用某种类型的随机转换来进行数据增强，所以不重新初始化可能是一个预设。

另一位网友也表示这个bug其实是在预设程序下运行才出现的，应该向更多用户指出来。

并且95%以上的Pytorch库受此困扰，也绝不是危言耸听。

有人就分享出了自己此前的惨痛经历：

我认识到这一点是之前跑了许多进程来创建数据集时，然而发现其中一半的数据是重复的，之后花了很长的时间才发现哪里出了问题。

也有用户补充说，如果 95% 以上的用户使用时出现错误，那么代码就是错的。

顺便一提，这提供了Karpathy定律的另一个例子：即使你搞砸了一些非常基本代码，“neural nets want to work”。

你有踩过PyTorch的坑吗？

如上的bug并不是偶然，随着用PyTorch的人越来越多，被发现的bug也就越来越多，某乎上还有PyTorch的坑之总结，被浏览量高达49w。

其中从向量、函数到model.train()，无论是真bug还是自己出了bug，大家的血泪史还真的是各有千秋。

所以，关于PyTorch你可以分享的经验血泪史吗？

欢迎评论区留言讨论～

参考链接：

[1]

[2]

[3]

— 完 —

浅谈策略梯度（PG）算法

Policy Optimization（策略优化）是强化学习中的一大类算法，其基本思路区别于Value-based的算法。因此，很多教科书都将model-free RL分成两大类，Policy Optimization和Value-based。本系列博客将会参考OpenAI发布的入门教程 Spinning Up [1] ，Spinning Up系列是入门Policy Optimization的非常好的教材，特别适合初学者。Policy Gradient（策略梯度，简称PG）算法是策略优化中的核心概念，本章我们就将从最简单的PG推导开始，一步步揭开策略优化算法的神秘面纱。

如果用一句话来表达策略梯度的直观解释，那就是“如果动作使得最终回报变大，那么增加这个动作出现的概率，反之，减少这个动作出现的概率”。这句话表达了两个含义：

本节我们将一步步推导出策略梯度的基础公式，这一小节非常重要，理解了推导过程，就基本上理解了策略梯度的核心思想。所以，一定要耐心的把这一小节的内容全部看懂，最好能够达到自行推导的地步。

我们用参数化的神经网络表示我们的策略，那我们的目标，就可以表示为调整，使得期望回报最大，用公式表示：

在公式(1)中，表示从开始到结束的一条完整路径。通常，对于最大化问题，我们可以使用梯度上升算法来找到最大值。

为了能够一步步得到最优参数，我们需要得到，然后利用梯度上升算法即可，核心思想就是这么简单。

关键是求取最终的回报函数关于的梯度，这个就是策略梯度（policy gradient），通过优化策略梯度来求解RL问题的算法就叫做策略梯度算法，我们常见的PPO，TRPO都是属于策略梯度算法。下面我们的目标就是把公式（2）逐步展开，公式（2）中最核心的部分就是，这也是这篇博客最核心的地方。

在以上的推导中，用到了log求导技巧：关于的导数是。因此，我们可以得到以下的公式：

所以，才有公式（5）到公式（6），接下来我们把公式（7）进一步展开，主要是把展开。先来看看

加入log，化乘法为加法：

计算log函数的梯度，并且约去一些常量：

因此，结合公式（7）和公式（9），我们得到了最终的表达式

公式（10）就是PG算法的核心表达式了，从这个公式中可以看出，我们要求取的策略梯度其实是一个期望，具体工程实现可以采用蒙特卡罗的思想来求取期望，也就是采样求均值来近似表示期望。我们收集一系列的 ,其中每一条轨迹都是由agent采用策略与环境交互采样得到的，那策略梯度可以表示为：

其中，表示采样的轨迹的数量。现在，我们完成了详细的策略梯度的推导过程，长舒一口气，接下来的工作就比较轻松了，就是在公式（10）的基础上修修改改了。

再进行简单修改之前，我们再总结一下公式（10），毕竟这个公式是PG算法最核心的公式：

我们继续观察公式（10），对于公式中的，表示整个轨迹的回报，其实并不合理。对于一条轨迹中的所有动作，均采用相同的回报，就相当于对于轨迹中的每一个动作都赋予相同的权重。显然，动作序列中的动作有好有坏，都采取相同的回报，无法达到奖惩的目的，那我们该怎么表示 “某个状态下，执行某个动作” 的回报呢？

一种比较直观思路是，当前的动作将会影响后续的状态，并且获得即时奖励（reward），那么我们只需要使用折扣累计回报来表示当前动作的回报就行了，用公式表示为：

这在spinning up中叫做reward to go，所以，公式（10）可以表示为：

当然，使用reward to go的权重分配还是相当初级，我们可以使用更加高级的权重分配方式，进一步减少回报分配的方差，限于篇幅原因，我们后续再聊。

本章我们花了大量的篇幅推导了策略梯度（PG）的核心公式，得到了关键表达式（10），理解该公式对于我们后续理解整个PG算法族非常有帮助，希望大家能够认真的理解这一公式推导过程。

我们是行者AI，我们在“AI＋游戏”中不断前行。

如果你也对游戏感兴趣，对AI充满好奇，就快来加入我们吧~

核心支持库加载失败是怎么回事？

wps核心支持库加载失败的原因如下：

1、文件访问去权限，请检查登录的账户在软件安装的硬盘是否有足够权限。

2、模板文件损坏，建议卸载后重新安装。

WPSOffice具有内存占用低、运行速度快、体积小巧、强大插件平台支持、免费提供海量在线存储空间及文档模板、支持阅读和输出PDF文件、全面兼容微软MicrosoftOffice格式（doc/docx/xls/xlsx/ppt/pptx等）独特优势。

扩展资料：

WPSOffice支持桌面和移动办公。且WPS移动版通过GooglePlay平台，已覆盖的50多个国家和地区，WPSforAndroid在应用排行榜上领先于微软及其他竞争对手，居同类应用之首。

由于WPS诞生于DOS流行的时代里DOS起初仅仅只是磁盘操作系统它所提供的只是底层磁盘与内存的资源管理和利用手段。用户的界面完全由应用软件开发商从最底层自行设计这一点与今天在视窗与麦金塔系统下开发是完全不同的。下拉式菜单在当时最为著名它为使用提供了便利。

openai教程(openai gym 教程)

怎么挑战 dota2 openai

1、首先openai开放了5V5模式，然而目前为止，在已经进行的577场比赛中人类仅获得两场胜利，可想而知人机的实力超强。

2、比赛也是有英雄限定的，只准用相应的17个英雄，而且还禁止使用召唤物和幻像。

3、如果想要进入游戏，搜索openai five arena，进入后点击最左边的图标即可

dota2的OpenAi成了刀界的明星，在上周2-0拿下OG后，昨天对所有刀塔玩家开放，这场新颖的PVE DOTA2挑战赛，迅速激发了全世界开荒一般的热情。OpenAI一直保持着99%以上的胜率，截止4月20日凌晨一点，总共赢得2342场比赛，仅仅输掉了13场。

全球首杀是一支欧美队伍，人头比39:25，耗时44分55秒。而国内也在昨天各大主播纷纷参与，OB几位兄弟自然也在其中。峰哥、核桃、周神、龙神和宝哥组成了OB开荒团。

在被OpenAi花式吊打了一个晚上后，在最后的睡觉局OB五熊拿了斯温、火枪、死亡先知、潮汐和冰女，全场执行力拉满，指哪里打哪里，说回防3本TP亮起来，都非常想拿下这一把DOTA2比赛。只说一个细节，连老瘤子yyf都自己买粉了，你就可见想象他们是多么的想赢了。

OpenAI的矮人直升机绝望地打出胜率不足百分之一的信号，这是观众第一次看到.

OB耗时36分35秒拿下比赛，拿到国服首杀，满屏弹幕真心打出“FGNB”。有意思的是这次比赛OpenAi第十手点了一个影魔，弹幕表示OpneAi都已经进化到看情商了。也有玩家表示让光头把录像下回去给may皇看，写1000字的报告。

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：没有了

下一篇：丢失d3d12.dll(丢失的拼音)

openai教程(openai gym 教程)

Python中的Numpy生成随机码是怎么实现的呢？

浅谈策略梯度（PG）算法

核心支持库加载失败是怎么回事？

怎么挑战 dota2 openai

(责任编辑：IT教学网)

相关思科认证文章

阅读排行

专题教程

推荐思科认证文章

最新更新思科认证