99精品视频一区_亚洲风情第一页_国产一区二区三区四_黄色aaa大片_特级西西444www大精品视频免费看_欧美性一区二区三区_欧美日韩免费观看中文_视频在线观看国产精品_永久免费未视频

中國電商物流網(wǎng)-電子商務與物流行業(yè)融合媒體!電子商務物流行業(yè)門戶網(wǎng)站!
快遞網(wǎng)點 郵編查詢 行政區(qū)劃 高鐵時刻 高鐵票價 高鐵車次
貿(mào)易資訊
免費注冊 登錄
中國電商物流網(wǎng)
企 業(yè)
產(chǎn) 品
商 務

NeurIPS頒獎現(xiàn)場:揭秘百度如何在強化學習競賽中拔得頭籌

來源:中國電商物流網(wǎng)  發(fā)布時間:2019-12-17 9:26

  相比于一年舉辦數(shù)十場的各種類型的圖像識別/分割大賽而言,強化學習的頂級賽事可謂是寥寥可數(shù),其技術報告更是鳳毛麟角。強化學習在賽事領域到底有哪些常用的解題思路以及黑科技呢?今天我們通過解讀NeurIPS強化學習賽事頒獎現(xiàn)場的技術報告,為大家?guī)矸律丝刂拼筚愡@一國際頂尖賽事的冠軍解決方案。

訓練代碼的開源路徑:https://github.com/PaddlePaddle/PARL

  在12月8日-14日于加拿大溫哥華舉辦的機器學習領域頂級會議NeurIPS 2019上,百度連續(xù)第二年拿下強化學習賽事冠軍。而在頒獎典禮現(xiàn)場,百度技術團隊分享了此次能夠獲得冠軍的關鍵3點:高性能的并行框架PARL、課程學習機制以及提升模型魯棒性的新算法。

  據(jù)悉,斯坦福大學仿生動力學實驗室連續(xù)三年在NeurIPS上舉辦了關于仿生人的控制競賽---通過肌肉來控制仿生人來靈活運動,目標是將強化學習這項潛力巨大的技術應用到人體肌肉運動研究領域中,進一步理解對人體腿部的運動原理,為該領域研究拓展全新的研究思路。

  今年賽事的任務是通過強化學習訓練一個模型來控制仿生人進行靈活運動,使得其可以朝著任意角度行走,并可以實時調(diào)整速度快慢。這一目標相比去年階段性地變化行走目標而言,主要變化在實時變換速度,任意行走角度上,給今年的參賽選手帶來了極大的挑戰(zhàn)(賽事結(jié)果報導見上一篇文章)。

  如下為百度技術團隊在頒獎典禮上的技術報告:

  PARL:最高可支持20000個計算節(jié)點并發(fā)計算的強化學習框架

  歷屆賽事采用的是斯坦福實驗室設計的opensim仿生人模型,這一仿真器基于生物動力學原理,盡可能地還原了真實的物理情況。但是高仿真度意味需要耗費更多的計算資源,這使得它的運行速度相比主流強化學習仿真環(huán)境慢很多,平均速率只有4幀/秒(主流環(huán)境Mujoco最高可達到1000幀/秒)。要解決這個問題,最直接了當?shù)姆椒ㄊ抢枚鄠CPU進行并行計算,同時進行仿真。目前開源社區(qū)中已經(jīng)有一部分RL框架支持并行計算,比如最為流行的baseline(OPENAI開源),但是這類框架的并行計算是基于mpi4py通訊協(xié)議實現(xiàn)的。用戶不僅需要熟悉mpi的常用接口,還得用特定的命令才能啟動多機訓練,相對于單機版本的改動極大,用戶上手成本很高。

  而在飛槳PARL框架下,并行計算代碼編寫幾乎沒有額外學習成本。PARL鼓勵用戶寫傳統(tǒng)的python多線程代碼來達到并行目的,開發(fā)者并不需要關注網(wǎng)絡傳輸?shù)膶崿F(xiàn),只要增加一個并行修飾符就可以實現(xiàn)并行化(盡管python多線程受全局鎖GIL限制而不能實現(xiàn)真正的并行,但是這個修飾符的底層實現(xiàn)是獨立進程級別的,不受這一限制)。獲勝團隊實現(xiàn)了并行版本的DDPG/PPO算法,使用了上百個仿真環(huán)境在CPU集群上進行仿真,探索不同的狀態(tài)空間,并且通過網(wǎng)絡傳輸把數(shù)據(jù)收集到訓練機器上通過GPU預測以及訓練(見圖1),將原先單CPU需要5小時迭代一輪的單機PPO算法時間壓縮到了不到1分鐘。

圖1

  課程學習機制

  本次比賽的一個重要挑戰(zhàn)是在高達117維度的連續(xù)空間上訓練一個可以靈活行走的模型,搜索空間極大,模型在訓練的過程中很容易陷入局部最優(yōu),例如圖2這種螃蟹一樣橫著走的情況。

圖2

  如何才能避免這種情況,讓模型學習到一個靈活的走路姿勢,和普通人行走一樣正常呢?

  在參賽過程中,該團隊注意到把強化學習的學習目標直接設定為低速向前的話,模型會“抖機靈”地探索到各種各樣奇怪的姿勢來達到低速行走的目標,比如拖著腿走,小步跳著走,甚至橫著走。這些奇怪的姿勢導致模型陷入局部最優(yōu),短期內(nèi)雖然拿到了不錯打分,但效果卻無法進一步提升。如何學習到更接近于人類的穩(wěn)定姿態(tài)?參賽團隊進一步發(fā)現(xiàn),把目標設定為向前奔跑且跑得越快越好,模型學出來的姿勢較自然。仿真環(huán)境中的仿生人先邁出右腿,身體向前傾斜,然后向前沖刺,最后和普通人一樣向前跑起來(見圖3)!該團隊認為出現(xiàn)該情況的原因在于此:低速行走有非常多的姿勢能夠?qū)崿F(xiàn),也很容易陷入局部最優(yōu);但是目標設定為最快速度奔跑的時候,模型的可能選擇反倒更少了----像人類一樣沖刺。在學會了向前奔跑之后,參賽選手再逐步把目標速度降低,讓模型保持原先的姿勢的同時,逐步學會低速行走。有了這種“課程”式的訓練過程,模型可以學習到真正與人類一樣的行走姿勢,這也為后續(xù)的靈活變換方向奠定了基礎。

圖3

  RAVE:提升魯棒性的新算法

  RAVE的全稱是Risk-averse Value Expansion,是該團隊提出的基于模型的強化學習算法(model-based RL),這個算法在本次奪冠過程中起到了極為關鍵的作用,最終也獲得了賽事的Best Machine Learning Paper榮譽。這次賽事的最為重要的一個挑戰(zhàn)是仿生人需要實時變換速度,reward是取決于仿生人的實時速度與指定速度之間的差值,但是未來的目標速度是無法提前得知的(賽事規(guī)則限制)。這一個問題給強化學習的學習機制帶來了很大的干擾:由于未來的目標速度無法預估,會使得在當前狀態(tài)下,模型錯誤地估計了未來風險,從而采取一些風險偏高的行為而很容易摔倒。針對這一個問題,PARL團隊從對環(huán)境的建模入手,在借鑒了發(fā)表在18年NeurIPS的Ensemble of Probabilistic Models(PE)工作后,他們采用了多個高斯模型對環(huán)境進行建模,同時捕捉建模的誤差以及環(huán)境的隨機性,并通過取多個預估值的置信度下界的方式,來解決值函數(shù)在計算過程中過于“樂觀”的情況。憑借著這個算法,百度參賽團隊最終訓練出了圖4這樣靈活的控制模型,連續(xù)兩年拿下該賽事的冠軍名次。

圖4

  最后參賽團隊表示已經(jīng)把相關訓練代碼開源到PARL倉庫中,方便大家了解強化學習競賽的訓練流程,具體可以參閱如下路徑(https://github.com/PaddlePaddle/PARL/tree/develop/examples/NeurIPS2019-Learn-to-Move-Challenge)。

特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內(nèi)容。本站不承擔此類作品侵權(quán)行為的直接責任及連帶責任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。


Copyright © 2012-2025 sd56.net.cn All Rights Reserved 中國電商物流網(wǎng) 版權(quán)所有
无码久久精品国产亚洲av影片| 欧美色图首页| 欧美日本不卡视频| 福利一区视频在线观看| 91精品久久久久久久| 88国产精品视频一区二区三区| 欧美在线观看视频一区| 亚洲深夜激情| 不卡一区二区在线| 亚洲午夜av在线| 亚洲成人教育av| 国模精品一区二区三区色天香| 国产美女直播视频一区| 亚洲自拍的二区三区| jizz大全欧美jizzcom| 摸摸摸bbb毛毛毛片| 中文字幕在线观看你懂的| 免费国产阿v视频在线观看| 九色视频在线观看| 91福利在线视频| 综合久久伊人| 在线欧美福利| 国产亚洲欧美一级| 欧美日韩免费观看一区三区| 久久精品国产成人| 国产精品麻豆免费版| 国产1区2区在线| 国产探花视频在线播放| 亚洲av综合色区无码一区爱av| 中国xxxx自拍视频| 天堂地址在线www| 97一区二区国产好的精华液| 欧美一区二区| 国产清纯白嫩初高生在线观看91 | av女优在线| 9999在线精品视频| 麻豆91精品| 亚洲人被黑人高潮完整版| 亚洲激情第一页| 亚洲一区二区免费在线| 欧美日韩中文在线视频| 国产一级二级毛片| 国产www网站| 欧美性爽视频| 牛夜精品久久久久久久99黑人| 91视频免费播放| 亚洲国产精品免费| 亚洲jizzjizz日本少妇| 777视频在线| 天堂а√在线中文在线新版 | 国产亚洲小视频| 国产精品冒白浆免费视频| av片在线观看网站| 亚洲理论电影网| 亚洲欧美日韩系列| 久久的精品视频| 国产麻豆电影在线观看| 紧身裙女教师波多野结衣| 国产另类图片| 中文字幕乱码在线播放| 一区二区三区国产在线| 日韩欧美在线视频| 国产成人激情视频| 天天操天天摸天天爽| 中国女人一级一次看片| 探花国产精品| 免费精品国产的网站免费观看| 久久综合色8888| 久久九九有精品国产23| 高清欧美精品xxxxx| 亚洲另类在线观看| 日本a级黄色| 伊人成综合网yiren22| 欧美国产一区二区| 久久久久久久久久国产精品| 男人揉女人奶房视频60分| 亚洲欧美一二三区| 翔田千里在线视频| 图片区亚洲欧美小说区| 红桃视频成人在线观看| 国产精品2018| 欧美久久久久久久久久久| 自拍亚洲国产| 欧美影视资讯| 99久久久久久| 欧美黑人性生活视频| 爱情岛论坛成人| 日韩一级片免费在线观看| 成人影院在线看| 日本视频免费一区| 亚洲精品美女久久久| 亚洲国产高清国产精品| 日韩福利片在线观看| 深夜视频在线免费| 日韩一级在线| 精品国产乱码久久久久久1区2区 | 一区二区三区视频播放| 久久综合九色综合97婷婷女人 | 欧美在线色视频| 国产在线资源一区| 中文字幕一区二区三区手机版| 午夜在线免费视频| 伊人久久亚洲热| 精品对白一区国产伦| 青青草国产精品视频| 国产免费一区二区三区最新不卡| 影音先锋中文在线视频| 成人一二三区视频| 欧美激情视频在线免费观看 欧美视频免费一| 中文日韩在线视频| 中文字幕日本在线| 黄色香蕉视频在线观看| 欧美色综合一区二区三区| 在线播放av网址| 91福利精品视频| 麻豆理论在线观看| 三上悠亚影音先锋| 亚洲精品成人久久电影| 国产精品一区二区中文字幕| 中文字幕在线播放av| 亚洲系列中文字幕| 欧美成人精品三级网站| 亚洲 欧美 变态 另类 综合| 日韩免费观看高清完整版在线观看| 免费电影视频在线看| 欧美色图另类小说| 国产日产亚洲精品系列| 在线看的你懂得| 欧美三级一级片| 成+人+亚洲+综合天堂| 理论在线观看| 三上悠亚在线一区二区| 亚洲精品永久免费精品| 日韩中文字幕亚洲一区二区va在线 | 人人干在线观看| 亚洲第一男人天堂| 国产精品美女久久久| 国产在线激情| 先锋资源一区二区| 水蜜桃av无码| 好看的日韩精品| 日韩精品一区二区三区蜜臀| 欧美亚洲国产激情| 三年片免费观看大全| 大尺度做爰床戏呻吟舒畅| 国色天香2019中文字幕在线观看| 成人av网址在线| 视频精品一区| 好男人社区在线视频| www国产视频| 这里只有精品视频| 日本高清免费电影一区| 一本久中文高清| 日本中文不卡| 亚洲无人区一区| 91精品国产91久久综合| 免费观看成年人视频在线观看| 亚欧美一区二区三区| 日韩免费精品视频| 一本色道久久综合精品竹菊| 欧美天堂亚洲电影院在线观看 | 秋霞在线观看av| 午夜精品三级久久久有码| 国产高清www| 2020久久国产精品| 欧美又粗又大又爽| 美女网站色91| 成人搞黄视频| av在线免费观看网| 欧美性色黄在线视频| 成年人视频软件| 小说区视频区图片区| 欧美精品日韩三级| 在线观看日韩av先锋影音电影院| 激情图片小说一区| 蜜乳av综合| 在线看片福利| 亚州黄色一级| 影音先锋在线中文字幕| 中文字幕av免费在线观看| www.亚洲天堂网| 国产伦精品一区二区三区高清| 亚洲日韩欧美视频| 亚洲精品国久久99热| 国产乱妇无码大片在线观看| 伊人成综合网| 国产伦精品一区二区三区免费优势| 奇米网人体黄视频| 五月天婷婷久久| 国产精品无码永久免费不卡| 日本黄xxxxxxxxx100| 国产富婆一区二区三区| 91产国在线观看动作片喷水| 亚洲欧美在线x视频| 精品视频1区2区3区| 亚洲人成网站精品片在线观看| 久久成人久久爱| 一区二区三区四区五区精品视频| 久久不见久久见国语| 香蕉免费一区二区三区在线观看|