機器學習 from Q-learning to Reinforcement Learning-00.

Alyssa daily share
2 min readJun 15, 2019

--

機器學習的方式大致上可分成「Supervised learning 監督式學習」「Unsupervised Learning 非監督式學習」「Semi-supervised Learning 半監督式學習」和「Reinforcement Learning強化學習」。

真正講無趣的道理前來聊聊Google團隊AlphaGo. 大家應該都知道,前幾年人工智慧已超越最強圍棋高手!很奇妙對吧~什麼時後電腦已經超越人類在下棋這部分了!難道AlphaGo是藤原佐為本人嗎!事實上AlphaGo是專門來學習黑白棋的AI,也是Google DeepMind其中一項project. 在電腦世界是數學/邏輯/運算/記憶所以學習的方式必須用一種叫演算法的公式,定義是一連串的計算規則或是解決問題導向的一連串運算。下圖就是AlphaGo Zero的學習過程3–70小時就達到人類等級,我們還需要付出1萬小時才能成大師,給不給人活~

Source:https://deepmind.com/blog/alphago-zero-learning-scratch/

在AlphaGo Zero前其實有很多代,團隊試過的方法有: 用上千場業餘跟專業棋手的棋譜訓練,從過去人類的經驗學習,我們幾千年的圍棋對弈歷史全部灌給電腦。這樣的學習可分成策略網絡和價值網絡。把過去經驗給電腦就是教他人類過去學到的策略,就像孫子兵法。價值網絡則是死過千萬回後電腦可以算出下一步棋子放哪的價值比較高。好啦,AlphaGo Zero是用了最最最屌的方式,就是不需要你們人類的智慧,AlphaGo Zero自己跟自己玩,不段突破自己,就自己的經驗不斷學習,還真的讓他變超強!人類別氣餒,不是我們的問題!畢竟電腦的計算速度跟記憶能力是完全超越人類,不斷跟自己下棋的過程讓AlphaGo Zero自己找到最佳辦法也真的是遲早的事情。下圖顯示Zero用大約40天超越前幾代~

Source: https://deepmind.com/blog/alphago-zero-learning-scratch/
wanna guess which one is based on Q-learning????

回歸正題,「Supervised learning 監督式學習」的意思可以很直覺得知道就是在有人類監督底下學習,再仔細一點解讀就是工程師提供一堆有標籤(label)好的資料讓AI去消化然後得到結果,這是透過工程師標籤好的。優點就是結果可以完全由工程師去控制但缺點也是沒有彈性,怎麼說沒有彈性呢? 假如我們只提供這世界上所有哺乳類動物資料也標籤好,訓練好可是我卻讓電腦去分析一隻「蟑螂」….這應該不會有結果因為AI從來沒有學習過「蟑螂」是什麼!他不知道這會讓多少尖叫~~~~~ 不過最生活上的應用就是「垃圾郵件」像Gmail可以讓你標籤從這網址來的是否為垃圾,如果有標籤,那未來這封email就會直接進入垃圾郵件。有沒有很生活化!

Source: https://medium.com/@michaelgraw/putting-supervised-and-unsupervised-learning-to-work-for-your-business-c7bb68f50efa

反過來說「Unsupervised Learning 非監督式學習」可能會讓大家認為那不標籤,AI會怎樣學習啊~ 用下圖來解釋:一樣有一組資料,AI沒有標籤過的資料可以對照所以AI自己去消化然後做出分類….等等,跟監督式學習只差標籤而已!看起來根本沒有差好嗎~太神了吧!

Source: https://medium.com/datadriveninvestor/supervised-and-unsupervised-learning-7281050992a0

好,那很實際的圖形來仔細點呈現。這是用一個叫K-means演算法。

銜接上一段意思就是在圖形上,那些點點都是數據資料,用K-means演算法( Algorithm)來消化,結果分成紅/藍兩群資料。根據資料之間的距離來分群。那生活當中可以怎樣應用呢?感覺無法直接使用啊!okay~例如你在網路上購物時候的推薦其他商品,或多或少都跟你買的東西有些許相關。只要有網購都可以實際感受到~

Source: https://itw01.com/VIAO6EX.html

那「Reinforcement Learning 強化學習」就是AlphaGo Zero的學習方式,在一個固定的環境裡,從下第一步棋開始到結束都在學習跟計算哪一步可得到最好結果,有這想法是從心理學獲得啟發,心理學有個領域是行為主義心理學,著名範例「Pavlov’s Dog」運用搖鈴+餵食訓練,當狗聽到搖鈴就會知道有食物可食,巴夫洛夫就提出了「古典制約作用」意思就是當條件反射一旦確立,其他與最初條件刺激類似的也可能引起反應也稱為「類化」。就像我們說的「一朝被蛇咬,十年怕草繩。」所有像蛇的都會讓你害怕。強化學習的最最基本基礎就是以制約刺激為底,以獎勵來鼓勵正向行為,懲罰的刺激來減少負面行為。讀到這裡大家大概可以理解強化學習跟監督/非監督式學習不太相同的地方了。

Source: https://www.dogalize.com/2018/04/pavlov-dog-classical-conditioning/

RL說穿了就是要機器人仿照人類學習的途徑自己學習(所以記憶體跟運算能力就是外掛)「Environment環境 」和「Agent機器人」互動,會得到「State狀態」及可以採取的「Action行動」,最後「Environment環境 」會根據定義好的反應給機器人「Reward獎勵」,那獎勵有分正/負分數,讓機器人可以調整自己的演算法。

演算法公式在下一章節告訴你!

--

--

Alyssa daily share
Alyssa daily share

Written by Alyssa daily share

On my way to be a writer, Get ready to read my daily share. Subscribe me, leave your thoughts to me, don’t be shy. https://dribbble.com/alyssandesigner

No responses yet