自監督學習 (self-supervised learning) 是最近開始很熱門的題目,個人認為也是機器學習中充滿潛力的領域。本文會介紹什麼是自監督學習,以及相關的應用。
Multitask Deep Neural Networks for Natural Language Understading 是微軟發在 ACL 2019 的論文:論文連結。
Kaggle 做為世界最大的機器學習競賽平台,上面隨時有比賽正在進行,而比賽通常會有獎金。更重要的是,如果想找一個機器學習或資料科學相關的工作,在 Kaggle 拿到好成績可以讓你的履歷加分不少。
十月底的時候跟朋友自組完成玉山主峰,遇到很多沒有想到的突發狀況,在這邊紀錄一下,不過還好最後還是順利登頂順利下山。
Python line profiler 是一個很方便的套件,讓你很方便看到程式碼逐行執行的時間,用法可以參考拙作關於 Python profiling 的介紹。有一個致命的缺點就是不知道 multiprocess 的 profiling,Github 上也有一個 2016 年留到現在的 issue。我在這裡提供一個 hacky 的作法在 multiprocessing 下使用 line profiler。
一般我們講資產配置,是指資金分配在不同類型的資產上面,不同的資產會有不同的風險跟報酬特性。比如說股票的期望報酬高但風險也高,而政府公債就是一個期望報酬低但相對而言風險也低的資產。除了股市與債市,一般人容易買進的還有黃金、商品期貨、不動產投資信託 (REITs) 等等。在這邊分析各種債券標的的優劣。
今天想要知道發一篇笑話可以在 PTT Joke 版有多少機率鄉民們會覺得好笑,要怎麼做一個合理的模型?做出這個模型有什麼好處呢?可以寫出 PTT 優文賺 P 幣當名人自我感覺良好、讓鄉民的智慧幫你改作文練文筆 (或者可能是網軍的 KPI)。這篇文章會有點長,會從觀察資料到訓練出一個可以使用的模型,不包含 data pipeline 的建立 (例如定期更新資料、重新訓練模型),不會講模型的原理。本文所有程式碼都會放在 Github。
今年年初在富邦開了複委託的帳戶來買美股,這邊紀錄一下過程。
記錄一下 2019 年面試新加坡 QuantumBlack (麥肯錫) data scientist 的經驗。