自然語言處理

自監督學習 self-supervised learning 介紹

June 11, 2021

閱讀時間約 3 分鐘

1297 字

自監督學習 (self-supervised learning) 是最近開始很熱門的題目，個人認為也是機器學習中充滿潛力的領域。本文會介紹什麼是自監督學習，以及相關的應用。

論文 - Multitask Deep Neural Networks for Natural Language Understading

June 9, 2021

閱讀時間約 2 分鐘

672 字

Multitask Deep Neural Networks for Natural Language Understading 是微軟發在 ACL 2019 的論文：論文連結。

如何訓練一個合理的文字分類模型

August 16, 2020

閱讀時間約 12 分鐘

5684 字

今天想要知道發一篇笑話可以在 PTT Joke 版有多少機率鄉民們會覺得好笑，要怎麼做一個合理的模型？做出這個模型有什麼好處呢？可以寫出 PTT 優文賺 P 幣當名人自我感覺良好、讓鄉民的智慧幫你改作文練文筆 ~~(或者可能是網軍的 KPI)~~。這篇文章會有點長，會從觀察資料到訓練出一個可以使用的模型，不包含 data pipeline 的建立 (例如定期更新資料、重新訓練模型)，不會講模型的原理。本文所有程式碼都會放在 Github。

用維基語料訓練 Word2vec 和 FastText embedding

February 8, 2019

閱讀時間約 3 分鐘

1289 字

這篇文章會介紹怎麼下載維基語料，然後訓練中文跟英文的 word embedding，所有程式碼都會在 Github 上面(連結)。整個下載加上訓練的時間也是很久，所以我也附上了預訓練好的 embedding。預訓練好的連結在這裡：中文 Word2Vec、中文 FastText、英文 Word2Vec、英文 FastText。

自監督學習 self-supervised learning 介紹

論文 - Multitask Deep Neural Networks for Natural Language Understading

如何訓練一個合理的文字分類模型

用維基語料訓練 Word2vec 和 FastText embedding

最新文章

從資料科學家角度看為何男性不該在交友軟體上無限右滑

五年投資心得與轉變

SQL 中的 Semi Join 與 Anti Join

Flutter 在每個頁面送出 Google Analytics 事件

建立亮眼的初階機器學習工程師履歷

分類

標籤