閱讀時間約 12 分鐘

5684 字

今天想要知道發一篇笑話可以在 PTT Joke 版有多少機率鄉民們會覺得好笑,要怎麼做一個合理的模型?做出這個模型有什麼好處呢?可以寫出 PTT 優文賺 P 幣當名人自我感覺良好、讓鄉民的智慧幫你改作文練文筆 (或者可能是網軍的 KPI)。這篇文章會有點長,會從觀察資料到訓練出一個可以使用的模型,不包含 data pipeline 的建立 (例如定期更新資料、重新訓練模型),不會講模型的原理。本文所有程式碼都會放在 Github

閱讀時間約 3 分鐘

1289 字

這篇文章會介紹怎麼下載維基語料,然後訓練中文跟英文的 word embedding,所有程式碼都會在 Github 上面(連結)。整個下載加上訓練的時間也是很久,所以我也附上了預訓練好的 embedding。預訓練好的連結在這裡:中文 Word2Vec中文 FastText英文 Word2Vec英文 FastText

最新文章

分類

標籤