在 PTT DataScience 版看到有人發文:ROC worse than random。我也在版上回覆了我的回答。不過還是在這邊重新整理一下。
這篇文章會介紹怎麼下載維基語料,然後訓練中文跟英文的 word embedding,所有程式碼都會在 Github 上面(連結)。整個下載加上訓練的時間也是很久,所以我也附上了預訓練好的 embedding。預訓練好的連結在這裡:中文 Word2Vec、中文 FastText、英文 Word2Vec、英文 FastText。
最近買了新電腦,遇到一些奇怪問題卡了很久,架環境弄了很久就紀錄一下吧。