word2vec-model-wiki

使用維基百科提供的中文資料, 先進行繁簡轉換, 再使用jieba分詞, 最後生成詞向量模型

中文維基百科語料

https://dumps.wikimedia.org/zhwiki/latest/

繁簡轉換

使用OpenCC進行轉換
安裝:
pip install opencc-python-reimplemented

轉換後並切好詞的檔案

https://drive.google.com/open?id=19Qrws4tLaQR3rTv6xnN3ytU9U56v7M57

製作模型

使用gensim裡的word2vec
pip install gensim

測試

用most_similar()找到關聯詞
model.wv.most_similar('橄欖油', topn=10)

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
README.md		README.md
wiki_word2vec_model.ipynb		wiki_word2vec_model.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

word2vec-model-wiki

中文維基百科語料

繁簡轉換

轉換後並切好詞的檔案

製作模型

測試

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

word2vec-model-wiki

中文維基百科語料

繁簡轉換

轉換後並切好詞的檔案

製作模型

測試

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages