日本のWikipediaのデータを使ったWord2vecでの類似語表示とngramで文生成 (1)

looseleaf0727 https://blog.hatena.ne.jp/looseleaf0727/ 深層学習とその他 https://looseleaf0727.hatenablog.jp/ Python まともに使ったことがなかったWord2vecを使っていきます。データを手に入れるまず、Wikipediaのデータはここから拾ってきます。 Wikipedia:データベースダウンロード - Wikipedia 基本は最新の全ページを拾ってくればいいと思います。英語を使いたい人は少し前処理を変える必要がありますが、普通にいけると思います。 wgetで拾います。容量が大きいので要注意。 wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 前処理データが大きいので分割して処理しま… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Flooseleaf0727.hatenablog.jp%2Fentry%2F2018%2F04%2F24%2F121059" title="日本のWikipediaのデータを使ったWord2vecでの類似語表示とngramで文生成 (1) - 深層学習とその他" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2018-04-24 12:10:59 日本のWikipediaのデータを使ったWord2vecでの類似語表示とngramで文生成 (1) rich https://looseleaf0727.hatenablog.jp/entry/2018/04/24/121059 1.0 100%