Pythonで日本語の文字分散表現を学習する

Hironsan https://blog.hatena.ne.jp/Hironsan/ Ahogrammer https://hironsan.hatenablog.com/ Python 機械学習自然言語処理最近の自然言語処理では、文字レベルの言語処理が行われることがあります。これら文字レベルの言語処理は、ユーザ生成コンテンツに有効であると言われています。その理由として、ユーザ生成コンテンツのような崩れたテキストでは、形態素解析の性能が大幅に低下し、単語レベルの処理が上手くいかなくなることが挙げられています。文字レベルの言語処理を行うなら、単語レベルの場合と同じく文字分散表現を事前学習したくなります。文字分散表現を事前学習しておくことで、①良い文字ベクトルの初期値を得られる、②学習データに現れない文字のベクトルを教師なしで得られる、といった恩恵を受けられます。本記事では、日本語の文字に対… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fhironsan.hatenablog.com%2Fentry%2Flearning-character-embeddings" title="Pythonで日本語の文字分散表現を学習する - Ahogrammer" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/H/Hironsan/20171108/20171108110523.png Hatena Blog https://hatena.blog 2017-11-08 11:16:46 Pythonで日本語の文字分散表現を学習する rich https://hironsan.hatenablog.com/entry/learning-character-embeddings 1.0 100%