【Techの道も一歩から】第11回「言語処理でのちょっとした前処理」

mimi-sansan https://blog.hatena.ne.jp/mimi-sansan/ Sansan株式会社 | 公式メディア「mimi」 https://jp.corp-sansan.com/mimi/ エンジニア職研究開発職連載こんにちは。DSOC R&Dグループの高橋寛治です。形態素解析や系列ラベリングの際の素性抽出などでは、いつも似たようなコードを書きがちです。今回はその作業を減らすための備忘録として、これらのちょっとした前処理について紹介します。形態素解析日本語を対象にした自然言語処理における形態素解析とは、単語分割と品詞付与を指しています。日本語は単語に分かち書きされていないため、ほとんどのタスクの前段となる非常に重要な処理です。 Pythonで日本語形態素解析を行う際には、MeCabやPure PythonのJanomeがよく使われるかと思います。私は、MeCabのPython 3バインディング… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fjp.corp-sansan.com%2Fmimi%2F2018%2F07%2Ftech11_preprocessing.html" title="【Techの道も一歩から】第11回「言語処理でのちょっとした前処理」 - Sansan株式会社 | 公式メディア「mimi」" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn.blog.st-hatena.com/files/4207112889963979971/4207575160644994926 Hatena Blog https://hatena.blog 2018-07-17 12:00:17 【Techの道も一歩から】第11回「言語処理でのちょっとした前処理」 rich https://jp.corp-sansan.com/mimi/2018/07/tech11_preprocessing.html 1.0 100%