<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>mimi-sansan</author_name>
  <author_url>https://blog.hatena.ne.jp/mimi-sansan/</author_url>
  <blog_title>Sansan株式会社 | 公式メディア「mimi」</blog_title>
  <blog_url>https://jp.corp-sansan.com/mimi/</blog_url>
  <categories>
    <anon>エンジニア職</anon>
    <anon>研究開発職</anon>
    <anon>連載</anon>
  </categories>
  <description>こんにちは。DSOC R&amp;Dグループの高橋寛治です。 形態素解析や系列ラベリングの際の素性抽出などでは、いつも似たようなコードを書きがちです。 今回はその作業を減らすための備忘録として、これらのちょっとした前処理について紹介します。 形態素解析 日本語を対象にした自然言語処理における形態素解析とは、単語分割と品詞付与を指しています。 日本語は単語に分かち書きされていないため、ほとんどのタスクの前段となる非常に重要な処理です。 Pythonで日本語形態素解析を行う際には、MeCabやPure PythonのJanomeがよく使われるかと思います。 私は、MeCabのPython 3バインディング…</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Fjp.corp-sansan.com%2Fmimi%2F2018%2F07%2Ftech11_preprocessing.html&quot; title=&quot;【Techの道も一歩から】第11回「言語処理でのちょっとした前処理」 - Sansan株式会社 | 公式メディア「mimi」&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>https://cdn.blog.st-hatena.com/files/4207112889963979971/4207575160644994926</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2018-07-17 12:00:17</published>
  <title>【Techの道も一歩から】第11回「言語処理でのちょっとした前処理」</title>
  <type>rich</type>
  <url>https://jp.corp-sansan.com/mimi/2018/07/tech11_preprocessing.html</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
