SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む

radiology-nlp https://blog.hatena.ne.jp/radiology-nlp/ radiology-nlp’s blog https://radiology-nlp.hatenablog.com/ 背景 PyTorchでHugging Face Transformersを使って自然言語処理を行うとき，文章をモデルに入力するためにはまず単語単位に分かち書き (tokenize) しなければなりません．この前処理が思ったよりもやっかいなのです．事前学習済みのモデルをTransformers公式から提供されているものから選んでしまえば，ここはあまり問題になりません．Transformers付属のtokenizerを使って一発で分かち書きできるからです．実際，東北大からTransformersを通じて日本語BERT事前学習済みモデルが公開されて久しいので，日本語BERTモデルを使うのはだい… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fradiology-nlp.hatenablog.com%2Fentry%2F2021%2F06%2F08%2F013549" title="SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む - radiology-nlp’s blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2021-06-08 01:35:49 SentencePieceでの日本語分かち書きをTransformersのパイプラインに組み込む rich https://radiology-nlp.hatenablog.com/entry/2021/06/08/013549 1.0 100%