Google Corpus #2

odz https://blog.hatena.ne.jp/odz/ odz buffer https://odz.hatenablog.com/ NLP ref:のほほん徒然 - 聞いてきました：Googleの大規模日本語データ公開に関する特別セッションまとめお疲れ様です。あー、やっぱオリジナルを復元できないことが前提で、単語 n-gram なんかになるのね。とりあえず機械学習方面には使いにくそうだ。自分も使うかどうかといえば微妙なところだなぁ。大規模Webデータといっても，かなり学術的なデータになるようで，言語処理やそこに関わる研究分野としては，今までになかった*1「書き言葉・話し言葉」での大規模なコーパスデータは歓迎できるものではないでしょうか．なくはない。NTCIR-4 WEBとか、CSJとか。なお，コーパスとか著作権，係り受け… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fodz.hatenablog.com%2Fentry%2F20070321%2F1174448509" title="Google Corpus #2 - odz buffer" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2007-03-21 12:41:49 Google Corpus #2 rich https://odz.hatenablog.com/entry/20070321/1174448509 1.0 100%