ウェブコーパス概ね完成

s-yata https://blog.hatena.ne.jp/s-yata/ やた＠はてな日記 https://s-yata.hatenadiary.org/ ウェブページを収集する段階が終わり，ダウンロードに失敗した URL や内容の重複している URL が少し含まれているものの，ユニーク URL 数はわずかに 1 億件を上回りました．URL，HTTP レスポンスヘッダ，HTML 文書の合計サイズは，未圧縮の状態で 3.2TiB 弱，圧縮した状態で約 200GiB 弱です．そして，このウェブコーパスから内容の重複を排除し，ステータスコードが 200 以外だった URL を排除した後，文字コードを UTF-8 に統一し，テキストを切り出して，さらに N-gram 抽出用の前処理を施したところ，未圧縮の状態で 390GiB 弱，圧縮した状態で 70Gi… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fs-yata.hatenadiary.org%2Fentry%2F20100907%2F1283862541" title="ウェブコーパス概ね完成 - やた＠はてな日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2010-09-07 21:29:01 ウェブコーパス概ね完成 rich https://s-yata.hatenadiary.org/entry/20100907/1283862541 1.0 100%