複数のファイルから同じ行を消す

y-kamiya https://blog.hatena.ne.jp/y-kamiya/ MEMOcho- https://jsapachehtml.hatenablog.com/ 機械翻訳用のデータは言語毎にファイルは別になっていて、文同士の対応は行番号が同じことによって保たれている例えばこんな感じ # ja.txt こんにちは私はテニスが好きです私はペンを持っています # en.txt hello I like tennis I have a pen これをtoken化してモデルへの入力として使うのだが、あまりにもtoken数の多い文があるとメモリに乗り切らなくなったり処理の効率が落ちたりする。それを避けるために一定数以上のtokenを持つ行はそれぞれのファイルから削除したい。 token化した後のデータは各言語とも以下のような数字がスペース区切りで書いてある… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fjsapachehtml.hatenablog.com%2Fentry%2F2020%2F04%2F29%2F140318" title="複数のファイルから同じ行を消す - MEMOcho-" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2020-04-29 14:03:18 複数のファイルから同じ行を消す rich https://jsapachehtml.hatenablog.com/entry/2020/04/29/140318 1.0 100%