英日翻訳の混合コーパスとJParaCrawlで機械翻訳の品質を比べてみた

midnightseminar https://blog.hatena.ne.jp/midnightseminar/ StatsBeginner: 初学者の統計学習ノート https://blog.statsbeginner.net/ ※コーパスを「自作」したとは言えないのでタイトルから「自作」を取りました先日、小型Transformerで英→日の機械翻訳をやらせてみた（先日のエントリ）のですが、その際にコーパスは、いくつかの無償配布コーパスを処理して独自に再編成したもの（合計約128万の対訳ペア）を使いました。 TED字幕（元データは15万8535件／私は全部使用）青空文庫等の小説（元データは11万8143件／data augmentationを含めた処理後11万8825件）京都Wiki（元データは44万3849件／処理後21万8038件）映画字幕（元は280万1388件／処理後31万3927件）田中コーパス（元… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fblog.statsbeginner.net%2Fentry%2F2023%2F09%2F03%2F114737" title="英日翻訳の混合コーパスとJParaCrawlで機械翻訳の品質を比べてみた - StatsBeginner: 初学者の統計学習ノート" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2023-09-03 11:47:37 英日翻訳の混合コーパスとJParaCrawlで機械翻訳の品質を比べてみた rich https://blog.statsbeginner.net/entry/2023/09/03/114737 1.0 100%