なんか凄そうな日英対訳コーパスを発見

midnightseminar https://blog.hatena.ne.jp/midnightseminar/ StatsBeginner: 初学者の統計学習ノート https://blog.statsbeginner.net/ LASER/tasks/WikiMatrix at main · facebookresearch/LASER · GitHub Wikipediaから作られた多言語の対訳データで、英語と日本語の組み合わせをみると85万1000件ある。これは中身も少し整理してみたが、結構品質は高い。明らかに変なデータも混じっていたり、日本語と英語が対応していないものもあったりするが、全体としては綺麗だと思う。公式のGitHubによると、両言語の意味の一致度を機械的に判定したスコアがついてて、多くの言語において1.04ぐらいがバランスがいい（一致度とサンプルの多様性を考慮して）と書いてあった。私は、1.45… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fblog.statsbeginner.net%2Fentry%2F2023%2F09%2F10%2F164323" title="なんか凄そうな日英対訳コーパスを発見 - StatsBeginner: 初学者の統計学習ノート" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2023-09-10 16:43:23 なんか凄そうな日英対訳コーパスを発見 rich https://blog.statsbeginner.net/entry/2023/09/10/164323 1.0 100%