「検索してはいけない言葉」をGPT-2に自動生成させる

kalax https://blog.hatena.ne.jp/kalax/ 日記 https://everykalax.hateblo.jp/ 機械学習 GPT-2のファインチューニングが簡単にできると聞いたので，試してみる． 1. 実行環境 Google Colab ランタイムにGPU（T4）を使用 2.1 訓練データの収集まず「検索してはいけない言葉アットウィキ」に登録されている全ての言葉をスクレイピングにより取得した（なお，@wikiの利用規約を読み，スクレイピングが禁止されていないことを確認済である）．以下のプログラムでスクレイピングを行い，<s>危険度1[SEP]言葉</s>\nのような形式ですべての言葉をまとめた． from bs4 import BeautifulSoup import requests, time # wik… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Feverykalax.hateblo.jp%2Fentry%2F2023%2F06%2F22%2F122629" title="「検索してはいけない言葉」をGPT-2に自動生成させる - 日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2023-06-22 12:26:29 「検索してはいけない言葉」をGPT-2に自動生成させる rich https://everykalax.hateblo.jp/entry/2023/06/22/122629 1.0 100%