はてなブログを持っていれば、誰でも参加できます。
目次 先日説明したRLHFはその後、人の好みを再現するための学習法の後続手法が開発されています。今回はそんな後続手法であるDPO(Direct Preference Optimization)について説明します。 DPOは、報酬モデルとPPOを使わずに、選好データから直接モデルを最適化する手法です。RLHFの複雑さを避けつつ、人間の好みに沿った出力を得ることを目指します。 概要 1. 直感的なアイ…
■ Lies of P -Overture-【DLC】 ※ ネタバレありです。 ■ 座礁したアルコーン船団 今回は、Chapter.IVの2つ目のスターゲイザーの「座礁したアルコーン船団」からスタートです。 スターゲイザーの傍には、商人?がいるのでまずは話しかけてみます。 今回の商人からは、また変わったアイテムを購入できます。 「巨人のアミュレット」というものが激安で売られていました。 装備すると…
概算で配当額は税引き後11.6万円。ソニーFG、大日本塗料、大興クロステックなどに新規投資、NTT、芙蓉総合リースなどを買い増し。 ホルムズ海峡、トランプなど当事者にはたまったもんではないが、投資家にとってはチャンス。 トランプもあと3年、驕れるもの久しからずや。先週末、長崎・ハウステンボスなどに旅行に行ってきたがこの負担額が3月権利の配当で賄える計算。
nadesi.com ※ この記事が書かれたのはなでしこv3.7.16 時点です なでしこには文字検索や範囲切り取るなど文字を探して何かを返す命令がたくさんあります。 マニュアルには見つかったら何を返すか書いてあるけど、 見つからなかったらどうなるか 書いてなかったりします。 なので試してみました 前知識として、なでしこ3のシステム定数をいくつか紹介します。 javascriptの用語と対応してい…
皆さんこんにちは。2024年の末から、PowerShellについてブログの連載をしていました。 連載は以下からご覧になれます。 hirocom777.hatenadiary.org そして今回、上の連載をもとに内容を見直してまとめた本を書きました。テキストファイル操作から始めて、最終的にはExcelやPython連携まで学べます。 techbookfest.org 技術書典20にて2026年4月1…
こんにちは、TSUYOSHIです。 今日は、うちの子供のNintendo Switchが壊れたときの話を書いてみます。 結論から言うと、「充電ができない」というかなり困る故障で、最終的には任天堂のサポートに問い合わせて修理をお願いしました。送る先は京都。ところが、修理が終わって戻ってきた荷物の配信元を見ると和歌山。最初は「え、どういうこと?」と少し驚きました。 でも、こういうことって実際に自分の身…
「Apache Hive からみた Open Table Format (OTF) (#36)」にゲスト出演させていただきました。OTF TalkはApache IcebergやApache Hudi、Delta LakeのようなOpen Table Formatについてホストの下佐粉さんと対談するPodcastです。今回はApache Hive PMCメンバーとして、HiveそのものやIcebe…
少し整理してみた。 書く意味が薄れたと感じた理由 これまでのブログは「情報をまとめること」に価値があった。 でも今は、その役割はほぼAIが担っている。 網羅性や正確性では、人間が書く理由はかなり弱くなっている。 実際、自分も調べものはまずAIに聞くようになった。 ここで一度、「じゃあブログはいらないのでは」と思った。 それでも残る役割 考えてみると、AIが苦手な部分がある。 それは「自分の前提に依…
前回は、バイブコーディングでAIをルールベースで実装して、SPSAでパラメータチューニングすることで遊びごたえのあるAIを実装した。今回は、マップの自動生成を試す。 マップの自動生成 まず、ChatGPTで、ゲームのマップ自動生成の手法について調査した。 戦略グラフを作る(Graph-based generation) マルコフ近傍生成 制約充足 + バックトラッキング 進化的アルゴリズム Qua…
『欠落 同期シリーズ』読了。 何気ない日常を送っていると、まさかこんな世界があるなどとは想像もしないでしょうが、小説の中で触れてみるのはいいことかもしれません。 欠落 同期 (講談社文庫)作者:今野敏講談社Amazon
次のページ