機械学習・ディープラーニング
-
Bellman方程式と状態価値関数、行動価値関数(Q関数)について
強化学習でよく登場するのが「状態価値関数」$v_\pi(s)$ と「行動価値関数(Q関数)」$q_pi(s,a)$ です。 どちらも「将来の収益(割引した報酬の合計)の期待値」を測るものですが、着目す …
-
RNN(Recurrent Neural Network:再帰型ニューラルネットワーク):時系列データの学習を支える仕組み
RNNとは? RNNは時系列データや文章のように「順序が重要なデータ」を扱うためのニューラルネットワークです。 通常のニューラルネットワーク(全結合層など)は「入力 → 出力」で一度きりの変換をします …
-
GRPO(Group Relative Policy Optimization)の “数式が言いたいこと” を噛み砕いてみる
GRPO(Group Relative Policy Optimization)の整理 登場する記号の整理 記号 意味 直感的なイメージ $q$ 質問(プロンプト) 1 つの入力 $\{o_1,\do …
-
LLMにおける「reasoning」とは? — わかりやすく解説
最近、AIや大規模言語モデル(LLM)について調べていると、「reasoning」という言葉をよく目にするかもしれません。 でも、「reasoningって何?」「普通の文章生成と何が違うの?」と疑問に …
-
【Voice Conversion】So‑VITS‑SVC 4.1 Stable 実行メモ
Voice Conversion(VC,声質変換) は、元の話者が発話した内容を保持したまま、声質だけを別人のものへ変換する技術です。本ガイドでは、高品質な非リアルタイム VC を実現するために、 S …
-
【Voice Conversion】So‑VITS‑SVC 4.1 Stable 実行メモ
Voice Conversion(VC,声質変換) は、元の話者が発話した内容を保持したまま、声質だけを別人のものへ変換する技術です。本ガイドでは、高品質な非リアルタイム VC を実現するために、 S …
-
長期記憶を持つ?言語モデルのアーキテクチャ「Titans」の革新性をわかりやすく解説
Titans: 学習した記憶を推論時に活かす新手法 機械学習モデルは、一度学習した知識をうまく活用できているのでしょうか? 従来の Transformer や RNN/LSTM は、短期的な情報の処理 …
-
scikit-learnにおけるDBSCANの使い方と意味について
DBSCANとは? データ分析や機械学習を行う際、データをグループ化する「クラスタリング」という手法は非常に重要です。その中で「DBSCAN(Density-Based Spatial Cluster …