活性化関数、ReLUが必要な理由について解説する
以前、d-hacksの新人向け勉強会を実施した時に以下2つの質問をもらったのですが、その場であまりうまく答えられた自信がなく、改めて調べ直しも兼ねてまとめました。勉強のお役に立てば幸いです。 Q. 活性化関数はなぜ必要なのか? 深層学習におけるニューラルネットワークで活性化関数が重要なのは、複雑な関数を表現できるようにするため。基本的にはReLU関数が最もよく使われており、最近のLLMでは勾配消失を防ぐ目的でGeLU関数が使われている。
以前、d-hacksの新人向け勉強会を実施した時に以下2つの質問をもらったのですが、その場であまりうまく答えられた自信がなく、改めて調べ直しも兼ねてまとめました。勉強のお役に立てば幸いです。 Q. 活性化関数はなぜ必要なのか? 深層学習におけるニューラルネットワークで活性化関数が重要なのは、複雑な関数を表現できるようにするため。基本的にはReLU関数が最もよく使われており、最近のLLMでは勾配消失を防ぐ目的でGeLU関数が使われている。
Google Antigravityが全ての話題をかっさらっていったが、先週にKiroが一般提供されていたので使ってみたら想像以上にすごかった。 せっかくなので、今やってる研究テーマに関連する、1つ思い付いたアイデアを実際に作らせてみた。具体的には、オープンボキャブラリー物体検出モデルのYOLO-World [CVPR’24] が「単語などの短いテキストしか扱えない」という課題に対して、高速性はそのままに、もっと文脈を理解して長めの文章からでも物体を検出できるようになることを目指している。今回は、YOLO-Worldで長文を単語レベルに分割して検出したあと、軽量MLPでリランキングするモジュールを後付けしてみて、文脈精度がどれくらい向上するか?という実装を0からKiroで作ってみた。 やったこと
Working Out Loud (WOL) の考え方が良かったので、学びの発信を心がけるために個人ブログを開設した。 技術的なことは既にZennやQiitaでいくつか発信しているが、もっと気軽に作ったものや学びの進捗を残したり、本を読んだ感想を書いたりするために使う予定です。 以下は記法など