読者です 読者をやめる 読者になる 読者になる

pandazx's blog

Hadoop, データ分析など雑多な技術ブログ

機械学習の正則化項とは

機械学習

機械学習の理論でよく見かけるので意味を調べてみました。

SVMにおける損失と正則化
http://d.hatena.ne.jp/tkng/touch/20090119/1232340992

このブログによると、たいていの機械学習アルゴリズムは最小化するべき目的関数が、「損失関数+正則化項」という形をしている。

損失関数は、あるデータについて分類に失敗した場合に、その失敗具合に応じて与えるペナルティである。

つまり、機械学習は学習データをなるべく正しく分類するために、このペナルティを最小化する問題といえる。

学習する際に過学習という問題があるが、それを緩和させるための仕組みが正則化項を加えている理由。

正則化項は、モデルの複雑さを示す指標でもある。(なるべくモデルをシンプルにしたいので、そのための指標)

ブログから引用すると、損失と正則化項の和を最少化するということは、できるだけ確信度を持って間違いを少なくするという項(損失)と、できるだけシンプルなモデルを採用するという項(正則化項)の和を最小化するということである。