機械学習を勉強する(元)社会人の日記

機械学習の勉強をしています。多分。数学も趣味レベルで勉強しています。

近況報告

■最近

合格発表からおよそ一か月経ちました。今は「はじめてのパターン認識」を読み進めています。

はじめてのパターン認識

はじめてのパターン認識

これを読み終わったら「データ解析のための統計モデリング入門: 一般化線形モデル・階層ベイズモデル・MCMC」を読もうかと思っています。

■気になる部分

はじパタですが、読み進めているうちに「???」となってしまう部分が多々あり、詰まってしまうときがあります。 例えばP13で、

(1)ホールドアウト法
 手元のデータを二つに分割し, 一方を学習に使い($\mathit{p}_{\mathit{L}}$で表す), もう一方はテストのために取り置いておき($\mathit{p}_{\mathit{T}}$で表す), 誤り率を推定するために使用する. これをホールドアウト誤り率(holdout error)といい, $\varepsilon(\mathit{p}_{\mathit{L}},\mathit{p}_{\mathit{T}})$で表す.
 真の誤り率と再代入誤り率, ホールドアウト誤り率の間には,

\begin{equation} \mathit{E}_{{\mathcal{D}}_{\mathit{L}}}\{\varepsilon(\mathit{p}_{\mathit{L}},\mathit{p}_{\mathit{L}})\} \leq \varepsilon(\mathit{p},\mathit{p}) \leq \mathit{E}_{{\mathcal{D}}_{\mathit{T}}}\{\varepsilon(\mathit{p}_{\mathit{L}},\mathit{p}_{\mathit{T}})\} \end{equation}

の関係が成り立つことが知られている.ここで, $\mathit{E}_{{\mathcal{D}}_{\mathit{L}}}\{\}$は多くの学習データセット$\mathcal{D}_{\mathit{L}}$を用いて設計し, 同じデータで誤りを測定した再代入誤り率の期待値を表す.また, $\mathit{E}_{{\mathcal{D}}_{\mathit{T}}}\{\}$は一つの学習データセット$\mathit{p}_{\mathit{L}}$を用いて設計した識別器を, 多くのテストデータセット$\mathcal{D}_{\mathit{T}}$でテストしたときの誤り率の期待値を表す.

…というように書いてあるのですが、単純に「なんで?」と思いました。

■参考文献を確認

 上記の点に関して幸いにも、福永 圭之介先生のIntroduction to Statistical Pattern Recognitionが参考文献としてあげられていたので、そちらを確認してみることにしました。P219よりこの話は始まります。

5.3 Holdout, Leave-One-Out, and Resubstitution Methods
Bounds of the Bayes Error

 When a finite number of samples is given and the performance of a specified classifier is to be estimated, we need to decide which samples are used for designing the classifier and which samples are for testing the classifier.

 Upper and lower bounds of the Bayes error: In general, the classification error is a function of two sets of data, the design and test sets, and may be expressed by

\begin{equation} \varepsilon(\mathscr{P}_{\mathit{D}},\mathscr{P}_{\mathit{T}}) \tag{5.109} \end{equation}

where, $\mathscr{P}$ is a set of two densities as

\begin{equation} \mathscr{P}=\{\mathit{p}_{1}(\mathit{X}), \mathit{p}_{2}(\mathit{X})\} \tag{5.110} \end{equation}

If the classifier is the Bayes for the given test distributions, the resulting error is minimum. Therefore, we have the following inequality

\begin{equation} \varepsilon(\mathscr{P}_{\mathit{T}},\mathscr{P}_{\mathit{T}}) \leq \varepsilon(\mathscr{P}_{\mathit{D}},\mathscr{P}_{\mathit{T}}) \tag{5.111} \end{equation}

The Bayes error for the true $\mathscr{P}$ is $\varepsilon(\mathscr{P},\mathscr{P})$. However, we never know the true $\mathscr{P}$. One way to overcome this difficulty is to find upper and lower bounds of $\varepsilon(\mathscr{P},\mathscr{P})$ based on its estimate $\hat{\mathscr{P}}=\{\hat{\mathit{p}}_{1}(\mathit{X}), \hat{\mathit{p}}_{2}(\mathit{X})\}$. In order to accomplish this, let us introduce from (5.111) two inequalities as

\begin{align} \varepsilon(\mathscr{P},\mathscr{P}) \leq {\varepsilon}(\hat{\mathscr{P}},\mathscr{P}) \tag{5.112} \\
\varepsilon(\hat{\mathscr{P}},\hat{\mathscr{P}}) \leq \varepsilon(\mathscr{P},\hat{\mathscr{P}}) \tag{5.113} \end{align}

Equation (5.112) indicates that $\mathscr{P}$ is the better design set than $\hat{\mathscr{P}}$ for testing $\mathscr{P}$. Likewise, $\hat{\mathscr{P}}$ is the better design set than $\mathscr{P}$ for testing $\hat{\mathscr{P}}$. Also, it is known from (5.48)*1 that, if an error counting procedure is adopted, the error estimate is unbiased with respect to test samples. Therefore, the right-hand side of (5.112) can be modified to

\begin{align} \varepsilon(\hat{\mathscr{P}},\mathscr{P}) = \mathit{E}_{\mathscr{P}_{\mathit{T}}}\{\varepsilon(\hat{\mathscr{P}},\hat{\mathscr{P}}_{\mathit{T}})\} \tag{5.114} \end{align}

where $\mathscr{P}_{\mathit{T}}$ is another set generated from $\mathscr{P}$ independently of $\hat{\mathscr{P}}$. Also, after taking the expectation of (5.113), the right-hand side may be replaced by

\begin{align} \mathit{E}\{\varepsilon(\mathscr{P},\hat{\mathscr{P}})\} = \varepsilon(\mathscr{P},\mathscr{P}) \tag{5.115} \end{align} Thus, combining (5.112)-(5.115),

\begin{align} \mathit{E}\{\varepsilon(\hat{\mathscr{P}},\hat{\mathscr{P}})\} \leq \varepsilon(\mathscr{P},\mathscr{P}) \leq \mathit{E}_{\mathscr{P}_{\mathit{T}}}\{\varepsilon(\hat{\mathscr{P}},\hat{\mathscr{P}}_{\mathit{T}})\} \tag{5.116} \end{align} That is, the Bayes error, $\varepsilon(\mathscr{P},\mathscr{P})$, is bounded by two sample-based estimates [12]*2.

ここまで書いておいてなんですが、のっけから「a specified classifier is to be estimated...」と書いてあって特定の分類器に指定した場合かよ!!となりました。
でも、とりあえずこれは一般的に成り立つものではないんだな~と納得できたので良かったです。
数学科が機械学習の勉強で詰まる所以はこういったところにあるのかなあ、とおそらく非常に低レベルな部分で詰まった自分をさておき思いました。

しばらくはこんな感じで自分がやったことの確認?メモ?雑記といった感じで更新していきたいと思っています。

では。

*1:\begin{align}\mathit{E}_t\{\hat{\varepsilon}\}&=\frac{1}{2}+\mathit{P}_{1}\bar{\alpha}_{1}-\mathit{P}_{2}\bar{\alpha}_{2} \\ &=\frac{1}{2}+\mathit{P}_{1}(\varepsilon_{1}-\frac{1}{2})+\mathit{P}_{2}(\frac{1}{2}-\varepsilon_{2})=\varepsilon\end{align}

*2:K. Fukunaga and T. E. Flick, A test of Gaussian-ness of a data set using clustering, IEEE Trans. Pattern Anal. and Machine Intell., PAMI-8, pp.240-247, 1986.

行き先、決まりました。

長らく放置してしまい申し訳ありませんでした。
院試の勉強やら院試やらで忙しかったといえばそうなのですが、タイムマネジメントをしっかりしていればこのようなことにはならなかったので…。
今日からまたスローペースではありますが、ぼちぼち更新していこうかと思います。 

行き先

本日、筑波大学大学院 システム情報工学研究科 コンピュータサイエンス専攻 博士前期課程に進学することが決定いたしました。(まだ合格証書は来ていない*1何かの手違いだったらどうしよう
結局、純粋数学ではない方向に進む形と相成りましたが、趣味の範疇で数学の勉強は続けていくつもりです。数学専攻の授業に潜ることとかできないかなあなどと考えてはいますが、まずは自分が進む道の勉強をしっかりせねばとも思う次第です。

やりたいこと

前の記事でもちょこっと触れていますが機械学習に関する研究をしたいと考えています。具体的にはこれから入学まで勉強をして決めようと思っていますが、朧気ながらに考えていることは「機械学習の構造に対する数理的(例えば幾何的)な側面の適用」に関する研究をしたいなぁ…という感じです。所詮初学者である私が考えることですので、「それは既出のアイデアだぞ」と突っ込まれること間違いなしですが…。

これから

実は私、プログラミングに関しても初心者も良いところの「お前ほんと何しに行くんだお前お前」というレベルの人間ですので、これからやらなければいけないことがたくさんあります。

◆やらなければならないこと
機械学習入門レベルの知識の充填(入門レベルがどこまでかわかっていない)
・プログラミングの勉強(Matlab、R、Python等?)
・英語(研究室の4割は外国人なので、英語を喋れないと死ぬ気がする)
・Grassmann多様体の勉強

◇やりたいこと
・Bayse統計の理論の勉強
・Lebesgue積分の復習
・統計的学習理論の勉強
・Symplectic幾何学入門の勉強
・確率微分方程式の勉強

やりたいことは完全に趣味混じりでもありますが、なんとかやらなければならないことは入学までには済ませておきたいところです。学群からのぼってくる人たちとは知識量の差が多分にあると思われますので、なんとしてでも追い付いておきたいところ…。

というか、プログラミングできなかったら単位も取れないのでは?

*1:9月14日に届きました。

Laplace方程式について

またHatena Blogさんからお叱りのメールが届きましたので更新します。
今回はタイトルの通りです。
平面を境界とした半空間における3次元Laplace方程式を解くという問題の中で、極座標を用いた変換を行うわけなんですがこれが面倒くさいったらありゃしない
なら結果を覚えておけばいいじゃないかという話ですがそれも面倒くさい
とりあえず、普通に変換を行った時の計算を以下に掲載します。

Laplace方程式の極座標変換(円柱座標)

円柱座標におけるLaplacianを考えるにあたり, 極座標変換を行います.

\begin{align*} (x,y,z)=(r\cos\theta,r\sin\theta,z) \end{align*}

とおきます. 連鎖律を考えれば,
\begin{align*} \frac{\partial f}{\partial x}=\frac{\partial f}{\partial r}\frac{\partial r}{\partial x}+\frac{\partial f}{\partial \theta}\frac{\partial \theta}{\partial x} \end{align*}

といった形にすることができます. ここで, $r^{2}=x^{2}+y^{2}$ であることを考えれば,

\begin{align*} \frac{\partial r}{\partial x}=\frac{x}{\sqrt{x^{2}+y^{2}}}=\frac{r\cos\theta}{r}=\cos\theta \end{align*}

となります. また, $\displaystyle\frac{y}{x}=\frac{r\sin\theta}{r\cos\theta}=\tan\theta$ なので, $\displaystyle\theta=\tan^{-1}\frac{y}{x}$ とできます. 即ち, \begin{align*} \frac{\partial \theta}{\partial x}=\frac{1}{1+{\left( \frac{y}{x} \right)}^2}\frac{ \mathrm{d} }{ \mathrm{d}x }\left(\frac{y}{x}\right)=-\frac{y}{x^{2}+y^{2}}=-\frac{\sin\theta}{r} \end{align*} が得られます. 同様の方法で$\displaystyle\frac{\partial f}{\partial y}$も求めることができます. (ここでは短縮します.) \begin{align*} \frac{\partial f}{\partial x}=\cos\theta\frac{\partial f}{\partial r}-\frac{\sin\theta}{r}\frac{\partial f}{\partial \theta}\newline \frac{\partial f}{\partial y}=\sin\theta\frac{\partial f}{\partial r}+\frac{\cos\theta}{r}\frac{\partial f}{\partial \theta} \end{align*}

あとはこの2式をもう一度微分してあげます. \begin{align} \frac{\partial^{2} f}{\partial x^{2}} &=\frac{\partial}{\partial x}\left(\frac{\partial f}{\partial x}\right)=\frac{\partial}{\partial x}\left(\cos\theta\frac{\partial f}{\partial r}-\frac{\sin\theta}{r}\frac{\partial f}{\partial \theta}\right) \\ &=\left(\frac{\partial}{\partial x}\cos\theta\right)\frac{\partial f}{\partial r}+\cos\theta\left(\frac{\partial}{\partial x}\frac{\partial f}{\partial r}\right)-\left(\frac{\partial}{\partial x}\frac{\sin\theta}{r}\right)\frac{\partial f}{\partial \theta}-\frac{\sin\theta}{r}\left(\frac{\partial}{\partial x}\frac{\partial f}{\partial \theta}\right) \\ &=\left(\frac{\partial}{\partial x}\frac{x}{\sqrt{x^{2}+y^{2}}}\right)\frac{\partial f}{\partial r}+\cos\theta\frac{\partial^{2} f}{\partial r^{2}}\frac{\partial r}{\partial x}-\left(\frac{\partial}{\partial x}\frac{y}{{x^{2}+y^{2}}}\right)\frac{\partial f}{\partial \theta}-\frac{\sin\theta}{r}\frac{\partial^{2} f}{\partial \theta^{2}}\frac{\partial \theta}{\partial x} \\ &=\frac{\sin^{2}\theta}{r}\frac{\partial f}{\partial r}+\cos^{2}\theta\frac{\partial^{2} f}{\partial r^{2}}+\frac{2\sin\cos\theta}{r}\frac{\partial f}{\partial \theta}+\frac{\sin^{2}\theta}{r^{2}}\frac{\partial^{2} f}{\partial \theta^{2}} \\ \frac{\partial^{2} f}{\partial y^{2}} &=\frac{\partial}{\partial y}\left(\frac{\partial f}{\partial y}\right)=\frac{\partial}{\partial y}\left(\sin\theta\frac{\partial f}{\partial r}+\frac{\cos\theta}{r}\frac{\partial f}{\partial \theta}\right) \\ &=\left(\frac{\partial}{\partial y}\sin\theta\right)\frac{\partial f}{\partial r}+\sin\theta\left(\frac{\partial}{\partial y}\frac{\partial f}{\partial r}\right)+\left(\frac{\partial}{\partial y}\frac{\cos\theta}{r}\right)\frac{\partial f}{\partial \theta}+\frac{\cos\theta}{r}\left(\frac{\partial}{\partial x}\frac{\partial f}{\partial \theta}\right) \\ &=\left(\frac{\partial}{\partial y}\frac{y}{\sqrt{x^{2}+y^{2}}}\right)\frac{\partial f}{\partial r}+\sin\theta\frac{\partial^{2} f}{\partial r^{2}}\frac{\partial r}{\partial y}+\left(\frac{\partial}{\partial y}\frac{x}{{x^{2}+y^{2}}}\right)\frac{\partial f}{\partial \theta}+\frac{\cos\theta}{r}\frac{\partial^{2} f}{\partial \theta^{2}}\frac{\partial \theta}{\partial y} \\ &=\frac{\cos^{2}\theta}{r}\frac{\partial f}{\partial r}+\sin^{2}\theta\frac{\partial^{2} f}{\partial r^{2}}-\frac{2\sin\cos\theta}{r}\frac{\partial f}{\partial \theta}+\frac{\cos^{2}\theta}{r^{2}}\frac{\partial^{2} f}{\partial \theta^{2}} \\ \therefore \nabla^{2}&=\frac{\partial^{2} f}{\partial x^{2}}+\frac{\partial^{2} f}{\partial y^{2}}+\frac{\partial^{2} f}{\partial z^{2}}=\frac{\partial^{2} f}{\partial r^{2}}+\frac{1}{r}\frac{\partial f}{\partial r}+\frac{1}{r^{2}}\frac{\partial^{2} f}{\partial \theta^{2}}+\frac{\partial^{2} f}{\partial z^{2}} \end{align}

ひたすら計算するか覚えるかしかないのか?

何か短縮方法はないかと彷徨っているとPauling and Wilson, “Introduction to Quantum Mechanics”(McGRAW-HILL KOGAKUSHA, LTD.)という量子力学の入門書が。 この本によると、 \begin{align*} x=f(u, v, w),\,y=g(u, v, w),\,z=h(u, v, w) \end{align*} などと置いたとき, \begin{align*} \nabla^{2}&=\frac{1}{q_u q_v q_w}\left\{\frac{\partial}{\partial u}\left(\frac{q_v q_w}{q_u}\frac{\partial}{\partial u}\right)+\frac{\partial}{\partial v}\left(\frac{q_u q_w}{q_v}\frac{\partial}{\partial v}\right)+\frac{\partial}{\partial w}\left(\frac{q_u q_v}{q_w}\frac{\partial}{\partial w}\right)\right\} \\ {p_i}^2&=\left(\frac{\partial x}{\partial i}\right)^{2}+\left(\frac{\partial y}{\partial i}\right)^{2}+\left(\frac{\partial z}{\partial i}\right)^{2}\quad(i=u, v, w) \end{align*} という風に導出できるとのこと。ここで $u, v, w$ は任意の直交座標であり、上記の公式は $u, v, w$ が直交座標の時に成り立つとのことです。 今回の円柱座標はもちろんのこと、デカルト座標、球面座標も該当しますね。 それでは少し計算してみましょう。 \begin{align*} x=r\cos\theta,\,y=r\sin\theta,\,z=z \end{align*} なので, この場合 $u=r,\,v=\theta,\,w=z$ となります. よって, \begin{align*} {p_r}^{2}&=(\cos\theta)^{2}+(\sin\theta)^{2}+0=1\\ {p_\theta}^{2}&=(-r\sin\theta)^{2}+(r\cos\theta)^{2}+0=r^{2}\\ {p_z}^{2}&=0+0+1=1 \end{align*} となります. 即ち, \begin{align*} \nabla^{2}&=\frac{1}{r}\left\{\frac{\partial}{\partial r}\left(\frac{r}{1}\frac{\partial f}{\partial r}\right)+\frac{\partial}{\partial \theta}\left(\frac{1}{r}\frac{\partial f}{\partial \theta}\right)+\frac{\partial}{\partial z}\left(\frac{r}{1}\frac{\partial f}{\partial z}\right)\right\} \\ &=\frac{\partial^{2} f}{\partial r^{2}}+\frac{1}{r}\frac{\partial f}{\partial r}+\frac{1}{r^{2}}\frac{\partial^{2} f}{\partial \theta^{2}}+\frac{\partial^{2} f}{\partial z^{2}} \end{align*} とまぁこのような感じにあっさりと出せました。公式も対称性があって覚えやすそうですし、こちらを使えるのであれば使っていきたいですね。 球面座標の場合も同じくあっさり計算できるので、あとでやってみよう。

大学院

今月、大学院説明会に行ってきます。そろそろ研究室訪問もしなければ…。
迷走しすぎてタイトルも説明もヘタレになってます。

自分は何の研究がしたいのか。

タイトルの通りですが、最近悩んでおります。
悩む前に院試に受かるだけの実力をつけろという話ですが…

 情報幾何?シンプレクティック?

私自身、数学をやりたいがために入った会社を高々一年で退社し、これから大学院を受験しようというのに「自分がこれから何をしていきたいのか」というのが今更になってブレてしまっています。
初めは「シンプレクティック幾何学のような数学と物理の幅広い分野に影響を与える研究をしたい」という考えを持っておりました。しかし、今になって情報幾何学というのも面白そうではないか、と思ってしまったのです。

ある分野を違う分野に持ち込むことで、その分野とはまた違った手法で取り組むことができるようになる、というのは往々にしてあることだと思います。ただ、私恥ずかしながら情報幾何というジャンルを聞いたのは社会人になってからで詳しいことはあまり存じ上げていませんでした。

何はともあれまずは院試に受からないことには研究もできないのですが、何分情報幾何は扱っている大学が関東圏に絞ってしまうと(私の調査不足だとは思いますが)少ないため、本当に今後どうすべきかを今決めておかないとうだうだと引っ張ってしまう気がします。

 勉強方法について

今更すぎる話ではありますが、自分の勉強方法であっているのか、これでしっかり試験当日までに完成させられるのかという不安もあります。
学部時代も大して頭がよかったわけでもなく、基礎から今一度叩き込まなければならない状況下であり、時間も残すところ4か月程度なのでちんたらとやっている余裕はありません。
また、「この問題はこういう理解の仕方で大丈夫だ」といえる自信がない問題も多くあり、そういったときに誰を頼るにもそういった人がいないため、なかなか厳しい状況です。

 何はともあれ

今は愚直に問題を解いて知識を増やしていくべきだとは考えています。そのうち大学院の説明会もあるでしょうし、そういったものにも足を運びつつ、探していかなければと思っています。まず院試に落ちたら見つかっても意味ないですからね。

また1か月

お久しぶりです。

はてなブログから「そろそろ次の記事更新しません?」といった内容のメールが来て、「確かに」と思い更新しております。

 

さて、この一か月の間ですが、大阪から実家に引越しをしたりですとか、仕事の引継ぎを行ったりとてんやわんやでした。

要するに仕事を辞めました。その理由は、やはり数学の勉強をしっかりしてみたい、という考えに至ったからです。

学部のころから大学院に憧れはあったものの、「自分じゃ大学院にいったところでな~」という安直な思いからよく考えずに就職という道を選択しました。

この時にしっかり考えていればあるいは1年早くしっかり勉強することができていたのに、と思うところではありましたが、もう過ぎてしまったことと割り切って前に進むことにしました。

 

この1年間会社勤めをすることで良いこと悪いこと様々ありましたが、一度就職という道を選択したことに関して後悔はしておりません。(長時間の残業は常態化しておりましたが)職場の環境も良く、たった1年間勤めての退職という選択をしたにもかかわらず最後はしっかり「頑張れ」と背中を押していただけました。

また、同期には大学の研究室の先輩方を紹介していただくなど、次に進むための情報提供をしてくれたことに本当に感謝してもし足りないくらいです。

 

今後は2018年度8月の大学院入試に向けて勉強をしていきます。

わからないことだらけで苦戦しておりますが、なんとかしてまずは院試にしっかり合格するための素地を整えたいと思います。

 

では。

 

(毎回思いますが、文章を書くのが下手すぎますね。)

やってしまった

一週間どころではなく一か月放置してしまうところでした。

ここ最近どうも色々あって忙しく、更新できずにいました。(言い訳)

 

また本を買ってしまいました。

 

 

植田一石先生のシンプレクティック幾何学入門です。

Amazonで買うよりサイエンス社で直接注文したほうが安く済みます。)

大して読み進められていないので感想も何もあったものではないですが、個人的には読んでいてワクワクします。まず前提知識がボロボロですが。

 

兎にも角にも、私は本を買う前に一冊一冊を大事に読み進める必要があると思うのですが…。

 

深谷先生のシンプレクティック幾何学は売り切れか、売っていたとしてもまぁまぁ高い値段となってしまっているので、読むことができていません。

 

シンプレクティック幾何学

シンプレクティック幾何学

 

 

公式に?再販してくれないかと待っている状況です。

 

どうでもいいですが、アホみたいな決断をしたのでそのうち報告したいと思います。

 

では。

 

気付けば

気付けば一週間以上放置してしまっていました。

 

今日は研修があり、東京に戻ってきています。大阪の良い点の一つは満員電車がないことですね。東京は朝から凄まじい混み具合です。

 

あと、どうせなら金曜日か月曜日に研修をやってくれれば、と思いました。土日に交通費を掛けずに実家に戻れますしね。

 

あと、数学書を買いました。

Differential Geometry of Curves and Surfaces: Revised and Updated Second Edition (Dover Books on Mathematics)

Differential Geometry of Curves and Surfaces: Revised and Updated Second Edition (Dover Books on Mathematics)

 

 

学生の頃はあまり洋書は読まず、卒論の要点要点に使った程度でしたが、ペーパーバックだとお値段も(他の洋書よりは)リーズナブルで、一度学習している分野ではあるし読み易いだろうと買ってみました。

 

まだあまり読み進めることはできていませんが、最初は平易な内容です。あくまで感覚ではありますが、すごく丁寧に解説してくれている印象があります。

 

またある程度読み進められたら感想を報告したいと思います。

 

では。