セミナー等でお世話になっております情報機構さんの書籍「データ分析の進め方及びAI・機械学習導入の指南」に寄稿させていただきました。
https://johokiko.co.jp/publishing/BC200701.php
第2章1節 学習データの収集について 寄稿させていただきました。
7月から販売、早期割引もあるようです。
セミナー等でお世話になっております情報機構さんの書籍「データ分析の進め方及びAI・機械学習導入の指南」に寄稿させていただきました。
https://johokiko.co.jp/publishing/BC200701.php
第2章1節 学習データの収集について 寄稿させていただきました。
7月から販売、早期割引もあるようです。
12月12日、18日ともう5年近くもやらせていただいているインプレスさんとセミナーを実施します。
今回は、インテージさんのご協力もあり、実際のスマホアプリ接触データを利用したケーススタディを実施予定です。申し込み受付中です!
新著が出版されます、タイトルは「よくわかる最新機械学習の基本と仕組み」です。今週末くらいから書店に並ぶそうです。これで自分の著書はデジタル版も入れて11冊目になりました、「よく書くねぇ」、と人に言われますが、音楽とか絵とかがダメな自分にとって書くことは、自分を表現する唯一と言っていい手段なので、これからもニーズがある限り続けていきたいです。
で、今回はこれまでの蓄積もあるしすぐ終わるだろうと最初は高を括っていましたが、結局、今回もこれまでと同様もしくは最大の難産でした。去年の量子コンピュータでは、その過程を旅と表現しましたが、今回の機械学習は険しい山の登攀でした。機械学習の場合、ディープラーニングなど数学的に難しいトピックがあり、それを数学を使わず説明するには自分がハラオチするまで理解する必要があり、そのために原典の論文を読んだり、ソースコードを読んだり(これは長い間大学にいた賜物ですね、今更ながら感謝してます)して難所をクリアし、納得できるレベルまで辿り着きました。
この登攀過程は、本当に脳に汗をかくというくらいの経験で、土日は悩み考えすぎて、夢にも出てくるくらいでした。ただ、こうした悶絶も決して無駄ではなく、とくに今回はディープラーニングについて深く考える機会がありました。自分の結論は、ディープラーニングは、人間ならびに生物の脳をシミュレーション、広い意味で自然現象を利用したいわゆる自然コンピューティングという話と理解しました、ディープラーニングの結果がブラックボックスであることは、自然コンピューティングなので、ある意味当たり前なのかと。これまでの機械学習とディープラーニングのすみわけはできそうな気がしています。こうしたことをいろいろ考えて、難所を乗り越えた結果、ボリュームは前回の量子コンピュータの倍(300ページ)くらいなりました、が、お値段は1800円(税抜)とこの手の本では割とお買い得感があると思います。
最後に登攀といっても、ソロクライマーのように一人で登るわけではなく、多くの方のご協力によるものです。ありがとうございました!この場を借りて深く御礼申し上げます。
次は白紙ですが、何か面白いテーマが見つかったら、チャンレジしたいと思います!
これまでセミナーを開催させていただいております情報機構さんで以下のセミナーを開催します。
Pythonが多いですが、tidyverseに代表されるようにRもやりやすい点はあります。
今こそ「R」実習で学ぶ>統計・データ分析の基礎とノウハウ
週末を利用してインドのプネ―にいってきました。ライフワークとしてやっているデータサイエンス講習で協業できないかとプネ―にあるSymbiosis大学という割と大きな私立大学を訪問してきました。
たしか最後に訪問したのがアナリスト時代のバンガロールだったので、もう10年近くたちます、10年の間にインドも変わりました。バンガロール、名を改めベンガル―ル空港は見違えるほどきれいな建物となり、プネ―でも至る所で新しいビルの建築が進んでます。
でも当時と変わらないのが若さ、企業でも大学でもとにかく若い。若ければいいという話ではないけど、やっぱり、無茶ともいえる発想は若さによると思うのです。そう言ってる自分は年を取ってきてるのかもしれないですねwまあ、これは東南アジア全般に言えると思います。日本はこのパワーを活用したいですね。
ちなみに、3年ほど前フィンテックの本を書いて、そのなかで、インドではこれからPaytmが熱くなるという話を書きました。で、インドでは街のチャイ屋台でもPaytmが使えて、書いた通りになりましたwこういう現地現物でみるのも大事ですね。
インド訪問のもともとの発端は自分の叔父さんで、「インドに行って、今の状況を見てこい」と何度も言われました。えてして、日本は住みやすいので日本にとどまりがちですが、自分の知らないところに積極的にいくこと、これも価値あることだと思いました。
インプレス石橋様よりご献本いただきました。ありがとうございます。
インプレス社のこのシリーズ、自分も以前書かせていただきましたが、骨太な本が多いです。
「AIアルゴリズムマーケティング」も、まさに骨太な一冊で、R・Pythonのソースもなければ、それなりの統計・数理・微分積分の知識も必要なので、ハードルは低くないです。
とはいうものの、正面からマーケティングをアルゴリズム(数式による手続き)で解くことに取り組んでいて、ここまで体系的に触れられている本は自分が知っている限り本書のみだと思います。
ちなみに、このマーケティングのテーマと主要手法は以下です。
1.プロモーションと広告 ー レスポンスモデリング、LTVモデル、リソース配分
2.検索 - レリバンス信号 セマンティック解析
3.レコメンデーション - 協調フィルタリング、ナイーブベイズ
4.価格設定と品ぞろえ - 需要予測、価格の最適化
よくここまで広範なテーマをまとめたなあと思います。簡単に理解できるものではないですが、スルメのように噛めば噛むほど味がでて、現場での導入にも役立つと思います。
7月30日の日経の記事に「社会人が学び直し、政府が支援拡充」という記事があり、よいことと思いました。
自分はもう4年近く前から、主にエンジニア向けに統計・データサイエンス・プログラミングをR・Pythonの実習を含めながら教えています。
そのなかで伝えたいことの一つは数学の面白さです。ピュアに数学をやるわけではないのですが、正規分布の考え方、t分布によるスモールデータ、回帰分析と二乗誤差、ロジスティクス回帰とオッズ、主成分分析の次元削減、サポートベクターマシンとラグランジュ未定乗数法、ベイズ推定の事前分布・事後分布、ディープラーニングの数理(活性化関数、勾配降下法、ボルツマン機械学習など)、なかには理解するのに骨が折れるものもありますが、ちゃんと理解できると新しい世界が広がる、ファインマンさん的にいえば「The Pleasure of finding thing out (ものごとをつきつめるよろこび)」だと思うのです。
で、残念なことに、この手の数学の話、自分の感覚だと半分くらいが中学・高校で「もういいや」となってしまうケースがおおいようです、その主たる原因は数学の先生の説明がつまらない、よくわからない、怖かった、からだと。まあ、これはありますよね。逆に、中高一貫校で魅力的な数学の先生に感化されて数学の道に進むという人もいるので、やはり、中学高校時代の数学との出会いというのはとても大事だと思います。
でも、最近思うのは数学の入り口は、別に中学高校でなくてもよいと思います。社会人になって、Excelからはじめて統計って面白い、それも大事な入り口だと思います。そして、その入り口を積極的に支援する、それが回り回って日本の技術力の裾野を広げるのかもしれません。
で、番宣になってしまいますがw、だいたい月に1~2回程度、この手のセミナーをやらせていただいております。直近で申し込めるものだと、NTTデータ数理様によるR で始める R コマンド不要の機械学習、ちょっとライトな感じですが、雰囲気はつかめるかと思います。
9月に新しい書籍を上梓させていただくことになりました。
3年近く前から、インプレスさんと一緒にデータサイエンス・Rのセミナーを開催させていただきました。
爾来、受講者の方からのフィードバックを重ね、ブラッシュアップし、書籍としてまとめました。
セミナーでニーズが高いところを重点的にカバーしています。
これからはじめてRを学習されたい方、機械学習を導入したい方ぜひご一読ください!
Rではじめる機械学習 データサイズを抑えて軽量な環境で攻略法を探る | |
長橋 賢吾
インプレス 2017-09-08 |
以前、ビックデータ時代だからこそスモールデータの手法の理解も大事というエントリを投稿しました。
で、自分はあまりテレビを見ないのですが、たまたまCNNによる世論調査で1000名を対象に米国時期大統領トランプ氏を支持するかしないかについて、世論調査したところ以前オバマ氏が81%のところ40%で支持率が低いという報道でした。
あらかじめ言うと、自分はこの結果に、とく賛成・反対はありません。むしろ、純粋にデータサイエンス的にこれが有意かどうか純粋に興味があります。
一番、確実なアプローチは、米国民3.189億人に賛成か反対かを問うこと。いわゆる、ビックデータのアプローチ。ただ、これが本当にできるかといえば意外と難しい気がする。11月の大統領選挙でも、多くのメディアがヒラリー氏優先と伝えたものの、蓋を開けたら違う結果になったように、”ビックデータ”で解決できる話でないと思う。
となると、やっぱり、母集団からサンプリングして、そのサンプルから母集団を推定するというアプローチが妥当で、統計の世界では、サンプルの許容誤差という考え方があります。一般的には誤差5%つまり100のうち95が正しくて5が誤ると想定すると、許容誤差のサンプル数は(正規分布の5%信頼水準 1.96)^2 x (支持率 0.5x非支持率 0.5)/(標本誤差 0.05)^2 = 384、つまり、384人にアンケートを取れば、理論上、許容誤差に収まる、なので、1000人は許容誤差の範囲といえるかもしれない。
ただ、この5%の許容誤差を1%にすると、(正規分布の5%信頼水準 2.58)^2 x (支持率 0.5x非支持率 0.5)/(標本誤差 0.01)^2 = 16,641人、384人くらべて43倍のサンプル数が必要になる。
というわけで、ここから何がいえるか?この許容誤差の5%というのは、完全無作為に抽出する前提であれば成立するかもしれない。ただ、ただでさえ、CNNはトランプ氏から”うそのメディア”というレッテルを貼れて、質疑を拒否されたほど対立関係にあるので、もしかしたら、何かしらのバイアスがかかって”完全無作為”とはなっていないかもしれない。
というわけで、この精度をあげるには、1.CNNとは独立な機関によってサンプル抽出する、もしくは、2.許容誤差を5%から下げる、ともう少し尤もらしくなると思うのでした。
2年ほど前からインプレスさんと一緒にデータサイエンス基礎講座をやらせていただいており、来年2月分についても募集がスタートしました。
今回は機械学習のための数学基礎編ということで、わりと、数学(統計学)をメインに扱います。いま、ディープラーニングとか機械が人間を越えるような答えを出す時代になりました。ただ、すべてを機械任せておけばよいとわけでもないと思っています。
やっぱり、何が正しいかを自分で考えて、仮説を立てて、データで検証する。その道具として統計はアリかと思っています。たとえば、確率分布でいえば、正規分布は割とポピュラーですが、カイ二乗分布、あるいはt分布、いわゆる”スモールデータ”を分析する手法ですが、母集団をよりよく知る大事なツールだと思います。
今回はこの手の確率分布の話からディープラーニングの数理までR演習を含めて取り扱います。大学のセメスターの授業を4回で扱うので、シンドイところもありますが、受講者の躓くポイントを2年かけて潰してきました。最後は巣籠さんの講演もあります。興味があればぜひ。