機械学習について軽く学んだので雑に書く

機械学習に触れる機会があったのでメモ。雑に書いているから読みにくいのは仕方ない

データの整理や賢いしきい値設定に関してはなんとなく想像ができていて、

画像の生成ってピンとこなかったけど、行列で生成みたいな感じなのね。

 

学んだことメモ

  • 「強いAI」と「弱いAI」があること
  • 損失関数や活性化関数など数学的なニュアンスが強い
    • シグモイド関数など既存の関数を適用するわけだけど、そこはブラックボックス的に使うケースもそこそこある
  • ディープラーニングにおいてはパーセプトロンが大体は最小単位
  • パーセプトロンを組み合わせた上で活性化関数などを用いて、インテリジェンスな判断を行う
  • weight という重み付けをして、賢い重み付けを模索するために GPU を必要とするレベルの並列計算が必要
    • パスワードのブルートフォース手法の限界みたいだ。総当たり攻撃か辞書攻撃みたいなものもあるが、精度はやはりイマイチ、みたいな

実用的な例

  • メールの文言を最小単位(形態素解析など使って)にして、そこをパーセプトロン + weight で活性化関数を組み合わせてスパムメールの判定
  • 画像生成に応用してキャラを自動的に生成、とか
  • 挙げたらキリがないけど、やはりメディア系が多い
  • 異常システムの検知くらいになってくると機械学習でも難しいかもしれない?
    • 人が判断するにしてもかなり難しいし

画像の生成に関しては下記の記事がわかりやすかった。生成過程の画像とかグチャグチャだけど、descliminator によって正解に近づけていくのね。descliminator の提示する正解が数パターンあると、複数の画像を生成できるかもしれない

一エンジニアとして機械学習を適用していくには?

現段階でかなり賢い AI は Google や Adobe Sensei によって開発されているから、ぶっちゃけ勉強しても大規模なレベルの開発は難しい。

いわゆる「弱いAI」を自分のサービスとかに適用していくにあたっては、まずはドメインの理解というか、自分のサービスでやっていることを深く理解してから何を最適化するかを考える必要がある

例えば、就職活動を支援するサービスに適用しようとすると、ユーザがタグ付けを行わないで、ユーザが書いた自己紹介や履歴書から賢いタグ付けなどを行うことができる。

賢いタグ付けをするためには、傾向を知るために履歴書やユーザの書く自己紹介に(ある程度は)詳しくなる必要もある

と、考えると機械学習のロジックを実装する手間と、機械学習を使わないで手でベタにロジックを書くかは時間とのバランスも大切で。

 

Slideshare とかのタグ付けも実際に応用されているところだとは思うけど、コンテンツが大量に生成されるであろう環境で使うのがいいんだろうなぁ。商品の推奨とかあるけど、ありきたりっちゃありきたりだし。

汎用性を高めると、Google とか Adobe とかがすでにやっているサービスとあまり遜色なくなってしまうし、あまりにも限定的な用途特化で作り込むと機械学習の旨味というのは減る気がしている。

(限定的にすると自前でコードを書いた方が安い可能性がある)

 

うーん、この適用するバランス感覚を身につけるってことが機械学習エンジニアとしての勘所なのかな。


お仕事の話: プレイヤーのはずなのに、いつの間にか評価する側に回ってしまい、自分デキる人を演じる話

ほぼタイトルでおしまいです。

最前線で頑張って「疲れちゃった(´・ω・`)」という状態になって
いつのまにやら後輩とかができ始めて、人を評価するようになってから
何故か自分はその人よりできないこともあるはずなのに、
「俺の方ができる( ・`ω・´)」とか思ってしまう現象。

私はあまり無いと思いたいし、ずっとプレイヤーで居たいとは願っている。

お酒の場であまり意味がない講釈するようにならずに、
淡々とやりたいことに向かって走り続けたいものですなぁ。


感想: 「Git 2.8.0」がリリース、他のレポジトリをサブディレクトリのように使えるsubmodules機能を搭載:CodeZine(コードジン)

codezine.jp

あれ?これなんか違う?
submodules ってもともと付いてたんじゃなかったっけ。
今回のリリースは並列 fetch ができるようになったのが大きい話なのかなぁ。

こっちの記事は Prallel fetches ってタイトルだし、どうなんだろう。

github.com

個人的に気になるのは Windows の CRLF 対応かなぁ。

後は公式リリースノートに書いてあるこれかな。大きいリポジトリとかだと効果がありそう?

It turns out “git clone” over rsync transport has been broken when
the source repository has packed references for a long time, and
nobody noticed nor complained about it.

github.com


日記

今日はちょっと気合を入れる日なのですよ。
そして乗り越えたら、美味しいカクテルを飲みますよ。

最近は絵を書きはじめたし、色々とチャレンジできていい感じ。
さーて頑張るよ(`・ω・´)ゞ


ARMORED CORE DESIGNS 4 & for Answer

ARMORED CORE DESIGNS 4 & for Answer

ARMORED CORE DESIGNS 4 & for Answer

思わず買ってしまった。
お値段がそれなりにしたけど、デザイン過程が見られるのはとてもいい。
ゲームグラフィックス2015 とかも欲しいね〜。


ASUS ZenPad 8.0

ちゃんと使うかどうか怪しい気もするけど、これ欲しい。
実際店頭で触っても見たけど、薄くて軽いし、持ち歩きに不便がなさそうでよさげ。


refs: 就活スーツの着こなしを考える

shousha-ol.hatenadiary.jp

はぁ、そうなんですか(´・ω・`)
就活なのに派手な下着を着るって、このあと彼氏と待ち合わせでもしてるのかしら、とか思うけど、面接受けた後に即スーツで会って、ウニャウニャあるなんてのは想像しにくいので、普通に考えれば無難なものを着ればいいと思うよ。うん。

男子と違って気を使うところが多いから大変だとは思います。えぇ。
男の場合は Yシャツの襟がヨレヨレじゃなければいいとか、シワがなければよいとかそんなもんだしなぁ。


refs: DalmatinerDB

DalmatinerDB

Metrics DB 最近流行ってるなぁ。
InfluxDB からモリモリ流行ってきた感じだけど、結局のところ可視化をどうやるかってところのフロントエンドで挫折してる感じがしているなぁ。
Kibana 優秀だから ES とセットで使えばそれなりにできるし。
慣れればソッチのほうが断然分かりやすいっていうのも Metrics DB が微妙に流行ってこないところかしら?