素早くデータマイニングしたくなったらSparkを始めよう

zakknak https://blog.hatena.ne.jp/zakknak/ FLINTERS Engineer's Blog https://blog.flinters.co.jp/ Scala AWS こんにちは。菅野です。 Scalaを使って集計バッチなどを書くと、ふつうは以下のようにコレクションのメソッドを駆使してデータをこねくり回しますよね？ val 何かのデータ: Seq[String] = ??? 何かのデータ .groupBy(identity) .mapValues(_.size) .toSeq .sortBy(_._2) .foreach(println) Scalaのコレクションは強力で使いやすいので、とりあえずこんな感じで日々のデータを処理すると思います。しかし実行時間はデータ量に比例するように長くなり、そのうちOutOfMemoryErrorと叫びながらプロセスが爆散… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fblog.flinters.co.jp%2Fentry%2F2016%2F11%2F02%2F090317" title="素早くデータマイニングしたくなったらSparkを始めよう - FLINTERS Engineer's Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2016-11-02 09:03:17 素早くデータマイニングしたくなったらSparkを始めよう rich https://blog.flinters.co.jp/entry/2016/11/02/090317 1.0 100%