Category Archives: Apache Spark

2016-03-02

デブサミ2016でSparkを使ったアプリケーションについて登壇してきました

最近花粉気味のCTO室のHadoopエンジニアのJ.Nです。2月18日 Developers Summit 2016 でApache Sparkを使ったリコメンドシステムの研究成果について発表してきました。Apache Sparkはインメモリの並列分散処理基盤です。以前の記事にも解説があります。最近GMOアドパートナーズグループのエンジニア内では熱い分野です。   デブサミで登壇するのは初めてなので緊張しました。 Spark Streamingを使って「N… Read More »

2015-11-27

Apach Spark + Spark MLlib + MongoDBでwikipedia記事をクラスタリング

   JWordのO.Yです。 ビッグデータがムーブメントとなって久しく、用途はなんであれ今はHadoopを導入している企業さんも多いことかと思います。JWordでもHadoopを導入しており検索クエリーの集計等に使用しています。 Hadoopは簡単に分散処理環境を実現することができますが、分散させる処理単位でmapreduceアプリケーションを書かなきゃならないので複雑な処理だとプログラム量が多くなりやすい、Hadoop Streamingを使用した場合には処理スピードが遅い(JWordでは開… Read More »