Category Archives: MongoDB

2015-11-27

Apach Spark + Spark MLlib + MongoDBでwikipedia記事をクラスタリング

   JWordのO.Yです。 ビッグデータがムーブメントとなって久しく、用途はなんであれ今はHadoopを導入している企業さんも多いことかと思います。JWordでもHadoopを導入しており検索クエリーの集計等に使用しています。 Hadoopは簡単に分散処理環境を実現することができますが、分散させる処理単位でmapreduceアプリケーションを書かなきゃならないので複雑な処理だとプログラム量が多くなりやすい、Hadoop Streamingを使用した場合には処理スピードが遅い(JWordでは開… Read More »