Category Archives: Apache Nutch

2016-03-29

CentOS7.0にApacheNutch2.3.1をスタンドアロンで構築

ApacheSolrが出回り検索エンジンを作るための本なども数多く出版され 検索エンジンがだいぶ手頃に構築できるようになりました。今回はApacheNutch2系の構築を書くのですが理由としては、ApacheNutch2のドキュメントが少ない!という事からでした。さっそく構築に入っていきます。 今回使用するミドルウェアは、コンテンツ保存用にHBase+HDFS、検索用にElasticsearchとしました。 理由としては、そのうち分散していくのに楽そうな構成だったからです。まずはコンテンツ保存用… Read More »