ページの本文へ

Hitachi

OSS(オープンソース・ソフトウェア)

Cloudera社

Clouderaは、クラウドに最適化された、機械学習と分析のための最新のプラットフォームを提供する会社です。 本コラムではClouderaがお客様のビジネス拡大を支援するために提供するデータ基盤の必要性やその容易な運用管理を実現するツールとサービス、お客様の成功事例などについてご紹介します。

第1回 文系のためのCloudera入門

はじめまして。このコラムでは、主に技術者でない方に向けてClouderaのソリューションをご紹介していきたいと思います。とはいえ、そもそもClouderaという会社をご存じない方が多いかと思います。

「クラウドに最適化された、機械学習と分析のための最新のプラットフォーム」を提供する会社

Clouderaは「クラウドに最適化された、機械学習と分析のための最新のプラットフォーム」を提供する会社です。

と言ってもピンときませんよね。そこで第一回目はClouderaという会社を理解いただくために「Apache Hadoop」のご紹介から始めます。

Hadoopは、Googleの技術者による論文が元になって開発されたソフトウェアです。Googleは世界中のウェブサイトを、みなさんのブラウザに一瞬で表示させるために、さまざまな工夫をしてきました。ウェブサイトはhtmlファイルや画像、音声、ビデオなどさまざまな形式のファイルからなり、世界中のサーバーに分散しています。さらに読み込み速度を早めるために、キャッシュと呼ばれる一時サーバーにもファイルのコピーが保存されています。Googleはそれぞれのファイルを最も早く取り出せるサーバーから探し出す必要があり、大量のデータを迅速に処理する技術を開発してきました。

その技術基盤が2003年(The Google File System),2004年(MapReduce: Simplified Data Processing on Large Clusters )に論文として発表されると、それを元に当時、Googleと同様の検索システムをオープンソースで開発していたエンジニアの一人、Doug CuttingがオープンソースとしてHadoopを開発したのです。オープンソースとして誰でも自由に使えるHadoopは大量のデータ処理基盤として瞬く間に広まりました。そしてClouderaは世界で初めて「商用」のHadoopを世に送り出しました。ちなみに先のDoug Cuttingは現在、Clouderaのチーフアーキテクトを勤めています。

Hadoopの特徴

では簡単にHadoopの中身をご紹介しましょう。Hadoopは大きく二つのコンポーネントで構成されます。ファイルを格納するHDFS(Hadoop分散ファイルシステム)と、そのファイルに対して処理を行う処理エンジンであるHadoop MapReduce です。昨今ではこのMapReduce以外にもApache SparkやApache Impalaなどの新しい処理エンジンが登場してきて、Hadoopそのものが大きな進化を遂げています。このあたりは今後、ご紹介していきます。

Hadoopの大きな特徴は「分散処理」により高い拡張性を持ち(スケーラブル)、データ量が増えた時でもすぐに対応できることです。例えば1台のサーバーにデータベースを構築する場合を考えてみましょう。データ量が増加すると、データ検索に時間がかかることになり、処理速度が遅くなります。そこでサーバー自体の性能を上げるためにCPUをアップグレードしたり、メモリやディスクを増やしたりする必要があります。その場合には、サーバーの稼働を止めて作業しなければならず、場合によっては業務停止が発生し、ビジネスに大きなダメージを与えるケースもあります。

これに対し、分散処理は複数のサーバーにデータを分散させて、あたかも一つのシステムのように扱うという考えです。処理すべきデータが増えた時には物理的にサーバーを追加するだけで、全体の稼働を止めることなく、簡単に処理能力を増強できるのです。

オープンソースであることの強み

またHadoopはオープンソースであることも強みです。ソースコード自体が公開されているので、特定のベンダーに依存することなく、技術者が自由にプログラムを開発したり機能を追加したりすることができます。そのためセキュリティホールの発見やバグの修正も迅速に行われ、最新の機能をすぐに手に入れることができます。そのため、自社で高価なソフトウェアを購入しなくても、安価にデータ基盤を構築することが可能となります。こうした背景からHadoopは多くの企業にビッグデータ基盤として採用されてきました。

一方、オープンソースであることが弱点になるケースがあります。オープンソースの世界では、「新しい技術や機能を試したい」という技術者によるコミュニティが形成されており、そこへのアクセスを通じて最新情報を得る必要があります。オープンソースではバグを修正するバッチの情報や新機能の情報も自ら取りに行く必要があり、その適用も自己責任です。そのため、必ずしも最新の技術でなくてもいいから安定して稼働するシステムを求める企業でも、何かあった時のために常日頃の情報収集は必要となってきます。しかしながら企業において、オープンソースに詳しい技術者が社内にいないため、IT部門が常にコミュニティをウォッチする必要があり、本来やるべき仕事のリソースが足りなくなるという状況があります。

こうしたオープンソースゆえの「弱点」をカバーするところにClouderaの価値があります。Clouderaは、Hadoopに詳しくなくてもHadoop基盤の安定した運用管理を容易に行うためのさまざまなツール、サポート、トレーニングを提供します。Clouderaは、企業が本来やるべき戦略的なタスクにリソースを投下できる環境を実現するお手伝いをしています。

まとめ

Clouderaのイメージをご理解いただけましたでしょうか。
次回は、Clouderaが必要とされる背景である、ビッグデータがもたらす新しいビジネス機会の事例をご紹介いたします。


コラム執筆者
Cloudera株式会社 マーケティング部