SlideShare a Scribd company logo
1 of 49
Download to read offline
ただいまHadoop勉強中

 DEVLOVE HangarFlight
     2010.12.18
自己紹介

名前
 能登 諭(のと さとし)

所属
 株式会社トップゲート

Twitter
  @n3104
おしながき

1. Hadoop概要
2. HDFS
3. MapReduce
4. Hive
5. HangarFlight
1.Hadoop概要
Hadoopとは

大規模なデータを複数のコンピューター上で分散して処理するため
のソフトウェアを開発している、オープンソースのプロジェクトです
(※1)。
Hadoopプロジェクトによって開発されているソフトウェアは多数あり
ますが、主となるのはMapReduceとHDFS(Hadoop Distributed
File System)です。この2つはGoogleが公開したMapReduce(※2)と
GFS(Google File System)(※3)の論文を参考に開発されていま
す。

※1 http://hadoop.apache.org/
※2 http://labs.google.com/papers/mapreduce.html
※3 http://labs.google.com/papers/gfs.html
Hadoopのサブプロジェクト群

   サブプロジェクト
     Hadoop Common
     HDFS
     MapReduce
     ZooKeeper
   関連プロジェクト
     Arvo
     Chukwa
     HBase
     Hive
     Mahout
     Pig

プロジェクト間の関連は以下が参考になります。
https://github.com/tomwhite/hadoop-ecosystem
2.HDFS
HDFSとは

Hadoop Distributed File System、つまり分散ファイルシステムで
す。ファイルシステムですので、HDFS上でファイルやディレクトリを
管理することが出来ます。また、そのファイルシステムが分散されて
いるので、複数台のコンピューターを利用したファイルシステムとい
うことになります。
ファイルの一覧表示(1)

【内容】
絶対パス指定でルートディレクトリ直下のファイルの一覧を表示しま
す。

【コマンド】
$ hadoop fs -ls /

【構文】
hadoop fs -ls <path>
ファイルの一覧表示(2)

【コマンド】
$ hadoop fs -ls /

【結果】
Found 4 items
drwxr-xr-x - training supergroup   0 2009-06-17 16:19 /shared
drwxr-xr-x - training supergroup   0 2009-11-12 14:47 /tmp
drwxr-xr-x - training supergroup   0 2009-11-12 14:47 /user
drwxr-xr-x - hadoop supergroup      0 2010-11-22 23:27 /var
ローカルからHDFSへのコピー(1)

【内容】
ローカルのREADMEファイルをHDFSのホームディレクトリに
hdfs_reameという名前でコピーします。

【コマンド】
$ hadoop fs -copyFromLocal README hdfs_readme
ローカルからHDFSへのコピー(2)

【コマンド】
$ hadoop fs -copyFromLocal README hdfs_readme

【結果】
何も出力されません
【構文】
hadoop fs -copyFromLocal <localsrc...> <hdfspath>
ローカルからHDFSへのコピー(3)

【内容】
ローカルからHDFSにREADMEファイルがコピーされたことを確認し
ます。

【コマンド】
$ hadoop fs -ls
【結果】
Found 1 items
-rw-r--r-- 1 training supergroup   538 2010-12-13 09:09 /user/training/hdfs_readme
HDFSの基本操作

hadoop fs -XXX という形でコマンドライン経由で操作します。具体
的には以下のようなものがあります。
   hadoop fs -ls <path>
   hadoop fs -lsr <path>
   hadoop fs -mkdir <path>
   hadoop fs -rm <path>
   hadoop fs -rmr <path>
   hadoop fs -copyFromLocal <localsrc...> <hdfspath>
   hadoop fs -copyToLocal <hdfspath> <localpath>
   hadoop fs -help

※ pathは相対パスと絶対パスが指定可能で、相対パスはホーム
ディレクトリが起点となります。
HDFSのホームディレクトリ

ホームディレクトリはクライアントのユーザー名から自動的に決定さ
れます。/user/${USER}/ がホームディレクトリになります。
HDFSの権限管理

Unixライクな権限管理の仕組みがあります。ただし、認証の仕組み
はありません。現状は認証なしにユーザー名とグループ名を、クライ
アント側でログインしているアカウントから取得しているだけです。た
だしYahoo版のHadoop(※1)(※2)にはKerberosによる認証が追加
されており、Hadoop0.21.0に取り込まれています(※3)。

※1 http://yahoo.github.com/hadoop-common/
※2 Hadoopは本家Apache版以外にもディストリビューションが存
在します。
※3 Hadoop0.21.0は今年の8/23にリリースされていますが、安定
版(stable)は0.20.2です(2010年12月14日時点)。
ディストリビューション

 本家 http://hadoop.apache.org/
 Yahoo http://yahoo.github.com/hadoop-common/
 Cloudera http://www.cloudera.com/downloads/
 IBM http://alphaworks.ibm.com/tech/idah
 Hudson http://wiki.hudson-ci.
 org/display/HUDSON/Hadoop+Plugin
HDFSの構成
HDFSの耐障害性について

HDFSはNameNodeがシングルマスターであるため、障害発生時に
SPoF(単一障害点)となります。そのため、NameNodeに関しては冗
長化するなどの対応を行う必要があります(※1)。DataNodeに関し
ては複数のコンピューターにデータが複製されており、障害発生時
は他のコンピューターにデータが再度複製されるため問題ありませ
ん。
なお、SecondaryNameNodeはCheckPointNodeと言うべきもので、定
期的にNameNodeのデータをバックアップしているだけです。そのた
め、障害時にNameNodeの代わりに動作するものではありません。

※1 http://togetter.com/li/75188
3.MapReduce
MapReduceとは

並列分散処理用のフレームワークです。mapとreduceという処理を
組み合わせて処理を行う点が特徴です。
wordcount(1)

【内容】
ファイル中の単語数をカウントするMapReduceジョブです。Hadoopに
付属しているサンプルプログラムです。以下のようにして実行しま
す。

【コマンド】
$ hadoop jar /usr/src/hadoop-0.20.1+133/hadoop-0.20.1+133-
examples.jar wordcount hdfs_readme wordcount

【構文】
$ hadoop jar <jarファイルのpath> <実行するジョブ>
 <入力ファイル...> <出力ディレクトリ>
wordcount(2)

【内容】
wordcountの処理結果の確認をします。ホームディレクトリに
wordcountというディレクトリが作成されていることが分かります。

【コマンド】
$ hadoop fs -ls
【結果】
Found 2 items
-rw-r--r-- 1 training supergroup   538 2010-12-13 09:09 /user/training/hdfs_readme
drwxr-xr-x - training supergroup     0 2010-12-15 06:16 /user/training/wordcount
wordcount(3)

【内容】
wordcountディレクトリの中に処理結果のファイル(part-r-00000)が
格納されていることを確認します。

【コマンド】
$ hadoop fs -ls wordcount
【結果】
Found 2 items
drwxr-xr-x - training supergroup     0 2010-12-15 06:15 /user/training/wordcount/_logs
-rw-r--r-- 1 training supergroup   582 2010-12-15 06:15 /user/training/wordcount/part-r-
00000
wordcount(4)

【内容】
処理結果のファイル(part-r-00000)の中身を見てみます。

【コマンド】
$ hadoop fs -cat wordcount/p* | less
【結果】
To    2
You 1
a    1
access 1
all 1
and 3
wordcount:map処理

wordcountであるため、keyが単語、valueが「1」となります。
wordcount:reduce処理

reduceの入力時にkey(単語)ごとにvalue「1」がまとめられます。そ
してreduceにおいて「1」を足して出現回数が求められます。
wordcountのソース(1) : map処理

public static class TokenizerMapper extends
  Mapper<Object, Text, Text, IntWritable> {

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context)
           throws IOException, InterruptedException {
       StringTokenizer itr = new StringTokenizer(value.toString());
       while (itr.hasMoreTokens()) {
           word.set(itr.nextToken());
           context.write(word, one);
       }
     }
}
wordcountのソース(2) : reduce処理

public static class IntSumReducer extends
     Reducer<Text, IntWritable, Text, IntWritable> {
  private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,
         Context context) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
         sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
}
wordcountのソース(3) : main処理

public static void main(String[] args) throws Exception {
  Configuration conf = new Configuration();
  String[] otherArgs = new GenericOptionsParser(conf, args)
        .getRemainingArgs();
  if (otherArgs.length != 2) {
      System.err.println("Usage: wordcount <in> <out>");
      System.exit(2);
  }
  Job job = new Job(conf, "word count");
  job.setJarByClass(WordCount.class);
  job.setMapperClass(TokenizerMapper.class);
  job.setCombinerClass(IntSumReducer.class);
  job.setReducerClass(IntSumReducer.class);
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(IntWritable.class);
  FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
  FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
  System.exit(job.waitForCompletion(true) ? 0 : 1);
}
wordcountのソース(4) : Driver

public class ExampleDriver {
  public static void main(String argv[]){
     int exitCode = -1;
     ProgramDriver pgd = new ProgramDriver();
     try {
        pgd.addClass("wordcount", WordCount.class,
           "A map/reduce program that counts the words in the input files.");
        pgd.driver(argv);
        // Success
        exitCode = 0;
     }
     catch(Throwable e){
        e.printStackTrace();
     }
     System.exit(exitCode);
  }
}
MapReduceの構成
MapReduceがやってくれること

 分散処理の制御
   複数台のコンピューターの制御(タスクの割り当て)
   タスクを割り当てたコンピューターに障害が発生した場合に
   別のコンピューターに割り当てて再実行
 入力ファイルの分割
   各mapに処理対象となる入力ファイルを割り当てる
 mapで処理した結果をreduceに渡す
   その際にmapの出力結果についてkey単位でvalueをまとめる
その他の機能

不良レコードのスキップ
カウンター
ジョブスケジューラー
Hadoopストリーミング
  スクリプト言語でmapおよびreduce処理を実装できる。
Hadoop Pipes
  C++でmapおよびreduce処理を実装できる。
4.Hive
Hiveとは

SQLをMapReduceに変換して実行するツールです。Hiveを利用する
ことで、MapReduceプログラムの作成しなくとも、データを抽出した
り、結合したりすることが出来ます。
Hiveのインストール(1)

【前提】
Cloudera's Hadoop Training VM
http://www.vmware.com/appliances/directory/va/78133

【ダウンロードと解凍】
$ wget http://archive.apache.org/dist/hadoop/hive/hive-0.5.0
/hive-0.5.0-bin.tar.gz
$ tar xzf hive-0.5.0-bin.tar.gz
Hiveのインストール(2)

【HDFS上にHiveのディレクトリを作成】
$ cd hive-0.5.0-bin
$ hadoop fs -mkdir /user/hive-0.5.0/warehouse
$ hadoop fs -chmod g+w /user/hive-0.5.0/warehouse
$ sed -i 's;/user/hive/warehouse;/user/hive-0.5.0/warehouse;'
conf/hive-default.xml

【補足】
通常は /user/hive-0.5.0/warehouse だけでなく、 /tmp ディレクトリ
も同様にmkdirしてchmodします。
http://wiki.apache.
org/hadoop/Hive/GettingStarted#Running_Hive
Hive interactive Shellの起動と停止

【起動】
$ bin/hive

【停止】
> quit;

【補足】
Shellの詳細は以下を参照してください。
http://wiki.apache.
org/hadoop/Hive/LanguageManual/Cli#Hive_interactive_Shell_
Command
テーブルの作成

【内容】
テーブルを作成してみます。

【コマンド】
> CREATE TABLE pokes (foo INT, bar STRING);
> SHOW TABLES;

【HDFS】
HDFS上にpokesに対応するディレクトリが作成されています。
> dfs -lsr /user/hive-0.5.0;
データのロード

【内容】
先程作成したpokesテーブルにデータをロードします。

【コマンド】
> LOAD DATA LOCAL INPATH './examples/files/kv1.txt'
OVERWRITE INTO TABLE pokes;
> select * from pokes limit 10;

【HDFS】
HDFS上のHiveディレクトリ内にkv1.txtがコピーされています。
> dfs -lsr /user/hive-0.5.0;
データの抽出

【内容】
count関数を利用してpokesテーブルのレコード件数を集計します。

【コマンド】
> select count(1) from pokes;

MapReduceジョブが起動されることが分かります。このようにSQL
を記述するだけで自動的にMapReduceジョブが生成され処理を行う
ことが出来ます。
explain

【内容】
explainで実行されるMapReduceの実行計画を確認することが出来
ます。

【コマンド】
> explain select count(1) from pokes;

【補足】
構文チェックに利用できます。Hiveはクエリの最小実行時間が長い
上に、途中で処理を止めるのも面倒です。
Hive補足

 SQLがMapReduceに変換されている、つまりファイルを操作して
 いるだけ。
     入力ファイルは全行読み取られる。
     部分更新とかは出来ない。ファイル単位で追加か削除しか
     出来ない。
 開発時はリズムが悪い。explainを使うことで構文チェックできる。
 Ctrl+Cしても止まらない。
     停止するのはHiveのプロセスであって、一度実行した
     MapReduceジョブは別途停止する必要がある。
 デフォルトだと同時に1SQLしか投げられない。
     Metastoreの構築が別途必要になる。
 Cygwinでは動作しない。
5.HangarFlight
とりあえずHadoopを操作してみるには

Cloudera's Hadoop Training VMがお手軽です。入手元としては
ClouderaとVirtual Appliancesがあります。
http://www.cloudera.com/downloads/virtual-machine/
http://www.vmware.com/appliances/directory/va/78133

Virtual Appliancesから落としたファイルはovf形式であるため、
VirtualBoxにインポート可能です。VMWarePlayerで利用する際は
ovftoolを利用してovf形式からvmx形式に変換する必要があります。

ちなみに、HadoopだけならCygwin上にも構築できますが、Hiveは利
用できませんし、激おそなのでおすすめしません。
VirtuslBoxを利用する場合の補足

cloudera-training-0.3.3.ovfの103-111行目を削除しないと
virtualboxにインポート時にエラーになります。以下の部分になりま
す。
 <Item ovf:required="false">
  <rasd:AddressOnParent>3</rasd:AddressOnParent>
  <rasd:AutomaticAllocation>false</rasd:AutomaticAllocation>
  <rasd:Description>Sound Card</rasd:Description>
  <rasd:ElementName>sound</rasd:ElementName>
  <rasd:InstanceID>10</rasd:InstanceID>
  <rasd:ResourceSubType>vmware.soundcard.ensoniq1371</rasd:ResourceSubType>
  <rasd:ResourceType>1</rasd:ResourceType>
 </Item>
おすすめの書籍・サイト

1. ASCII.technologies 2011年1月号
   http://tech.ascii.jp/elem/000/000/569/569332/
2. Hadoopリンクまとめ(1) - 科学と非科学の迷宮
   http://d.hatena.ne.jp/shiumachi/20100425/1272197037
3. slideshare
   http://www.slideshare.net/search/slideshow?
   searchfrom=header&q=hadoop
4. Hadoop(オライリー)
   http://www.oreilly.co.jp/books/9784873114392/
5. Twitter
   http://twitter.com/#!/n3104/hadoop
6. Resources « Cloudera » Apache Hadoop for the Enterprise
   http://www.cloudera.com/resources/?type=Training
ご静聴ありがとうございました!

More Related Content

What's hot

分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~Hideki Tsunashima
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmeticharmonylab
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time SeriesDeep Learning JP
 
DockerコンテナでGitを使う
DockerコンテナでGitを使うDockerコンテナでGitを使う
DockerコンテナでGitを使うKazuhiro Suga
 
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol BuffersApache Avro vs Protocol Buffers
Apache Avro vs Protocol BuffersSeiya Mizuno
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP LatentsDeep Learning JP
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networksDeep Learning JP
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門KnowledgeGraph
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"Deep Learning JP
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
 
がっつりMongoDB事例紹介
がっつりMongoDB事例紹介がっつりMongoDB事例紹介
がっつりMongoDB事例紹介Tetsutaro Watanabe
 
スーパーコンピュータとアプリケーションの性能
スーパーコンピュータとアプリケーションの性能スーパーコンピュータとアプリケーションの性能
スーパーコンピュータとアプリケーションの性能RCCSRENKEI
 

What's hot (20)

分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
データベースで始める機械学習
データベースで始める機械学習データベースで始める機械学習
データベースで始める機械学習
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
 
DockerコンテナでGitを使う
DockerコンテナでGitを使うDockerコンテナでGitを使う
DockerコンテナでGitを使う
 
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol BuffersApache Avro vs Protocol Buffers
Apache Avro vs Protocol Buffers
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
がっつりMongoDB事例紹介
がっつりMongoDB事例紹介がっつりMongoDB事例紹介
がっつりMongoDB事例紹介
 
スーパーコンピュータとアプリケーションの性能
スーパーコンピュータとアプリケーションの性能スーパーコンピュータとアプリケーションの性能
スーパーコンピュータとアプリケーションの性能
 

Viewers also liked

Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Takeshi Mikami
 
オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724
オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724
オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724Cloudera Japan
 
Hadoop for programmer
Hadoop for programmerHadoop for programmer
Hadoop for programmerSho Shimauchi
 
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)Toru Takizawa
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
HiveハンズオンSatoshi Noto
 
Upgrading from-hdp-21-to-hdp-24
Upgrading from-hdp-21-to-hdp-24Upgrading from-hdp-21-to-hdp-24
Upgrading from-hdp-21-to-hdp-24wyukawa
 
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門  #oreilly0724オライリーセミナー Hive入門  #oreilly0724
オライリーセミナー Hive入門 #oreilly0724Cloudera Japan
 
ソーシャルゲームログ解析基盤のHadoop活用事例
ソーシャルゲームログ解析基盤のHadoop活用事例ソーシャルゲームログ解析基盤のHadoop活用事例
ソーシャルゲームログ解析基盤のHadoop活用事例知教 本間
 
Programming Hive Reading #3
Programming Hive Reading #3Programming Hive Reading #3
Programming Hive Reading #3moai kids
 
Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013Cloudera Japan
 
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみたHive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみたRecruit Technologies
 
主人が外資系IT企業に転職して4ヶ月が過ぎました
主人が外資系IT企業に転職して4ヶ月が過ぎました主人が外資系IT企業に転職して4ヶ月が過ぎました
主人が外資系IT企業に転職して4ヶ月が過ぎましたAki Ariga
 
Hive sourcecodereading
Hive sourcecodereadingHive sourcecodereading
Hive sourcecodereadingwyukawa
 
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析shuichi iida
 
How to read linux kernel
How to read linux kernelHow to read linux kernel
How to read linux kernelNaoya Ito
 
Upgrading from-hdp-21-to-hdp-25
Upgrading from-hdp-21-to-hdp-25Upgrading from-hdp-21-to-hdp-25
Upgrading from-hdp-21-to-hdp-25wyukawa
 
Hive Anatomy
Hive AnatomyHive Anatomy
Hive Anatomynzhang
 

Viewers also liked (20)

Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
 
オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724
オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724
オライリーセミナー Hadoop/Hiveを学ぶ #oreilly0724
 
Hadoop for programmer
Hadoop for programmerHadoop for programmer
Hadoop for programmer
 
今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)今さら聞けないHadoop セントラルソフト株式会社(20120119)
今さら聞けないHadoop セントラルソフト株式会社(20120119)
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
Hiveハンズオン
 
Upgrading from-hdp-21-to-hdp-24
Upgrading from-hdp-21-to-hdp-24Upgrading from-hdp-21-to-hdp-24
Upgrading from-hdp-21-to-hdp-24
 
オライリーセミナー Hive入門 #oreilly0724
オライリーセミナー Hive入門  #oreilly0724オライリーセミナー Hive入門  #oreilly0724
オライリーセミナー Hive入門 #oreilly0724
 
ソーシャルゲームログ解析基盤のHadoop活用事例
ソーシャルゲームログ解析基盤のHadoop活用事例ソーシャルゲームログ解析基盤のHadoop活用事例
ソーシャルゲームログ解析基盤のHadoop活用事例
 
Programming Hive Reading #3
Programming Hive Reading #3Programming Hive Reading #3
Programming Hive Reading #3
 
Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013
 
Hiveを高速化するLLAP
Hiveを高速化するLLAPHiveを高速化するLLAP
Hiveを高速化するLLAP
 
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみたHive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
 
主人が外資系IT企業に転職して4ヶ月が過ぎました
主人が外資系IT企業に転職して4ヶ月が過ぎました主人が外資系IT企業に転職して4ヶ月が過ぎました
主人が外資系IT企業に転職して4ヶ月が過ぎました
 
Hive sourcecodereading
Hive sourcecodereadingHive sourcecodereading
Hive sourcecodereading
 
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析
 
How to read linux kernel
How to read linux kernelHow to read linux kernel
How to read linux kernel
 
Upgrading from-hdp-21-to-hdp-25
Upgrading from-hdp-21-to-hdp-25Upgrading from-hdp-21-to-hdp-25
Upgrading from-hdp-21-to-hdp-25
 
Internal Hive
Internal HiveInternal Hive
Internal Hive
 
Hive Anatomy
Hive AnatomyHive Anatomy
Hive Anatomy
 
Hive: Loading Data
Hive: Loading DataHive: Loading Data
Hive: Loading Data
 

Similar to ただいまHadoop勉強中

Googleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてGoogleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてKazuki Ohta
 
クラウド時代の並列分散処理技術
クラウド時代の並列分散処理技術クラウド時代の並列分散処理技術
クラウド時代の並列分散処理技術Koichi Fujikawa
 
Cloud computing competition by Hapyrus
Cloud computing competition by HapyrusCloud computing competition by Hapyrus
Cloud computing competition by HapyrusKoichi Fujikawa
 
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)Sho Shimauchi
 
Node-v0.12の新機能について
Node-v0.12の新機能についてNode-v0.12の新機能について
Node-v0.12の新機能についてshigeki_ohtsu
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介bigt23
 
HDPをWindowsで動かしてみた
HDPをWindowsで動かしてみたHDPをWindowsで動かしてみた
HDPをWindowsで動かしてみたadachij2002
 
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)YoheiOkuyama
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...NTT DATA Technology & Innovation
 
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門Shinichi YAMASHITA
 
Asakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopAsakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopTakashi Kambayashi
 
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日本支社 高塚遥
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう  by SRA OSS, Inc. 日本支社 高塚遥[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう  by SRA OSS, Inc. 日本支社 高塚遥
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日本支社 高塚遥Insight Technology, Inc.
 

Similar to ただいまHadoop勉強中 (20)

WDD2012_SC-004
WDD2012_SC-004WDD2012_SC-004
WDD2012_SC-004
 
Googleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてGoogleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
 
MapReduce入門
MapReduce入門MapReduce入門
MapReduce入門
 
クラウド時代の並列分散処理技術
クラウド時代の並列分散処理技術クラウド時代の並列分散処理技術
クラウド時代の並列分散処理技術
 
Cloud computing competition by Hapyrus
Cloud computing competition by HapyrusCloud computing competition by Hapyrus
Cloud computing competition by Hapyrus
 
Rakuten tech conf
Rakuten tech confRakuten tech conf
Rakuten tech conf
 
Scala on Hadoop
Scala on HadoopScala on Hadoop
Scala on Hadoop
 
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
 
Node-v0.12の新機能について
Node-v0.12の新機能についてNode-v0.12の新機能について
Node-v0.12の新機能について
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
HDPをWindowsで動かしてみた
HDPをWindowsで動かしてみたHDPをWindowsで動かしてみた
HDPをWindowsで動かしてみた
 
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
今さら聞けないHadoop勉強会第3回 セントラルソフト株式会社(20120327)
 
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
 
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
 
SASとHadoopとの連携
SASとHadoopとの連携SASとHadoopとの連携
SASとHadoopとの連携
 
Asakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopAsakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for Hadoop
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日本支社 高塚遥
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう  by SRA OSS, Inc. 日本支社 高塚遥[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう  by SRA OSS, Inc. 日本支社 高塚遥
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日本支社 高塚遥
 

More from Satoshi Noto

このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)Satoshi Noto
 
読書会のすすめ
読書会のすすめ読書会のすすめ
読書会のすすめSatoshi Noto
 
データ分析チームの振り返り
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返りSatoshi Noto
 
Amazon Machine Learning概要
Amazon Machine Learning概要Amazon Machine Learning概要
Amazon Machine Learning概要Satoshi Noto
 
Tez on EMRを試してみた
Tez on EMRを試してみたTez on EMRを試してみた
Tez on EMRを試してみたSatoshi Noto
 
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側Satoshi Noto
 
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみたFullbokをがっつり使ってみた
Fullbokをがっつり使ってみたSatoshi Noto
 
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Satoshi Noto
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門Satoshi Noto
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 

More from Satoshi Noto (10)

このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)
 
読書会のすすめ
読書会のすすめ読書会のすすめ
読書会のすすめ
 
データ分析チームの振り返り
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返り
 
Amazon Machine Learning概要
Amazon Machine Learning概要Amazon Machine Learning概要
Amazon Machine Learning概要
 
Tez on EMRを試してみた
Tez on EMRを試してみたTez on EMRを試してみた
Tez on EMRを試してみた
 
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
 
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみたFullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
 
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 

ただいまHadoop勉強中