データサイエ「ソ」ティストは語る

データサイエンティストではない、パチもんのデータサイエ「ソ」ティストのブログ

SparkRのインストール(spark-ec2版)

参考:https://github.com/amplab-extras/SparkR-pkg/wiki/SparkR-on-EC2

前提

spark-ec2スクリプトクラスタが構成されていること。例えば、以下のような感じ。

./spark-ec2 -k SparkLab -i ~/sparklab/aws_key/SparkLab.pem -s 4 -t m3.xlarge launch SparkLab

マスタサーバにログインしてから、以降の作業をしていく。

./spark-ec2 -k SparkLab -i ~/sparklab/aws_key/SparkLab.pem login SparkLab

rJavaのダウンロード、スレーブへの配置

  1. wget http://cran.ism.ac.jp/src/contrib/rJava_0.9-6.tar.gz
  2. spark-ec2/bin/copy-dir rJava_0.9-6.tar.gz

RのJava設定

  1. R CMD javareconf
  2. spark/sbin/slaves.sh R CMD javareconf

rJavaのインストール

  1. tar xvzf rJava_0.9-6.tar.gz && R CMD INSTALL rJava
  2. spark/sbin/slaves.sh R CMD INSTALL rJava_0.9-6.tar.gz

SparkRのインストール

  1. git clone https://github.com/amplab-extras/SparkR-pkg.git
  2. cd SparkR-pkg
  3. ./install-dev.sh
  4. /root/spark-ec2/copy-dir /root/SparkR-pkg

ドキュメント(roxygen2)生成用のCurlインストール

  1. yum install curl-devel

SparkRの起動

  1. MASTER=spark://master_hostname:7077 ./sparkR

ドキュメントの生成

  1. install.packages("devtools")
  2. install.packages("roxygen2")
  3. library(devtools)
  4. devtools::document(pkg="./pkg", roclets=c("rd"))

……“素の”RとSparkRの比較ができるようなコードをいろいろ考えてみたが、ぱっとしないので、とりあえず導入手順だけ。