データサイエ「ソ」ティストは語る

データサイエンティストではない、パチもんのデータサイエ「ソ」ティストのブログ

データ分析環境をクラウドで

身の回りのいろんなところにRを使う環境はあるのだけど、ちょっとクラウドも使ってみようかと(いまさら)思い、AWSにアカウントを作ってみた。いやまぁ、研修講師としてここ3年以上、クラウドコンピューティングについて語っているのだけど。

最小のマイクロインスタンスは無料なので、まずはそこにマーケットプレイスからCentOSの公式イメージを選んで、デプロイ。

分析環境以前の、一般的なLinux環境としてEPELレポジトリやRepoforgeレポジトリを追加し、パッケージをいろいろ導入。

で、分析環境の構築ということで、RStudio Serverを導入。合わせて、関連するR関係のパッケージも依存関係で導入。インストール自体はもちろん問題ないのだけど、わざわざ8787番ポートを指定したくないので、Running with a Proxyにあるように、Apacheのmod_proxyモジュールを使って、http://xxxx.compute.amazonaws.com/rstudio/ でアクセスできるようにした。

なお、EC2環境に限った話ではないけど、なぜかinstall.packages()でパッケージがダウンロードされるだけで、インストールが行われなかったが、これはSELinuxが働いていたためらしい。とりあえずsetenforce 0および/etc/sysconfig/selinuxでdisabledに変更。

ちなみに、マイクロインスタンスはメモリが約600MBで、shinyパッケージを導入しようとしたら、途中のRcppパッケージがメモリ不足でコンパイルできなかった。さすがに、ちゃんとした分析サーバにするにはもう少し上位のインスタンスじゃなきゃいけないか。