7.6.4 Amazon EC2
Spark 自带一个可以在 Amazon EC2 上启动集群的脚本。
这个脚本会启动一些节点,并且在它们上面安装独立集群管理器。
EC2 脚本还会安装好其他相关的服务,比如HDFS、Tachyon 还有用来监控集群的 Ganglia。
Spark 的 EC2 脚本叫作 spark-ec2 ,位于 Spark 安装目录下的 ec2 文件夹中。
启动集群
先创建一个 Amazon 网络服务(AWS)账号,并且获取访问键 ID 和访问键密码,然后把它们设在环境变量中:
export AWS_ACCESS_KEY_ID="..."
export AWS_SECRET_ACCESS_KEY="..."
然后再创建出 EC2 的 SSH 密钥对,然后下载私钥文件(通常叫作 keypair.pem),这样你就可以 SSH 到你的机器上。
登录集群
可以使用存有私钥的 .pem 文件通过 SSH 登录到集群的主节点上。
登录命令:
./spark-ec2 -k mykeypair -i mykeypair.pem login mycluster
销毁集群
./spark-ec2 destroy mycluster
中止集群
./spark-ec2 stop mycluster
再次启动集群
./spark-ec2 -k mykeypair -i mykeypair.pem start mycluster