专注于快乐的事情

mac下配置pyspark环境

安装过程

以前用的spark版本有点老了,来个新的。

安装包下载地址: https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

解压缩到/soft/spark-2.4.0-bin-hadoop2.7

配置环境变量(Mac是 ~/.bash_profile

export SPARK_HOME=/soft/spark-2.4.0-bin-hadoop2.7
export PATH=${PATH}:${SPARK_HOME}/bin

进入spark安装目录下sbin,执行./spark-shell

访问spark页面:http://localhost:8080/
出现画面,表示安装成功。

pyspark 测试

启动pyspark 通过http://localhost:4040可以访问。
查看后台

Picked up JAVA_TOOL_OPTIONS: -Dfile.encoding=UTF-8
Python 2.7.15 (default, May  1 2018, 16:44:08) 

我需要的是python3。

继续修改~/.bash_profile,修改如下

export SPARK_HOME=/soft/spark-2.4.0-bin-hadoop2.7
export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PYSPARK_PYTHON=python3
alias snotebook='$SPARK_HOME/bin/pyspark --master local[2]'

执行source ~/.bash_profile让其生效。

PYSPARK_DRIVER_PYTHON这里指定pyspark的启动形式是jupyter notebook,执行快捷方式snotebook

弹出久违的notebook窗口可以进行开工了。

参考

https://www.jianshu.com/p/d0f57e937e8f

评论系统未开启,无法评论!