这里汇集一些部署、使用过程中的一些问题。
Ambari Metric监视不到 (CPU,内存等显示不了)
很有可能是时间不匹配
除了时间,时区也要匹配
最好能配置NTP,使得整体同步
yum被占用
自动安装过程中可能会出现yum被占用的情况,执行:kill xxx
杀死被占用的进程
其中xxx为占用yum的进程号
HDFS权限问题
由于权限问题,启动PySpark可能启动不起来(写权限错误)
两个原则:
- hdfs是HDFS的super Administrator
- 谁建立的文件夹就是谁的
解决方案:
- 先在hdfs下
hadoop fs -chmod 777 /user/设置权限 - 以你想要的帐户登录
- 再在对应的账户下
hadoop fs -mkdir /user/xxx/ - 这样建立的文件夹就是你的了
PYTHONHASHSEED相关的问题
在启动Spark前添加:1
export SPARK_YARN_USER_ENV=PYTHONHASHSEED=0