远程访问pyspark集群的神器工具推荐

释放双眼，带上耳机，听听看~！

本文推荐一款神器工具，可以远程访问pyspark集群，结合了pyspark和notebook的特点，适用于数据分析、spark模型分布式训练等，是算法工程师的利器。

notebook远程访问pyspark集群, 算法工具神器重磅推荐

书接上文，前段时间图算法十篇之图机器学习系列文章总结系列文章中，我们对图算法有了深入浅出的了解，接下来打算开始更新一系列使用 tensorflow 1.x/2.x 动手实现各种经典模型的文章，专门面向小白和经验不那么多的同学，大家可以一起熟悉下整个流程哦～

俗话说的好啊，“工欲善其事，必先利其器”，本文要推荐的这款工具，可以说是算法工程师的神器工具：远程 notebook 跑集群版 pyspark 。如上文所说，这个工具的特点就是 pyspark 和 notebook 相结合, 然后 远程访问 。当然，有同学用了 pyhive 和 notebook 结合也可以访问集群，但是 pyhive 功能简单，只能 查找数据转成本地 pandas，数据大一点就崩溃，还不能灵活进行进行分析。这 pyhive 相对于pyspark 的数据分析能力 与 数据整合能力 简直差了十万八千里。这个工具绝对原创，当时找遍全网也没找到解决办法，自己进行多次尝试终于获得成功，谁用谁知道，强烈推荐！！！

才开始调研这个工具的时候问题主要是卡在 安装好的 notebook 没办法和公司集群进行通信 ，那样实现的就是单机版的 pyspark，毫无意义。本文介绍的这个工具能在 mac 上用 spark 解决问题，且能将数据在 集群和单机之间进行交互 ，既能调用集群资源又能使用指定机器的单机资源，集群和模型数据完全打通 ，别提多爽了！！！

本工具 适用的背景就是：我们可以在自己的电脑上，通过 web 连接 远程公司服务器 上的 notebook(当然需要vpn)，本质是将远程的某台可以访问公司集群的机器作为 driver , 使用 notebook 调用公司的 pyspark集群环境进行 数据分析、spark模型分布式训练、 拉取数据到本地用单机的tensorflow 跑模型 等。最重要的一点是：支持 pyspark 和本机单机python 程序的 实时回显(Read-Eval-Print Loop, REPL)， 数据模型一手抓，集群单机灵活切换，妥妥的算法工作神器！！！

书接上文，本文 原创工具 的 核心思想 就一句话：我们不是在 notebook 上集成 pyspark 环境，而是用将 pyspark 用notebook 来显示，并且允许远程访问web 访问 。

闲言少叙，开始本文的工具介绍吧～

(1) 工具配置流程

如上所述，本工具的核心思想就是：将 pyspark 用 notebook 来显示，并且允许远程Web 访问。

拆解开来，中间涵盖三个步骤： (1) notebook 安装与设置。(2) 允许 notebook 远程访问。 (3) pyspark 用notebook 显示。下面我们分别从这 三个步骤 来介绍吧！

(1.1) notebook 安装与插件设置

我们可以使用 pip安装 notebook ： pip3 install jupyter 。而如果是使用 conda安装 的话，则是： conda install jupyter notebook 。

notebook 的安装非常容易，这里我们不在多说什么，这里介绍一下 notebook 的插件工具 jupyter_contrib_nbextension 吧，可以用它 添加侧边导航栏、程序执行时间显示、耗时显示、任务进度显示、自动代码补全 等功能，感兴趣的可以自己下去调研下，非常好用哦～

对于拓展插件，我们可以使用命令：

@ 欢迎关注作者公众号 算法全栈之路

pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install --user

进行安装，安装完成后 重启Jupyter , 就会发现在 jupyter网址首页上面新增了 Nbextensions 的 tab 栏，如下图所示：
远程访问pyspark集群的神器工具推荐

我们需要先 设置插件工具可用，直接勾选即可。然后假如要添加notebook的侧边栏的话，直接勾选 Table of Contents(2) 即可，其他插件操作同理，页面如下图所示：
远程访问pyspark集群的神器工具推荐

notebook 这个工具，熟悉 python开发的同学大多都用过，我就不在赘述了。

(1.2) 允许 notebook 远程访问

在这里，我们使用 jupyter notebook 原生自带 的 远程访问 功能，方便我们将 notebook 安装在公司可以访问集群的机器上，然后在自己的 mac 上访问调用 spark 集群资源。

第一步：生成默认配置文件

@ 欢迎关注作者公众号 算法全栈之路

jupyter notebook --generate-config ～/.jupyter/jupyter_notebook_config.py

第二步： 生成访问密码(token)

终端输入 ipython，设置你自己的jupyter访问密码，注意复制输出的sha1:xxxxxxxx密码串

@ 欢迎关注作者公众号 算法全栈之路

# ipython 中输入以下命令
from notebook.auth import passwd
passwd()

# 分别输入密码 2次 
# Enter password:
# Verify password:

记得复制返回的字符串, 下面一步用。

第三步：修改./jupyter/jupyter_notebook_config.py 配置文件

修改配置文件中对应行如下

@ 欢迎关注作者公众号 算法全栈之路

c.NotebookApp.ip='*'
c.NotebookApp.password = u'sha:ce...刚才复制的那个密文'
c.NotebookApp.open_browser = False
c.NotebookApp.port =8080 #可自行指定一个端口, 访问时使用该端口

第四步： 在服务器上启动jupyter notebook , 然后在远程输入密码访问

notebook 启动命令： jupyter notebook

最后在自己mac上浏览器里输入： http://ip:8080 即可。这里的ip 是你 公司可以访问集群的那台服务器的ip, 可能需要vpn，根据你实际情况而定。

到这里，你的服务端notebook 已经安装好了，并且可以远程在自己mac上访问了。

（1.3） pyspark 用 notebook 显示

大家都知道，我们在公司里使用 spark, 无论是 spark-submit 还是 pyspark 命令的 二进制文件 , 均是在 spark安装包的 bin目录 里。通常情况下，我们肯定是可以在 服务器上执行 spark-submit 或者 pyspark 命令的，这样就保证了我们 spark环境和集群肯定是通着的 ( 如果不能，需要先将 pyspark在服务器上本地调通可用)。

而我们也知道，执行 pyspark 命令之后，默认打开的是 ipython REPL 终端。说到这里就明白了吧，我们只要 替换 ipython 成我们刚才已经设定好的允许访问公司服务器的 notebook 来显示 即可！！！而无需再去自己花功夫将 notebook 和 spark集群通信进行适配，简直 perfect !!!

而 替换 pyspark 终端显示 ，仅仅只需要下面这条命令：

@ 欢迎关注作者公众号 算法全栈之路

PYSPARK_PYTHON=python3.7 PYSPARK_DRIVER_PYTHON=python3.7 PYSPARK_DRIVER_PYTHON_OPTS=“/home/miniconda3/envs/pyspark_env/bin/jupyter notebook --no-browser --port=8080 --profile=sfhzgo”  /home/bigdata_env/spark/bin/pyspark  --spark-version 2.4.5-staging   --queue ad_queue_name   --master yarn   --deploy-mode client   --driver-memory 80g   --driver-cores 2   --executor-memory 8g   --executor-cores 2   --num-executors 30  --conf spark.sql.catalogImplementation=hive   --conf spark.yarn.priority=VERY_HIGH   --conf spark.driver.maxResultSize=200G

命令比较长，中间的代码非常好理解，注意替换你自己机器上的配置路径。

其中： PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 是你 服务器上 可以使用pyspark 的时候的 python版本，而 PYSPARK_DRIVER_PYTHON_OPTS 则是设定你用自己的 notebook 替换 pyspark 机器 ipython终端显示 的过程，最后面的代码则是常规的启动 pyspark 的过程了。

如果在最后这里没办法启动成功，首先可以检查下你公司服务器上的 pyspark 在服务器机器上是否可以完美运行，大概率出问题也是出自这里 。毕竟很多人用 spark 仅仅用 spark-submit 提交scala / java / python 版本的spark 任务，而没有尝试过用 pyspark 这个二进制命令行。

其中，你们自己公司 pyspark 支持的 python 版本和你服务器上 python版本是否对齐兼容 ，也是有 隐藏的坑 在里面。多花点儿时间把工具和环境调通吧，回报是非常值得的～

最后，工具搭建成功了，使用起来长这个样子：
远程访问pyspark集群的神器工具推荐

一般来说，我们可以使用下面的代码得到界面上的 spark 实例对象：

@ 欢迎关注作者公众号 算法全栈之路

import os
import sys
import findspark
findspark.init()
import os.path as path
import importlib

from pyspark import StorageLevel
from pyspark.sql import SparkSession
from pyspark.sql.types import *
from py4j.protocol import Py4JJavaError
from pyspark.sql import functions as fun
from pyspark.sql.functions import col
from pyspark.sql import HiveContext
from pyspark.sql.functions import *
from pyspark.sql.functions import lit

import warnings 
warnings.filterwarnings("ignore")
# spark config setup
spark = SparkSession.builder.appName("pyspark-app") 
    .config("spark.submit.deployMode", "client")
    .config('spark.yarn.queue', 'idm-prod')
    .config("fs.defaultFS", "hdfs://warehousestore") 
    .config("spark.kryoserializer.buffer.max", "1024m") 
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") 
    .config("hive.exec.dynamic.partition.mode", "nonstrict") 
    .enableHiveSupport()
    .getOrCreate()

sc = spark.sparkContext
sc.setLogLevel("ERROR")

print("driver_python_path:" + str(os.environ.get("PYSPARK_DRIVER_PYTHON")))
print("worker_python_path:" + str(os.environ.get("PYSPARK_PYTHON")))

最后我们可以在自己的mac 笔记本上使用 pyspark 连接公司的集群进行数据分析与数据拉取操作，例如我们可以使用 spark.sql() 方法读取 hive表，或则 读取 hdfs 上 parquet文件，就像下面这样：
远程访问pyspark集群的神器工具推荐

我们也可以将 spark dataframe 数据拉取到服务器 driver 上，进行 单机版的数据分析与模型训练 。其中 spark dataframe 可以转化为 pandas dataframe , 我们可以使用下面的语句来进行转化:

pandas_pdf=spark_df.toPandas()

有了 单机版的pandas dataframe ，那通常 python 能干的，我们都可以干。

当然，我们也可以将 python 的 dataframe 转成 spark的 dataframe , 使用下面的语句即可：

@ 欢迎关注作者公众号 算法全栈之路

pdf_values=pandas_pdf.values.tolist()
pdf_columns=pandas_pdf.columns.tolist()
selected_feas_result_df = spark.createDataFrame(pdf_values,pdf_columns).persist(StorageLevel.MEMORY_AND_DISK)

按照流程设置完成，则 集群数据和单机模型链路完全打通。 so , 广阔天地，大有作为吧

到这里， notebook远程访问pyspark集群, 算法工具神器重磅推荐 的全文就写完了。这个工具对于算法工程师的 算法实验 和 工作成果演示都是非常有意义的，可视化 everything，希望可以对你有参考作用～

码字不易，觉得有收获就动动小手转载一下吧，你的支持是我写下去的最大动力～

更多更全更新内容，欢迎关注作者的公众号：算法全栈之路

远程访问pyspark集群的神器工具推荐

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

远程访问pyspark集群的神器工具推荐

(1) 工具配置流程

(1.1) notebook 安装与插件设置

(1.2) 允许 notebook 远程访问

（1.3） pyspark 用 notebook 显示

激活函数对神经网络的必要性及常见激活函数原理分析

DCGAN简介及人脸图像生成案例

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

(1) 工具配置流程

(1.1) notebook 安装 与 插件设置

(1.2) 允许 notebook 远程访问

（1.3） pyspark 用 notebook 显示

激活函数对神经网络的必要性及常见激活函数原理分析

DCGAN简介及人脸图像生成案例

华为云VSCode一键接入Notebook体验算法套件快速完成水表读数

GPT原理与使用技巧

如何选择ChatGPT API方式？比较ChatGPT API和ChatGPT Unofficial ProxyAPI

Meta发布Llama 2开源大动作，AI领域再次掀起风暴

(1.1) notebook 安装与插件设置