程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

python大数据分析离线开发环境的配置

hfteth 2024-12-14 10:09:05 技术文章 16 ℃

对于新手来说,大数据分析的离线环境的配置和安装还是有一些难度的,网上有一些博客写了,但是也比较简洁,没有一个完整的环境的搭建过程,因此写下来分享给大家使用。


前置工作:

首先需要现在一台可以联网的服务器上面安装anaconda3,pyspark包等。

step1 :安装anaconda3,下载anaconda3的安装包,执行以下命令:

bash Anaconda3-5.3.1-Linux-x86_64.sh

设置安装路径为 /usr/local/anaconda3/

* 完成之后获取安装列表r1.txt: pip freeze>r1.txt

step2 :bash_profile中新增路径'

vi ~/.bash_profile

PATH=/usr/local/anaconda3/bin:$PATH

export PATH

step3 使配置生效

. ~/.bash_profile


以上是安装和配置anaconda3,anaconda3是python大数据分析和算法的一个全家桶。这里不做详细介绍,感兴趣的可以百度一下。


step4 安装pyspark

/usr/local/anaconda3/pip install pyspark

*完成之后重新获取安装列表r2.txt: pip freeze>r2.txt

step5 下载pyspark离线安装包:

1 比较r1.txt和r2.txt 安装包的差异 diff r1.txt r2.txt,生成r3

2 下载pyspark的离线安装包和 依赖包。

执行:pip download -r r3.txt,把下载好的安装包打包site.tar。


执行完以上步骤之后,我们就可以进行离线服务器安装了。

安装anaconda3的步骤跟上面的一模一样。

离线安装pyspark跟在线安装pysaprk有一些差别:离线安装的话就不能使用pip install+包名 直接安装了,需要先在现在环境下下载好离线安装包(打包成site.tar ),把安装包上传到离线环境的服务器,再去离线安装执行以下命令:

/usr/local/anaconda3/bin/pip install --no-index --find-links=./site -r ./site/r3.txt

执行完这些操作之后,python的大数据分析开发环境就安装完毕了。这里面的核心是如何使用pip download 生成离线安装包,以及使用pip install 如何离线安装需要用的开发包。各位同学学会了吗?

最近发表
标签列表