网站首页 > 技术文章 正文
1 说明:
=====
1.1 Vaex:一种具有超级字符串功能的DataFrame Python库。
1.2 一种更快、更安全、更方便的方法,可以使用几乎任意大小的数据进行数据研究分析,适合大数据,比如秒开100G。
1.3 与Pandas(Python生态系统中最受欢迎的DataFrame库)相比,四核笔记本电脑上的字符串操作速度提高了约30-100倍,而32核设备上的字符串操作速度提高了1000倍。
1.4 Vaex使用ApacheArrow数据结构和C++,几乎所有Pandas的字符串操作都受支持,并且内存使用率几乎为零,因为延迟计算是以块的形式完成的。

2 准备:
=====
2.1 官网:
https://github.com/vaexio/vaex #每天都在更新和维护
http://vaex.io/
https://pypi.org/project/vaex/
https://vaex.readthedocs.io/en/latest/
2.2 环境:
华为笔记本电脑、深度deepin-linux操作系统、谷歌浏览器、python3.8和微软vscode编辑器。
2.3 安装:
pip install vaex
#本机安装,国内源
sudo pip3.8 install -i https://mirrors.aliyun.com/pypi/simple vaex
3 打开数据文件方式:
===============
3.1 代码样式:
import vaex
#自带数据集
df = vaex.example() #注意自带数据集,需要安装hdf5
#打开本地:不同文件格式的方法很简单
df1 = vaex.open("somedata.hdf5")
df2 = vaex.open("somedata.fits")
df2 = vaex.open("somedata.arrow")
df4 = vaex.open("somedata.csv")
3.2 hdf5安装:本机deepin-linux操作系统
===============================
3.2.1 官网:
https://support.hdfgroup.org/HDF5/
3.2.2 下载:
https://support.hdfgroup.org/ftp/HDF5/releases/hdf5-1.12/hdf5-1.12.0/src/ #下载源码安装
hdf5 - 1.12.0.tar.gz #下载速度很慢,这是一个坑,可以跳过,不用自带的数据集vaex.example
建议采用终端的:
#-c:断点续传,如果下载中断,那么连接恢复时会从上次断点开始下载。
wget -c https://support.hdfgroup.org/ftp/HDF5/releases/hdf5-1.12/hdf5-1.12.0/src/hdf5-1.12.0.tar.gz
3.2.3 安装:注意本机是deepin-linux操作系统:
sudo mv /home/xgj/hdf5-1.12.0.tar.gz /opt
cd /opt
#xgj@xgj-PC:/opt$
sudo tar -xvf hdf5-1.12.0.tar.gz
cd hdf5-1.12.0/
#xgj@xgj-PC:/opt$ cd hdf5-1.12.0/
#xgj@xgj-PC:/opt/hdf5-1.12.0$
#依次执行
sudo ./configure --prefix=/usr/local/hdf5
sudo make
sudo make check #这一步有点慢
sudo make install
#转换文件夹
cd /usr/local/hdf5/share/hdf5_examples/c
sudo ./run-c-ex.sh
sudo h5cc -o h5_extend h5_extend.c
sudo ./h5_extend
4 读取hdf5数据:
===========
4.1 代码:
#%%
import numpy as np
import vaex as vx
import pylab as plt
#%%
df = vx.open("/home/xgj/Desktop/vaex/io/sample_names_2.hdf5")
df
4.2 图:

5 读取csv数据:
===========
5.1 代码:
#%%
import numpy as np
import vaex as vx
import pylab as plt
#%%
df = vx.open("/home/xgj/Desktop/vaex/gdp_per_capita.csv")
df
5.2 图:

===数据可视化部分基本与pandas类似===
===自己整理并分享出来===
喜欢的人,请点赞、关注、评论、转发和收藏。
- 上一篇: 别说你会用Pandas
- 下一篇: Python里面的self,是谁啊?
猜你喜欢
- 2024-12-19 如何使用Python连接MySQL数据库?
- 2024-12-19 pandas中基于范围条件进行表连接
- 2024-12-19 Python里面的self,是谁啊?
- 2024-12-19 别说你会用Pandas
- 2024-12-19 学思践悟,深学笃行——Python在大数据审计中的应用
- 2024-12-19 Dask库一个神奇处理大数据在python的库
- 05-25Python 3.14 t-string 要来了,它与 f-string 有何不同?
- 05-25Python基础元素语法总结
- 05-25Python中的变量是什么东西?
- 05-25新手常见的python报错及解决方案
- 05-2511-Python变量
- 05-2510个每个人都是需要知道Python问题
- 05-25Python编程:轻松掌握函数定义、类型及其参数传递方式
- 05-25Python基础语法
- 257℃Python短文,Python中的嵌套条件语句(六)
- 257℃python笔记:for循环嵌套。end=""的作用,图形打印
- 256℃PythonNet:实现Python与.Net代码相互调用!
- 251℃Python操作Sqlserver数据库(多库同时异步执行:增删改查)
- 251℃Python实现字符串小写转大写并写入文件
- 106℃原来2025是完美的平方年,一起探索六种平方的算吧
- 90℃Python 和 JavaScript 终于联姻了!PythonMonkey 要火?
- 81℃Ollama v0.4.5-v0.4.7 更新集合:Ollama Python 库改进、新模型支持
- 最近发表
- 标签列表
-
- python中类 (31)
- python 迭代 (34)
- python 小写 (35)
- python怎么输出 (33)
- python 日志 (35)
- python语音 (31)
- python 工程师 (34)
- python3 安装 (31)
- python音乐 (31)
- 安卓 python (32)
- python 小游戏 (32)
- python 安卓 (31)
- python聚类 (34)
- python向量 (31)
- python大全 (31)
- python次方 (33)
- python桌面 (32)
- python总结 (34)
- python浏览器 (32)
- python 请求 (32)
- python 前端 (32)
- python验证码 (33)
- python 题目 (32)
- python 文件写 (33)
- python中的用法 (32)