当前位置：首页 > 办公技巧 > 正文

pandas办公技巧(Modin，只需一行代码加速你的Pandas)

叁碗诸角
办公技巧
2023-08-07 19:17:48
0

Modin是一个python第三方库，可以通过并行来处理大数据集。它的语法和Pandas非常相似，因其出色的性能，能弥补Pandas在处理大数据上的缺陷。

本文会解释何时该用Modin处理数据，并给出Modin的一些真实案例。

下文内容主要包括：

为什么需要Modin？Modin厉害在哪里？Modin使用方法对比Modin和Pandas对比Modin和其他加速库有何不同？Modin VS VaexModin VS DaskModin VS cuDF

为什么需要Modin？

Pandas是python数据分析最常用的工具库，数据科学领域的大明星。

Pandas受欢迎的原因在于它简洁易用的API，并且集成了Numpy、Matplotlib、Scipy等众多数据科学库，堪称Python SQL Excel的结合体。

但Pandas并不是完美的，大数据是它的软肋。

由于设计原因，Pandas只能在单核上运行，数据处理能力有限。目前大部分计算机虽都是多核CPU，Pandas却心有余而力不足，无法用到多核。

正因为大多人都熟悉了Pandas的语法结构，所以想换一种新的数据分析库并不容易，会增加很多的学习成本。

如果在保留Pandas语法和API的前提下，又能增加大数据处理能力，这将会一个完美的解决方案。

Modin就是这样一个存在。只要你有使用Pandas的经验，就可以轻松上手Modin。

Modin厉害在哪里？

Modin是一个Python第三方库，可以弥补Pandas在大数据处理上的不足，同时能将代码速度提高4倍左右。

Modin以Ray或Dask作为后端运行。

❝

Ray是基于python的并行计算和分布式执行引擎。
Dask是一个高性能并行分析库，帮助Pandas、Numpy处理大规模数据。

❞

那Modin有何特别之处呢？

与pandas不同，Modin能使用计算机中所有的CPU内核，让代码并行计算。

当用4个进程而不是一个进程（如pandas）运行相同的代码时，所花费的时间会显著减少。

Modin的主要特点：

使用DataFrame作为基本数据类型；与Pandas高度兼容，语法相似，几乎不需要额外学习；能处理1MB到1TB 的数据；使用者不需要知道系统有多少内核，也不需要指定如何分配数据；

Modin使用方法

首先要安装Modin，使用pip安装即可。

前面说过，Modin使用Ray或Dask作为后端，在这里我们使用 dask，命令行输入以下代码同时安装Modin和Dask：

pipinstallmodin[dask]

接下来是导入Modin，这是重点。

Modin宣称改一行代码就可以加速pandas，只需将：

importpandasaspd

改为

importmodin.pandasaspd

除了速度更快外，其他要用的的语法、api和Pandas一模一样。

我们来试试分别用Modin和pandas读取200MB的CSV文件，看哪个速度更快。

#使用pandas读取数据importpandasaspdimporttimes=time.time()df=pd.read_csv("test.csv")e=time.time()print("Pandas读取时间={}".format(e-s))#使用Modin读取数据importmodin.pandasaspds=time.time()df=pd.read_csv("test.csv")e=time.time()print("Modin读取时间={}".format(e-s))

Pandas是3.3秒，Modin是1.9秒，速度快了接近1倍。

我的电脑是4核CPU，Modin加载过程中所有内核都被用上了。如果用8核来跑，加载时间更少。

对比Modin和Pandas

read_csv

简单对比了Modin和Pandas读取200M文件后，我们再试下读取1GB的CSV文件有多大差异。

pandas：

#使用pandas读取数据importpandasaspdimporttimes=time.time()df=pd.read_csv("test1.csv")e=time.time()print("Pandas读取时间={}".format(e-s))

输出：

Pandas读取时间 = 11.298792123794556

#使用Modin读取数据importmodin.pandasaspds=time.time()df=pd.read_csv("test1.csv")e=time.time()print("Modin读取时间={}".format(e-s))

输出：

Modin读取时间 = 7.6007184982299805

处理GB级的数据，Modin的优势也是显而易见的，当然处理时间会随计算机的不同有差异。

append()

append在Pandas中用来添加新行，我们来看看Modin和Pandas做append操作时的速度差异。

Pandas:

#使用pandas读取数据，200M文件importpandasaspdimporttimedf_pandas=pd.read_csv("test.csv")s=time.time()result=df_pandas.append(df_pandas)e=time.time()print("Pandasappend时间={}".format(e-s))

输出：

Pandas append时间 = 1.242678165435791

Modin：

#使用Modin读取数据，200M文件importmodin.pandasaspddf_modin=pd.read_csv("test.csv")s=time.time()result=df_modin.append(df_modin)e=time.time()print("Modinappend时间={}".format(e-s))

输出：

Modin append时间 = 0.2613077163696289

Pandas用时1.2秒，Modin用时0.2秒。

Concat()

concat用来拼接多个DataFrame，也来测试一下差异。

Pandas:

#使用pandas读取数据，200M文件importpandasaspdimporttimedf_pandas=pd.read_csv("test.csv")s=time.time()result=pd.concat([df_pandas]*5)e=time.time()print("Pandasconcat时间={}".format(e-s))

输出：

Pandas concat时间 = 3.705094337463379

Modin：

#使用Modin读取数据，200M文件importmodin.pandasaspddf_modin=pd.read_csv("test.csv")s=time.time()result=pd.concat([df_modin]*5)e=time.time()print("Modinconcat时间={}".format(e-s))

输出：

Modin concat时间 = 0.5255951881408691

Pandas用时3.7秒，Modin用时0.5秒。

通过上面3个函数的比较，Modin在使用append、concat等方法上要比Pandas快5倍以上

对比Modin和其他加速库有何不同？

现在有很多库可以实现对Pandas的加速，比如Dask、Vaex、Ray、CuDF等，Modin和这些库对比有什么样的优势呢？

「Modin Vs Vaex」

Modin可以说是Pandas的加速版本，几乎所有功能通用。

Vaex的核心在于惰性加载，类似spark，但它有独立的一套语法，使用起来和Pandas差异很大。

如果你已经写好基于pandas的脚本，只是想加速运行代码，那么Modin是最佳选择。如果你只是想简单统计或可视化大数据集，可以考虑Vaex。

「Modin Vs Dask」

Dask既可以作为Modin的后端引擎，也能单独并行处理DataFrame，提高数据处理速度。

但Dask对Pandas并没有很好的兼容性，没办法像Modin那样，只需改变一行代码，就可以轻松使用Pandas处理大数据集。

「Modin vs. RAPIDS (cuDF)」

RAPIDS加速效果非常好，但它需要有GPU的加持，没有Modin那么便捷。

感谢大家的支持和喜欢，小编会每天分享更多Python学习的干货知识给大家，所以大家别忘了关注小编哦。

更多Python爬虫、数据分析、办公自动化、全栈开发、人工智能学习资@林夕编程关键字【资料】领取

本文由京廊文化根据互联网搜索查询后整理发布，旨在分享有价值的内容，本站为非营利性网站，不参与任何商业性质行为，文章如有侵权请联系删除，部分文章如未署名作者来源请联系我们及时备注，感谢您的支持。
本文链接： /bangong/11022.html

上一篇
adobeillustrator办公技巧(如何用AI提升办公效率？)

下一篇
wifi办公技巧(稳定、高速的无线网络，才能支撑员工高效办公)

pandas办公技巧(Modin，只需一行代码加速你的Pandas)

为什么需要Modin？

Modin厉害在哪里？

Modin使用方法

对比Modin和Pandas

对比Modin和其他加速库有何不同？

网站信息MAX

办公用品名片图片大全（办公用品用什么名字好听）

热门文章

平塘办公用品档案盒厂（档案盒生产厂家批发）

汕尾企业办公用品租赁厂家（汕头办公楼出租）

缓解压力的办公用品清单（缓解压力的礼物）

铁西办公用品（沈阳办公用品店出兑）

办公用品销售管理软件（办公用品管理软件免费版）

汕尾通用办公用品推荐厂家（汕尾日用品批发市场）

湖南品牌办公用品商家排名（湖南办公家具厂家名录）

南昌办公用品（南昌办公用品展会）

阳江全程办公用品定制价格（办公用品生产厂家直销批发联系）

北京办公用品家具（北京办公用品家具城）

最新文章

海南耐用办公用品代理商（海口办公用品批发市场标签）

附近电焊办公用品（附近电焊门市）

广东办公用品租赁方案模板（广东办公用品货源网）

办公用品回收合肥哪里有（合肥二手办公家具回收上门）

哪个网站办公用品便宜好用（哪个网站办公用品便宜好用又实惠）

湖南绿色办公用品价格多少（湖南办公用品批发市场在哪里）

白云区办公用品价格查询（白云区二手办公市场）

苏州环保办公用品定制公司（苏州环保办公用品定制公司地址）

洗手液属于办公用品（洗手液属于办公用品还是劳保用品）

物业公司办公用品算谁的（物业办公用品清单表格）

pandas办公技巧(Modin，只需一行代码加速你的Pandas)

为什么需要Modin？

Modin厉害在哪里？

Modin使用方法

对比Modin和Pandas

对比Modin和其他加速库有何不同？

相关文章

网站信息MAX

办公用品名片图片大全（办公用品用什么名字好听）

热门文章

最新文章