GitHub热榜｜5款优质的Python小工具，最后一款真神器！

技术2022-07-12 98

有过代码经历的人，GitHub或多或少的都使用过。GitHub是一个面向开源项目的托管平台，因为只支持 Git 作为唯一的版本库格式进行托管，故名 GitHub。目前，其注册用户已经超过350万，托管版本数量也是非常之多，其中不乏知名开源项目Ruby on Rails、jQuery、python等。

今天小编为大家推荐GitHub上5个优质的Python项目，它们分别是：

bamboolibfakerdablProxyPoolhelium

话不多说，下面分别来介绍一下上述5个GitHub项目。

bamboolib

bamboolib是使得DataFrames数据分析变得更加容易的一款Python库。做数据相关工作的同学，对pandas肯定不会陌生。它很强大，甚至对于很多Python开发者具备着不可替代的位置，但是对于初学者却有时候让人难以理解。

bamboolib使得pandas DataFrames数据分析变得更加简单容易，在以往需要上百行完成的工作，在bamboolib中只需要简短的一行即可。

通过bamboolib的使用，它可以提升你的工作效率，减少在无价值的事情上浪费过多精力。安装

下面分别是本地、jupyter notebook、jupyterLab中安装的方法

pip install bamboolib # Jupyter Notebook extensions python -m bamboolib install_nbextensions # JupyterLab extensions python -m bamboolib install_labextensions

faker

faker是一款用于生成伪造数据的Python小工具。造数据，在开发过程中至关重要，尤其是在企业项目中，很多数据会涉及到敏感信息，很难获取到客户数据。这时候，如果要进行功能的开发和测试，就需要自己想办法造数据。

造数据是一件非常令人头疼的事情，如果让你造一条地址信息，可能会脱口而出。那如果让造10000条数据呢？这就是一个即耗脑力，又耗体力的活。

faker就可以一行代码实现数据的生成。它可以根据不同的参数生成不同语言、不同类型的数据。

安装

可以直接使用pip命令进行安装

pip install Faker

生成数据

from faker import Faker fake = Faker(['it_IT', 'en_US', 'ja_JP']) for _ in range(10): print(fake.name())

dabl

dabl是一款数据分析基准库。这个项目试图使监督机器学习对于初学者变的更容易，并减少见任务的复杂度。例如，利用dabl进行分类的一个示例

import dabl from sklearn.model_selection import train_test_split from sklearn.datasets import load_digits X, y = load_digits(return_X_y=True) X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1) sc = dabl.SimpleClassifier().fit(X_train, y_train) Running ... print("Accuracy score", sc.score(X_test, y_test)) Accuracy score 0.9...

就这样简单的几行代码，几秒钟的时间内既可以获得分类结果。

其实，dabl的最大优点并不在于机器学习，而是在于为数据探索提供了简单的接口。下面是一个简单地通过调用plot(X, y)生成的可视化示例:

ProxyPool

ProxyPool是一款高效的代理池工具。我们在很多工作场景下会用到代理，例如，一个比较典型的场景：爬虫。通过这些代理，我们可以解决针对不同网站的请求问题，但是，有些代理是收费的，有些是免费的，当需要到用到免费代理时却无从下手。

ProxyPool提供了免费高效的代理池，它具有如下特点：

定时抓取免费代理网站，简易可扩展。使用 Redis 对代理进行存储并对代理可用性进行排序。定时测试和筛选，剔除不可用代理，留下可用代理。提供代理 API，随机取用测试通过的可用代理。

安装依赖包

使用ProxyPool之前首先需要安装依赖包

pip3 install -r requirements.txt

运行代理池

ProxyPool提供Tester、Getter、Server三种方法，可以单独运行，也可以全部运行。全部运行，命令如下

python3 run.py

单独运行，命令如下

python3 run.py --processor getter python3 run.py --processor tester python3 run.py --processor server

helium

终于到了本文要重点介绍这款神器:helium。

helium是一款基于 Selenium实现的网页自动化工具，它能够解放你的双手，让你实现日常各种网页的使用。

废话不多说，来先看一个示例，应该就明白它到底是干什么用的。

from helium import * start_chrome('google.com') write('helium selenium github') press(ENTER) click('mherrmann/helium') go_to('github.com/login') write('username', into='Username') write('password', into='Password') click('Sign in') kill_browser()

看一下具体的演示启动浏览器、与浏览器交互、查找相关元素、等待元素出现…，其中，较为常用的就是启动浏览器和浏览器交互。

helium能够输入内容、敲击键盘、点击按钮、跳转、关闭等各种我们日常访问网页时常用的操作。也许看到这里很多同学还是认为，这有什么用啊？

举个例子，假如日常的工作就是在网站填写表格或者处理订单等重复性的工作，那么就可以写一个脚本，然后循环同样一个动作，自己就不用动手操作了。

我觉得这个还可以发散一下思维，例如:

批量下载音乐批量下载电影、电视剧下载图片快速填单便捷访问日常网址