分享web前端8款最主流的HTML5开发工具

家好，请允许我做一个尴尬而又不失礼貌的微笑^_^，今天小编就来盘点一下当下主流的html 5 开发工具。

1：HBuilder

小编引用一下他们的slogan：飞速编码的极客工具，手指爽，眼睛爽。

小编先好好介绍一下它：

内置emmet：tab一下生成一串代码
无死角提示：除了语法，还能提示ID、Class、图片、链接、字体
多语言支持：php、jsp、ruby、python、nodejs等web语言，less、coffee等编译型语言均支持
实时预览，一边敲一边看
超级全的与法库
转到定义和一键搜索

2：Animatron

小伙伴们，这是一个在线工具，但是功能的确很强大并且还简单。随意设计和发布，所见即所得，不用编码。有没有很方便呢？

将工程保存到云端，随时随地访问，真的不要再方便。

3：JetBrains WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。

特点：

智能的代码补全
代码格式化
html提示
联想查询
代码重构
代码检查和快速修复
代码调试
代码结构浏览
代码折叠
包裹或者去掉外围代码

4：Sencha Architect

Sencha Architect 2是个可视化的应用构建器，它使用Sencha Touch 2来构建移动应用，使用ExtJS 4来构建桌面应用。

特点：

1、通过拖拽组件来创建富用户界面并连接到后端的数据源。
2、支持通过Sencha Touch 2来构建移动Web应用以及通过Ext JS 4来构建桌面Web应用。其提供的代码编辑功能可以在Sencha Architect中创建整个应用。
3、支持模型--视图--控制器模式。内置的针对iOS与Android的一键式原生打包功能。

5：Adobe Edge

Adobe Edge是adobe公司的一款新型网页互动工具。

Adobe Edge的目的是帮助专业设计师制作网页动画乃至简单游戏。该工具的重点放在动画引擎上，但adobe承诺将增加更多HTML5功能，比如Canvas、HTML5音频/视频标签等。支持Android、iOS、webOS、黑莓PlayBook、Firefox、Chrome、Safari和IE9等各个平台。Adobe于2014年正式推出Adobe Edge AnimateCC集成了hml5、js、css的开发工具。

Adobe对于我们来讲，真的再熟悉不过了。

有人说，Edge是不是要代替flash，哦，不。Edge只是为网页设计人员提供了一种工具，帮助他们在不支持Flash的设备(比如苹果iOS设备)上制作网络动画。

Ps：如今的flash，不用怕被谁代替，因为它会慢慢成为历史。

6：Adobe Dreamweaver

这款神一样的软件，小编就不做介绍啦。

7：Visual Studio Code

VSCode 好多小伙伴在评论区推荐，小便漏掉了，现在补上。

Microsoft在2015年4月30日Build 开发者大会上正式宣布了 Visual Studio Code 项目：一个运行于 Mac OS X、Windows和 Linux 之上的，针对于编写现代 Web 和云应用的跨平台源代码编辑器。

8、Sublime Text

Sublime Text 是一个代码编辑器（Sublime Text 2是收费软件，但可以无限期试用），也是HTML和散文先进的文本编辑器。Sublime Text是由程序员Jon Skinner于2008年1月份所开发出来，它最初被设计为一个具有丰富扩展功能的Vim。

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

快在留言区告诉小编，你都在用什么软件开发HTML5呢？一起交流学习吧！

Beautifulsoup模块介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4

入门Python其实很容易，但是我们要去坚持学习，每一天坚持很困难，我相信很多人学了一个星期就放弃了，为什么呢？其实没有好的学习资料给你去学习，你们是很难坚持的，这是小编收集的Python入门学习资料关注，转发，私信小编“01”，即可免费领取！希望对你们有帮助

#安装 Beautiful Soup
pip install beautifulsoup4

#安装解析器
Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml:

$ apt-get install Python-lxml

$ easy_install lxml

$ pip install lxml

另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

$ apt-get install Python-html5lib

$ easy_install html5lib

$ pip install html5lib

下表列出了主要的解析器,以及它们的优缺点,官网推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定.

中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

注意：

'''
注意: 使用bs4，必须先选择 “解析器”
'''
from bs4 import BeautifulSoup

#  markup="": 传入解析文本
# BeautifulSoup('解析文本内容', '解析器')
# python自带的解析器 html.parser
# BeautifulSoup('<a>蔡徐坤打篮球真厉害，还会唱歌，跳舞，Rap!!!!</a>', 'html.parser')

# lxml: pip3 install lxml   第三方的解析库(推荐使用)
# soup = BeautifulSoup('<a>蔡徐坤打篮球真厉害，还会唱歌，跳舞，Rap!!!!</a>', 'lxml')
# print(soup)
# print(type(soup))

二、基本使用

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a id="tank" href="http://example.com/tank">蔡徐坤打篮球真厉害，还会唱歌，跳舞，Rap!!!!</a>
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

#基本使用：容错处理,文档的容错能力指的是在html代码不完整的情况下,使用该模块可以识别该错误。使用BeautifulSoup解析上述代码,能够得到一个 BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出
soup = BeautifulSoup(html_doc, 'lxml')
print(soup)
# html文本美化   了解
print(soup.prettify())

三、遍历文档树

遍历文档树：即直接通过标签名字选择，特点是选择速度快，但如果存在多个相同的标签则只返回第一个

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a id="cxk" href="http://example.com/cxk">蔡徐坤打篮球真厉害，还会唱歌，跳舞，Rap!!!!</a>
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'lxml')


# 基本用法
# 1、直接.标签名 （*******）
print(soup)
print(soup.head)
print(soup.a)  # 返回第一个a标签

# 2、获取标签的名称  了解
print(soup.p.name)

# 3、获取标签的属性 (*********)
print(soup.a.attrs)   # 第一个a标签的所有属性
print(type(soup.a.attrs))  # 返回所有标签属性的类型 dict
print(soup.a.attrs.get('id')) # dict类型可以get取值
print(soup.a.attrs.get('href'))

# 4、获取标签的文本内容
# 获取第一个a标签中的文本内容
print(soup.a.text)

# 5、嵌套选择
# xml
'''
<info>  # 父标签
    <name>cxk</name>
    <gf>刘亦菲</gf>
</info>
'''
print(soup.prettify())
print(type(soup.html))  # 可以嵌套选择。
print(type(soup.html.head.title))
print(soup.html.head.title)

# 6、子节点、子孙节点
print(soup)  # 注意: 换行符也算一个 节点
print(soup.body.contents)  # body下所有子节点，返回的是一个列表
print(len(soup.body.contents))  # body下所有子节点

# 优先使用children
print(soup.body.children)  # 得到一个迭代器,包含p下所有子节点
print(list(soup.body.children))  # 得到一个迭代器,包含p下所有子节点
for children in soup.body.children:
    print(children)
    
# 7、父节点、祖先节点
# print(soup)
# print(soup.a.parent)  # 获取a标签的父节点
print(soup.a.parents)  # 找到a标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲...  它也是一个迭代器
print(list(soup.a.parents))  # 找到a标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲...
print(len(list(soup.a.parents)))  # 4

# 8、兄弟节点
# print(soup)
# print('=====>')
print(soup.a.next_sibling)  # 下一个兄弟
print(soup.a.previous_sibling)  # 上一个兄弟


print(list(soup.a.next_siblings)) # 下面的兄弟们(下面的所有兄弟)=>生成器对象
print(len(list(soup.a.next_siblings)))  # 7 内容也算是
print(soup.a.previous_siblings)  # 上面的兄弟们=>生成器对象
print(list(soup.a.previous_siblings))  # 上面的兄弟们=>生成器对象

四、搜索文档树之五种过滤器

标签查找与属性查找:

- 根据标签查找属性:
        # 查找第一个标签
        - soup.find(
            name 属性匹配
            attrs 属性查找匹配
            text 文本匹配
        )
         - 查找第一个a标签
             # 根据name中的字符串，与attrs中class属性值匹配对应的第一个a标签
           soup.find(
                  name='a',
                  attrs={'class': '属性值'}
                )

        # 查找所有标签
        - soup.find_all()

find_all( name , attrs , recursive , text , **kwargs )

#2、find_all( name , attrs , recursive , text , **kwargs )
#2.1、name: 搜索name参数的值可以使任一类型的 过滤器 ,字符窜,正则表达式,列表,方法或是 True .
print(soup.find_all(name=re.compile('^t')))

#2.2、keyword: key=value的形式，value可以是过滤器：字符串 , 正则表达式 , 列表, True .
print(soup.find_all(id=re.compile('my')))
print(soup.find_all(href=re.compile('lacie'),id=re.compile('\d'))) #注意类要用class_
print(soup.find_all(id=True)) #查找有id属性的标签

# 有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性:
data_soup = BeautifulSoup('<div data-foo="value">foo!</div>','lxml')
# data_soup.find_all(data-foo="value") #报错：SyntaxError: keyword can't be an expression
# 但是可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag:
print(data_soup.find_all(attrs={"data-foo": "value"}))
# [<div data-foo="value">foo!</div>]

#2.3、按照类名查找，注意关键字是class_，class_=value,value可以是五种选择器之一
print(soup.find_all('a',class_='sister')) #查找类为sister的a标签
print(soup.find_all('a',class_='sister ssss')) #查找类为sister和sss的a标签，顺序错误也匹配不成功
print(soup.find_all(class_=re.compile('^sis'))) #查找类为sister的所有标签

#2.4、attrs
print(soup.find_all('p',attrs={'class':'story'}))

#2.5、text: 值可以是：字符，列表，True，正则
print(soup.find_all(text='Elsie'))
print(soup.find_all('a',text='Elsie'))

#2.6、limit参数:如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果
print(soup.find_all('a',limit=2))

#2.7、recursive:调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .
print(soup.html.find_all('a'))
print(soup.html.find_all('a',recursive=False))

'''
像调用 find_all() 一样调用tag
find_all() 几乎是Beautiful Soup中最常用的搜索方法,所以我们定义了它的简写方法. BeautifulSoup 对象和 tag 对象可以被当作一个方法来使用,这个方法的执行结果与调用这个对象的 find_all() 方法相同,下面两行代码是等价的:
soup.find_all("a")
soup("a")
这两行代码也是等价的:
soup.title.find_all(text=True)
soup.title(text=True)
'''

find( name , attrs , recursive , text ,kwargs )

#3、find( name , attrs , recursive , text , **kwargs )
find_all() 方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个<body>标签,那么使用 find_all() 方法来查找<body>标签就不太合适, 使用 find_all 方法并设置 limit=1 参数不如直接使用 find() 方法.下面两行代码是等价的:

soup.find_all('title', limit=1)
# [<title>The Dormouse's story</title>]
soup.find('title')
# <title>The Dormouse's story</title>

唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果.
find_all() 方法没有找到目标是返回空列表, find() 方法找不到目标时,返回 None .
print(soup.find("nosuchtag"))
# None

soup.head.title 是 tag的名字 方法的简写.这个简写的原理就是多次调用当前tag的 find() 方法:

soup.head.title
# <title>The Dormouse's story</title>
soup.find("head").find("title")
# <title>The Dormouse's story</title>

五种过滤器：

- 字符串过滤器   字符串全局匹配
            - name = 'p'
            name 属性匹配
            attrs 属性查找匹配
            text 文本匹配

        - 正则过滤器

            re模块匹配
            - name = re.compile()
            name 属性匹配
            attrs 属性查找匹配
            text 文本匹配

        - 列表过滤器
            列表内的数据匹配

            - name = ['tank', 100]
            name 属性匹配
            attrs 属性查找匹配
            text 文本匹配

        - bool过滤器
            True匹配
            - name = True
            name 属性匹配
            attrs 属性查找匹配
            text 文本匹配

        - 方法过滤器
            用于一些要的属性以及不需要的属性查找。
            - name = func()
            name 属性匹配
            attrs 属性查找匹配
            text 文本匹配

    属性:
        - class_
        - id

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a id="cxk" href="http://example.com/cxk">蔡徐坤打篮球真厉害，还会唱歌，跳舞，Rap!!!!</a>
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

soup = BeautifulSoup(html_doc, 'lxml')

字符串过滤器

# 根据name查找节点标签
a_tag = soup.find(name='a')  # 查找的是第一个a标签
print(a_tag)

# 根据attrs属性查找节点标签
a_tag = soup.find(attrs={"id": "cxk"}) # id=cxk
print(a_tag)

# 根据文本找节点
a_tag = soup.find(text="The Dormouse's story")
print(a_tag)

# name与attrs配合使用
res = soup.find(name='a', attrs={'id': 'link3'})
res = soup.find(name='a', attrs={'id': 'link3'}, text='Tillie')
print(res)

正则过滤器

import re
# # print(soup)
# # 查找class属性值中包含 s的节点  # 选择第一个
res = soup.find(attrs={'class': re.compile('s')})
# # 查找标签名字中包含a的节点  # 选择第一个
res = soup.find(name=re.compile('a'))
print(res)

列表过滤器

# print(soup)
# 获取第一个a标签 或 者p标签的节点
res = soup.find(name=['a', 'p'])
print(res)

# 获取所有的a标签与p标签的节点
res = soup.find_all(name=['a', 'p'])
print(res)

bool过滤器（了解）

print(soup.find_all(True))  # 获取所有为真的标签
for tag in soup.find_all(True):
    print(tag.name)

方法过滤器

# 函数用于判断节点中有class没有id的节点，并将该节点返回
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

print(soup.find_all(has_class_but_no_id))

CSS过滤器

print(soup.select('#cxk'))  # 查找id为cxk的节点
print(soup.select('.story')) # 查找类为story的节点

五修改文档树

链接：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id40

六总结

三方库可以在这里查询：https://pypi.org/

目前已经有成千上万的三方库可供选择，这个也是python魅力吸引人的地方，有许许多多的轮子，不必每个东西都自己造轮子，可以选择合适的三方库用在项目中会变得事半功倍。如下图就是python官方网站上查询三方库的界面，看这个数字就知道这是一门具有浓重的有历史气息的语言。

安装第三方模块

在Python中，安装第三方模块，是通过setuptools这个工具完成的。Python有两个封装了setuptools的包管理工具：easy_install和pip。目前官方推荐使用pip。

现在，让我们来安装一个第三方库——Python Imaging Library，这是Python下非常强大的处理图像的工具库。一般来说，第三方库都会在Python官方的pypi.python.org网站注册，要安装一个第三方库，必须先知道该库的名称，可以在官网或者pypi上搜索，比如Python Imaging Library的名称叫PIL，因此，安装Python Imaging Library的命令就是：

pip install PIL

耐心等待下载并安装后，就可以使用PIL了。

有了PIL，处理图片易如反掌。随便找个图片生成缩略图：

>>> import Image
>>> im = Image.open('test.png')
>>> print im.format, im.size, im.mode
PNG (400, 300) RGB
>>> im.thumbnail((200, 100))
>>> im.save('thumb.jpg', 'JPEG')

模块搜索路径

默认情况下，Python解释器会搜索当前目录、所有已安装的内置模块和第三方模块，搜索路径存放在sys模块的path变量中：

>>> import sys
>>> sys.path
['', '/Library/Python/2.7/site-packages/pycrypto-2.6.1-py2.7-macosx-10.9-intel.egg', '/Library/Python/2.7/site-packages/PIL-1.1.7-py2.7-macosx-10.9-intel.egg', …]

注意：通过pip安装的第三方库，一般都在python安装路径下的site-packages目录

如果我们要添加自己的搜索目录，有两种方法：

一是直接修改sys.path，添加要搜索的目录：

>>> import sys
>>> sys.path.append('/Users/michael/my_py_scripts')

这种方法是在运行时修改，运行结束后失效。

第二种方法是设置环境变量PYTHONPATH，该环境变量的内容会被自动添加到模块搜索路径中。设置方式与设置Path环境变量类似。注意只需要添加你自己的搜索路径，Python自己本身的搜索路径不受影响。

第三方库分类：

网络爬虫

功能齐全的爬虫框架

grab – 网络爬虫框架（基于pycurl/multicur）。
scrapy – 网络爬虫框架（基于twisted），不支持Python3。 pyspider – 一个强大的爬虫系统。 cola – 一个分布式爬虫框架。

其他

portia – 基于Scrapy的可视化爬虫。 restkit – Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源，并围绕它建立的对象。 demiurge – 基于PyQuery的爬虫微框架。

HTML/XML解析器

通用

lxml – C语言编写高效HTML/ XML处理库。支持XPath。
cssselect – 解析DOM树和CSS选择器。
pyquery – 解析DOM树和jQuery选择器。
BeautifulSoup – 低效HTML/ XML处理库，纯Python实现。
html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM。该规范被用在现在所有的浏览器上。
feedparser – 解析RSS/ATOM feeds。
MarkupSafe – 为XML/HTML/XHTML提供了安全转义的字符串。
xmltodict – 一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。
xhtml2pdf – 将HTML/CSS转换为PDF。
untangle – 轻松实现将XML文件转换为Python对象。

清理

Bleach – 清理HTML（需要html5lib）。
sanitize – 为混乱的数据世界带来清明。

文本处理

用于解析和操作简单文本的库。

通用

difflib – （Python标准库）帮助进行差异化比较。

Levenshtein – 快速计算Levenshtein距离和字符串相似度。

fuzzywuzzy – 模糊字符串匹配。

esmre – 正则表达式加速器。

ftfy – 自动整理Unicode文本，减少碎片化。

转换

unidecode – 将Unicode文本转为ASCII。

字符编码

uniout – 打印可读字符，而不是被转义的字符串。

chardet – 兼容 Python的2/3的字符编码器。

xpinyin – 一个将中国汉字转为拼音的库。

pangu.py – 格式化文本中CJK和字母数字的间距。

Slug化

awesome-slugify – 一个可以保留unicode的Python slugify库。

python-slugify – 一个可以将Unicode转为ASCII的Python slugify库。

unicode-slugify – 一个可以将生成Unicode slugs的工具。

pytils – 处理俄语字符串的简单工具（包括pytils.translit.slugify）。

通用解析器

PLY – lex和yacc解析工具的Python实现。

pyparsing – 一个通用框架的生成语法分析器。

人的名字

python-nameparser -解析人的名字的组件。

电话号码

phonenumbers -解析，格式化，存储和验证国际电话号码。

用户代理字符串

python-user-agents – 浏览器用户代理的解析器。

HTTP Agent Parser – Python的HTTP代理分析器。

特定格式文件处理

解析和处理特定文本格式的库。

通用

tablib – 一个把数据导出为XLS、CSV、JSON、YAML等格式的模块。

textract – 从各种文件中提取文本，比如 Word、PowerPoint、PDF等。

messytables – 解析混乱的表格数据的工具。

rows – 一个常用数据接口，支持的格式很多（目前支持CSV，HTML，XLS，TXT – 将来还会提供更多！）。

Office

python-docx – 读取，查询和修改的Microsoft Word2007/2008的docx文件。

xlwt / xlrd – 从Excel文件读取写入数据和格式信息。

XlsxWriter – 一个创建Excel.xlsx文件的Python模块。

xlwings – 一个BSD许可的库，可以很容易地在Excel中调用Python，反之亦然。

openpyxl – 一个用于读取和写入的Excel2010 XLSX/ XLSM/ xltx/ XLTM文件的库。

Marmir – 提取Python数据结构并将其转换为电子表格。

PDF

PDFMiner – 一个从PDF文档中提取信息的工具。

PyPDF2 – 一个能够分割、合并和转换PDF页面的库。

ReportLab – 允许快速创建丰富的PDF文档。

pdftables – 直接从PDF文件中提取表格。

Markdown

Python-Markdown – 一个用Python实现的John Gruber的Markdown。

Mistune – 速度最快，功能全面的Markdown纯Python解析器。

markdown2 – 一个完全用Python实现的快速的Markdown。

YAML

PyYAML – 一个Python的YAML解析器。

CSS

cssutils – 一个Python的CSS库。

ATOM/RSS

feedparser – 通用的feed解析器。

SQL

sqlparse – 一个非验证的SQL语句分析器。

HTTP

HTTP

http-parser – C语言实现的HTTP请求/响应消息解析器。

微格式

opengraph – 一个用来解析Open Graph协议标签的Python模块。

可移植的执行体

pefile – 一个多平台的用于解析和处理可移植执行体（即PE）文件的模块。

PSD

psd-tools – 将Adobe Photoshop PSD（即PE）文件读取到Python数据结构。

自然语言处理

处理人类语言问题的库。

NLTK -编写Python程序来处理人类语言数据的最好平台。

Pattern – Python的网络挖掘模块。他有自然语言处理工具，机器学习以及其它。

TextBlob – 为深入自然语言处理任务提供了一致的API。是基于NLTK以及Pattern的巨人之肩上发展的。

jieba – 中文分词工具。

SnowNLP – 中文文本处理库。

loso – 另一个中文分词库。

genius – 基于条件随机域的中文分词。

langid.py – 独立的语言识别系统。

Korean – 一个韩文形态库。

pymorphy2 – 俄语形态分析器（词性标注+词形变化引擎）。

PyPLN – 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库。

浏览器自动化与仿真

selenium – 自动化真正的浏览器（Chrome浏览器，火狐浏览器，Opera浏览器，IE浏览器）。

Ghost.py – 对PyQt的webkit的封装（需要PyQT）。

Spynner – 对PyQt的webkit的封装（需要PyQT）。

Splinter – 通用API浏览器模拟器（selenium web驱动，Django客户端，Zope）。

多重处理

threading – Python标准库的线程运行。对于I/O密集型任务很有效。对于CPU绑定的任务没用，因为python GIL。

multiprocessing – 标准的Python库运行多进程。

celery – 基于分布式消息传递的异步任务队列/作业队列。

concurrent-futures – concurrent-futures 模块为调用异步执行提供了一个高层次的接口。

异步

异步网络编程库

asyncio – （在Python 3.4 +版本以上的 Python标准库）异步I/O，时间循环，协同程序和任务。

Twisted – 基于事件驱动的网络引擎框架。

Tornado – 一个网络框架和异步网络库。

pulsar – Python事件驱动的并发框架。

diesel – Python的基于绿色事件的I/O框架。

gevent – 一个使用greenlet 的基于协程的Python网络库。

eventlet – 有WSGI支持的异步框架。

Tomorrow – 异步代码的奇妙的修饰语法。

队列

celery – 基于分布式消息传递的异步任务队列/作业队列。

huey – 小型多线程任务队列。

mrq – Mr. Queue – 使用redis & Gevent 的Python分布式工作任务队列。

RQ – 基于Redis的轻量级任务队列管理器。

simpleq – 一个简单的，可无限扩展，基于Amazon SQS的队列。

python-gearman – Gearman的Python API。

网址和网络地址操作

解析/修改网址和网络地址库。

URL

furl – 一个小的Python库，使得操纵URL简单化。

purl – 一个简单的不可改变的URL以及一个干净的用于调试和操作的API。

urllib.parse – 用于打破统一资源定位器（URL）的字符串在组件（寻址方案，网络位置，路径等）之间的隔断，为了结合组件到一个URL字符串，并将“相对URL”转化为一个绝对URL，称之为“基本URL”。

tldextract – 从URL的注册域和子域中准确分离TLD，使用公共后缀列表。

网络地址

netaddr – 用于显示和操纵网络地址的Python库。

网页内容提取

提取网页内容的库。

HTML页面的文本和元数据

newspaper – 用Python进行新闻提取、文章提取和内容策展。

html2text – 将HTML转为Markdown格式文本

python-goose – HTML内容/文章提取器。

lassie – 人性化的网页内容检索工具

micawber – 一个从网址中提取丰富内容的小库。

sumy -一个自动汇总文本文件和HTML网页的模块

Haul – 一个可扩展的图像爬虫。

python-readability – arc90 readability工具的快速Python接口。

scrapely – 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例，scrapely为所有类似的网页构建一个分析器。

WebSocket

用于WebSocket的库。

Crossbar – 开源的应用消息传递路由器（Python实现的用于Autobahn的WebSocket和WAMP）。

AutobahnPython – 提供了WebSocket协议和WAMP协议的Python实现并且开源。

WebSocket-for-Python – Python 2和3以及PyPy的WebSocket客户端和服务器库。

DNS解析

dnsyo – 在全球超过1500个的DNS服务器上检查你的DNS。

pycares – c-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库。

计算机视觉

OpenCV – 开源计算机视觉库。

SimpleCV – 用于照相机、图像处理、特征提取、格式转换的简介，可读性强的接口（基于OpenCV）。

mahotas – 快速计算机图像处理算法（完全使用 C++ 实现），完全基于 numpy 的数组作为它的数据类型。

数据分析

numpy：http://www.numpy.org/ 开源数值计算扩展第三方库

scipy：https://pypi.org/project/scipy/ 专为科学以及工程计算的第三方库

pandas：http://pandas.pydata.org/ 可高效地操作大型数据集的第三方库

用户图形界面

PyQt5：https://pypi.org/project/PyQt5/ 成熟的商业级GUI第三方库

wxpython：https://pypi.org/project/wxPython/ 优秀的GUI图形库

pygtk：https://pypi.org/project/PyGTK/ 轻松创建具有图形用户界面程序的第三方库

机器学习

Scikit-learn：https://scikit-learn.org/stable/ 简单且高效的数据挖掘和数据分析工具

Tensorflow：https://pypi.org/project/tensorflow/ 人工智能学习系统

Theano ：http://deeplearning.net/software/theano/ 执行深度学习中大规模神经网络算法的运算

Web开发

Django：https://pypi.org/project/Django/ 最流行的开源Web应用框架

Pyramid：https://pypi.org/project/pyramid/ 通用、开源的Python Web应用程序开发框架

Flask：https://pypi.org/project/Flask/ 轻量级Web应用框架

游戏开发

Pygame：https://www.python.org/ 面向游戏开发入门的Python第三方库

Panda3D：http://www.panda3d.org/ 开源、跨平台的3D渲染和游戏开发库

cocos2d：https://pypi.org/project/cocos2d/ 构建2D游戏和图形界面交互式应用的框架

数据可视化

Matplotlib：https://matplotlib.org/ 提供数据绘图功能的第三方库，主要进行二维图表数据展示

TVTK：https://www.lfd.uci.edu/~gohlke/pythonlibs/ 图形应用函数库，是专业可编程的三维可视化工具

mayavi：https://pypi.org/project/mayavi/ 方便实用的可视化软件

在线咨询

上一篇：WordPress生成HTML静态化网站
下一篇：边学边做网页篇-初识HTML

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商