一小段python爬虫代码获取腾讯新闻正文标题内容（附源码）

coding=utf-8

import urllib2

import re

import os

#this function from internet @littlebai

#去掉特征字符串内的html操作符

def filter_tags(htmlstr):

re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA

re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script

re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style

re_p=re.compile('<P\s*?/?>')#处理换行

re_h=re.compile('</?\w+[^>]*>')#HTML标签

re_comment=re.compile('')#HTML注释

s=re_cdata.sub('',htmlstr)#去掉CDATA

s=re_script.sub('',s) #去掉SCRIPT

s=re_style.sub('',s)#去掉style

s=re_p.sub('\r\n',s)#将<p>转换为换行

s=re_h.sub('',s) #去掉HTML 标签

s=re_comment.sub('',s)#去掉HTML注释

blank_line=re.compile('\n+')#去掉多余的空行

s=blank_line.sub('\n',s)

return s

#设置下载文件的保存位置

path = "E:\news.qq.com\a\20120506\"

#匹配url规则

rege = re.compile(r"/a/\d{8}/\d{6}.htm")

#从主页获得所有存在的url链接的后半部分并排序

urlcontent = urllib2.urlopen('http://news.qq.com/a/20120506/index.htm').read()

get_url = rege.findall(urlcontent)

get_url.sort()

#根据所获得的url数量建立循环遍历所有url链接

for i in xrange(0,len(get_url)):

get_url[i] = "http://news.qq.com"+get_url[i]#完整链接

#异常处理：部分url链接打开延时或者无法打开则跳过此次循环

try:#异常跳出

sub_web = urllib2.urlopen(get_url[i]).read()#打开完整url链接，获取内容

except urllib2.URLError, e:

print get_url[i][-10:-4]+' Failed'

continue

#下面开始内容操作

re_keyt = "<h1>.+</h1>"#获取标题，此处的标题不含腾讯新闻的后缀比较方便

title = re.findall(re_keyt,sub_web)#去掉标题左右的html标签

re_keyc = re.compile("<div id=\"Cnt-Main-Article-QQ\".*</P></div>\n</div>",re.DOTALL)#匹配正文内容的正则（个别页面无法获得，见if块）

content = re_keyc.findall(sub_web)#获得正文内容

#个别页面由于有视频或其他的无法匹配正文内容的正则表达式，所以无法获得内容，应给与过滤

if len(title)==0 or len(content)==0:

continue

re_content = filter_tags(title[0]+"\r\n"+content[0])#将标题和正文放到一起并去除html标签代码

w=file(path+get_url[i][-10:-4]+'.txt','w')#根据页面的文件名建立txt文件，并打开为写入方式

w.write(re_content)#写入获得的去除了html标签代码的标题和正文

w.close()#关闭文件

#命令行输出提示文件下载进度

print 'Completed the'+str(i+1)+" -Total "+str(len(get_url))+" THE "+get_url[i][-10:]

#完成所有url链接的下载

print "Fuck The Stupied Guy!!!!"

#退出脚本

exit()

站的每一个部分都很重要，你是否忽略了“联系我们”页面？来看看有什么设计这个页面的技巧吧。

简化联系表格

Yummygum

Yummygum的联系页面很干净很简单，只有3个框和一个提交按钮。简单的好处是不会让游客望而却步。

大号的文字显得简练易读，方便浏览者快速校对信息，从而有更大的满足感。

以现在的网页技术很容易创建一个动态的联系表格。通常留有3-6个框供浏览者填写姓名，邮件和个人信息。

大多数网站游客偏爱这种联系表，因为比较节省时间——不需要打开自己的邮件客户端、拷贝邮箱地址。目前网站联系表格通常包含网络安全技术比如CAPTCHA，所以安全性是很强的。

这种表格的所有元素看起来很统一，给人感觉很完整。另外建议使用JavaScript显示提示和帮助，确保用户知道他们的消息已发送成功。

Princeink

复杂一点表格看Prince Ink quote form网站，页面分为4部分。

记住，不是每个框都要填写。只有带星号是必填的。大部分情况下，游客能够识别星号，但是部分游客可能发现不了。如果是设计更大的联系表格，要突出必填的项目。这样将简化提交过程，优化用户体验。

统一中表现审美

表格既要讲统一性，也要讲审美。毕竟表格是网站外观的一个重要部分。

Underbelly

Underbelly是一个设计创意机构网站，联系页面很独特。显而易见，这个联系表格用了CSS样式表和JavaScript。输入界面看起来像一般正式文件的表格形式。设计独特整洁，让人觉得发送电子邮件也成了一种乐趣！

Dangerousrobot

Dangerous Robot 网站的设计跟上一个不同，联系表格与其他元素通过明亮的暖色和矢量图案很好的融合在一起。联系表格基本采取居中模式，每个框里加上图标，使得辨识度和阅读速度得到提高。

添加地图标注

一个公司的地理位置在商务交往中往往扮演着重要的角色。加入嵌入式地图则把企业地址可视化。谷歌地图有一个自定义的嵌入功能，允许开发者添加全功能的谷歌地图到联系页面。

Bkwld

BKWLD的联系页，除了一些基本的邮件/电话信息，添加了MAPbox动态地图，调高了交互性。

Fortyonetwenty

也可以考虑使用一个定制的照片，不用JavaScript地图。在FortyOneTwenty网站联系页面，使用一个世界地图，上面的蓝点标注了全球分公司和员工分布情况。

由于这张照片是作为背景图像，所以融合更自然。地图让位于内容，显得不喧宾夺主。

添加社交网站链接

在联系页面添加社交网站链接，可赋予企业可触摸的人格。这些链接可供浏览者在无法或者不宜使用电话、邮件的情况下联系企业，并且可以浏览企业更多动态信息。最好能在同一页上提供不同的社交账号链接，让浏览者决定选择哪一个。

Tone

我最喜欢的英国创意机构非Tone莫属，无论是它的作品或者是作品集网站。它的联系页使用定位他们办公室的完整地图和动态联系表格。

往下滚动鼠标，你会发现一个长长的的社交媒体图标水平列表。这些链接包括该公司的各种社交账号包括Twitter,LinkedIn,Instagram。按钮大而醒目，但是并没有放在页面顶部，因为邮件，电话和地址才是最重要的。

Positiveadvertising

Positive Advertising网站的社交账号图标设置的比较小。这个网站是单网页网站。社交账号图标位于电话号码，电子邮件地址和邮寄地址的下面。图标采取了统一的单色处理。

展示团队成员

这个方法使用较少，但是可以增加网页的个性。个人网站可以在联系页面加上本人照片。大一点的公司往往把照片转移到“公司团队”页面，每个重要人物有单独的照片和介绍。

Blueskyresumes

Blue Sky Resumes网站的“关于我们”页面包含一段团队的介绍。每个雇员都有自己单独的网页链接。

“联系我们”页面的顶部，注意到沿左边一个固定的滚动块没有，滚动块小按钮链接到电子邮件，手机信息，还可以发送一个请求报价。这个网站联系页面非常生动，让人耳目一新。

Etsy

Etsy的“团队”页面。每个团队成员照片链接到各人简介页面。这种个性化的设计无论是对于客户还是公司的第三方供应商来讲是都很棒的。

这个团队网页不直接链接到他们的联系页面。这是一种有目的的设计选择，因为公司有那么多职员，足够撑起一个网页。不过该网页可以链接到“关于”网页，“新闻”网页，其中包含一些电子邮件联系信息。

团队成员列表不是必须有的，但在合适的时机可以作为良好的补充。

任何网页的最重要的是可用性，只要你学会迎合用户体验，那么设计精良的联系页面就不在话下了。

　HTML是最流行的Web前端开发技术之一，它是一种用于创建网页和 Web 应用程序的标记语言。HTML与CSS和JavaScript结合使用以创建有吸引力且响应迅速的前端网页。

　　HTML 提供了几个不同的元素，如 <head>、<body>、<p>、<img>、<a> 等，它们充当网站的构建块，浏览器使用这些 HTML 元素来解释和表示网页上的内容。

　　HTML 概述

　　HTML(超文本标记语言)是Web浏览器理解并用于呈现网页的语言。在不同元素的帮助下，HTML 决定了网页的外观和显示内容。超文本标记语言 (HTML) 是一种用于创建独立于平台的超文本文档的简单标记语言。

　　HTML 文档是具有通用语义的 SGML(标准通用标记语言)文档，可用于表示来自各种学科的数据。HTML 标记可用于创建超文本邮件、文档、新闻和超媒体;选项菜单;数据库查询结果;带有内嵌图形的简单结构化文档;和现有数据集的超文本视图。

　　HTML 语言的主要用途

　　轻松浏览互联网

　　超文本允许你访问 Internet 上的不同页面，尤其是在你没有记住所有 URL 的情况下。你只需单击链接或在地址字段中输入 URL 即可浏览互联网。超文本对于引导用户浏览你的网站并充当网关至关重要，以便他们知道存在不同的页面并可以在它们之间导航。如果不使用超文本，用户很难检测到网站上是否还有其他网页。

　　尖端功能

　　HTML 支持 Polyfill 功能，它是一种允许你在 HTML 中本地使用不同技术的代码。你可以使用此功能复制未来的API，同时为过时版本的浏览器提供回退功能;你可以自定义polyfill库以满足你的特定要求并执行其他人从未做过的事情。HTML 的这些尖端特性是HTML有如此多用途的原因。

　　创建 Web 文档

　　网页只是一个Web文档，你可以在其中编写你希望用户看到的材料，然后将其包装在指示机器如何格式化整个内容的代码中。这会告诉你的浏览器标题、正文和元数据中的文本，它带有标签，因此计算机知道如何处理你提供的信息。

　　数据输入

　　你拥有执行任何数据输入任务所需的所有 API。作为开发人员，你只需在相关字段中添加标签，例如文本和数据格式，你甚至可以提供屏幕键盘和验证，确保为用户提供流畅和愉快的体验。

　　游戏开发

　　游戏开发是 HTML 的重要用途之一。尽管不再支持Flash，但HTML仍可用于创建基于浏览器的游戏。你使用的API不必完全实现，但可以使用最必要的组件，同时去掉了其余的功能，带来了更轻松的体验。由于HTML5的进步，HTML正迅速成为最流行的游戏编程语言之一。

　　离线存储

　　如果你的一些用户不在线怎么办?在最新版本的HTML中找到的应用程序缓存方法的帮助下，你仍然可以使你的应用程序运行。应用程序缓存负责各种离线功能，包括各种组件，包括需要更新的API调用。通过清单文件，你可以控制浏览器对其离线使用的操作，甚至它使用的资源。

　　原生API使用

　　API代表“应用程序编程接口”，这是两个不同应用程序相互通信的一种方式。通过使用API，HTML包括地理定位、事件管理、拖放和更多功能，HTML编程现在比以往任何时候都更强大。开发人员还可以使用具有异步特性的现代在线应用程序。

　　在客户端存储东西

　　IndexDB和Localstorage 使在客户端存储文件更简单、更高效，这些都有自己的一套强大的功能。

　　Localstorage支持setItem、getItem 和removeItem方法，以及基于字符串的哈希表存储。IndexDB带有更多的存储空间，你可以在用户许可的情况下增加。

　　方便使用的

　　与其他编程语言不同，HTML以用户友好而闻名，即使对于初学者也是如此，所以，这也是HTML的主要用途之一。HTML中有语义组件来描述它们所具有的内容类型，例如，页眉、页脚、主要、摘要和时间等HTML常用标签是自描述的。

　　可访问的富Internet应用程序

　　HTML5语义标签的使用使网站搜索引擎和屏幕阅读器友好，如果正确使用语义标签，视障人士可以使用屏幕阅读器从网页中获取信息。

　　结论

　　在这篇博客中，我们讲述了HTML的所有重要用途，它通常是Web开发人员学习的第一语言，所以，如果你想学习Web编程并且害怕学习HTML的难度，你不必担心，HTML非常容易学习。

在线咨询

上一篇：HTML5建站实用的几款软件工具
下一篇：软件测试 - 查看网页的HTML源代码

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。