数据能够打印到pdf文件,当然可以打印到纸张,而且使用qprinter默认就是打印到纸张的,上一篇文章写得功能是打印到pdf,其实还要单独特殊设置打印到文件,并指定格式为pdf。不指定输出文件和格式默认就是打印到纸张,关于Qt打印内容到纸张,网上的办法非常多,比如有些直接用painter绘制,逐步控制分页打印,个人还是喜欢html格式的内容传入,因为html格式相当灵活,可控范围相当大,而且整齐,甚至可以先直接输出到网页预览下效果,根据需求调整,后面的图文混排就是用的html+table实现的,如果不需要边框可以设置边框粗细为0,其实还是表格,但是看起来像文档一样。
数据打印基本步骤:
1. 准备好要打印的数据。
2. 实例化QPrinter对象。
3. 设置输出格式setOutputFormat(QPrinter::NativeFormat)。
4. 弹出打印预览对话框QPrintPreviewDialog。
5. 关联信号槽在槽函数中绘制内容。
6. 实例化文档对象QTextDocument。
7. 将内容作为html设置到文档对象。
8. 调用文档对象的print方法传入QPrinter对象打印。
结构体支持的参数:
- 文件名称
- 表名
- 主标题
- 副标题
- 字段名称集合
- 字段宽度集合
- 内容集合
- 行内容分隔符
- 子内容分隔符
- 边框宽度
- 校验列
- 校验类型
- 校验值
- 检验颜色
- 最后列拉伸填充
- 横向排版
- 纸张边距
1. 组件同时集成了导出数据到csv、xls、pdf和打印数据。
2. 所有操作全部提供静态方法无需new,数据和属性等各种参数设置采用结构体数据,极为方便。
3. 同时支持QTableView、QTableWidget、QStandardItemModel、QSqlTableModel等数据源。
4. 提供静态方法直接传入QTableView、QTableWidget控件,自动识别列名、列宽和数据内容。
5. 每组功能都提供单独的完整的示例,注释详细,非常适合各阶段Qter程序员。
6. 原创导出数据机制,不依赖任何office组件或者操作系统等第三方库,支持嵌入式linux。
7. 速度超快,9个字段10万行数据只需要2秒钟完成。
8. 只需要四个步骤即可开始急速导出海量数据比如100W条记录到Excel。
9. 同时提供直接写入数据接口和多线程写入数据接口,不卡主界面。
10. 可设置标题、副标题、表名。
11. 可设置导出数据的字段名、列名、列宽。
12. 可设置末尾列自动拉伸填充,默认拉伸更美观。
13. 可设置是否启用校验过滤数据,启用后符合规则的数据特殊颜色显示。
14. 可指定校验的列、校验规则、校验值、校验值数据类型。
15. 校验规则支持 精确等于==、大于>、大于等于>=、小于<、小于等于<=、不等于!=、包含contains。
16. 校验值数据类型支持 整型int、浮点型float、双精度型double,默认文本字符串类型。
17. 可设置随机背景颜色及需要随机背景色的列集合。
18. 支持分组输出数据,比如按照设备分组输出数据,方便查看。
19. 可设置csv分隔符、行内容分隔符、子内容分隔符。
20. 可设置边框宽度、自动填数据类型,默认自动数据类型开启。
21. 可设置是否开启数据单元格样式,默认不开启,不开启可以节约大概30%的文件体积。
22. 可设置横向排版、纸张边距等,比如导出到pdf以及打印数据。
23. 支持图文混排导出数据到pdf以及打印数据,自动分页。
24. 灵活性超高,可自由更改源码设置对齐方式、文字颜色、背景颜色等。
25. 支持任意excel表格软件,包括但不限于excel2003-2021、wps、openoffice等。
26. 纯Qt编写,支持任意Qt版本+任意编译器+任意系统。
1. 体验地址:[https://pan.baidu.com/s/1ZxG-oyUKe286LPMPxOrO2A](https://pan.baidu.com/s/1ZxG-oyUKe286LPMPxOrO2A) 提取码:o05q 文件名:bin_dataout.zip
2. 国内站点:[https://gitee.com/feiyangqingyun](https://gitee.com/feiyangqingyun)
3. 国际站点:[https://github.com/feiyangqingyun](https://github.com/feiyangqingyun)
4. 个人主页:[https://blog.csdn.net/feiyangqingyun](https://blog.csdn.net/feiyangqingyun)
5. 知乎主页:[https://www.zhihu.com/people/feiyangqingyun/](https://www.zhihu.com/people/feiyangqingyun/)
<!DOCTYPE html>
<html>
<head>
<!-- 插入外部样式表 -->
<link rel="stylesheet" type="text/css" href="style.css">
<title>title</title>
</head>
<body>
<h1>啦啦啦</h1>
<p>我是卖报的小行家</p>
</body>
</html>
标题
<h1>一级标题</h1>
<h2>二级标题</h2>
<h3>三级标题</h3>
<h4>四级标题</h4>
<h5>五级标题</h5>
<h6>六级标题</h6>
<hr/>创建水平线,分割内容
<!-- 注释 -->
段落
<p>段落</p>
<br/>折行
链接
<a href="https://liheyuting.github.io/" target="_blank">This is my blog</a>
target="_blank" 在新窗口打开文档
<a name="label">锚</a> #也可以用id属性替代MAME属性
建立锚了,可以在其他地方创建指向这个锚的链接
- 同一页面
<a href="#lable">xxxx</a>
- 其他页面
<a href="https://liheyuting.github.io/html/html_links.asp#label">xxxxx</a>
(Q这个链接是怎么确定的呢)
图片
<img src="dora.jpg" alt="https://liheyuting.github.io/" width="" height="">
- 背景图片
<body background="//"
- 排列图片
<img src="" align="botton(/middle/top)"
- 浮动图片
<img src="//" align="left(/fight)"
- 增加图片链接
在<img> 前后加上
<a href="https://liheyuting.github.io/html"></a>
按钮
<botton>click</botton>
列表
<ul> #unorder list 无序列表
<li>a</li>
<li>b</li>
</ul>
<ol> #order list 有序列表
- 定义列表
<dl>
<dt>1111</dt>
<dd>2222</dd>
<dt>3333</dt>
<dd>4444</dd>
定义列表的列表项内部可以使用段落、换行符、图片、链接以及其他列表等
(Q这个不是太明白)
dl 定义定义列表
dt 定义定义项目
dd 定义定义的描述
- 嵌套列表
多加几层
(Q css时多了解下)
class 规定元素的类名
id 元素的唯一id
style inline style 行内样式
title 规定元素的额外信息
文本标签
<b> 粗体
<big> 大号字
<em> 着重文字
<i> 斜体
<small> 小号字
<strong> 加重语气
<sub> 定义下标字
<sup> 定义上标字
<ins> 增加下划线
<del> 增加删除线
引用
<q> 短引用
<blockquote> 长引用
<abbr> 定义缩写
<dfn> 定义项目或缩写的定义
<address> 定义文档或文章的联系方式/作者(通常斜体显示,大多数浏览器在此元素前后折行)
<cite> 定义著作的标题(斜体显示)
表格
- 表格
<table border='1'>
<tr>
<td> row 1, cell 1</tr>
<td> row 1, cell 2</tr>
</tr>
<tr>
<td> row 2, cell 1</tr>
<td> row 2, cell 2</tr>
</tr>
</table>
#table 定义表格
#tr 若干行
#td table data 表格数据
- 边框属性
border
- 表头
<th>heading</th>
#th table heading
- 空单元格
<td> </td>
- 跨行跨列
colspan
eg <th colspan="2"></th>
rowspan
eg <th rowspan="2"></th>
- 表格内的标签
(比如实现图片一块块)
- 单元格边距(cell padding)
<table cellpadding="10"></table>
- 单元格间距(cell spacing)
<table cellspacing="10"></table>
- 背景颜色或图片
<table bgcolor="blue"></table>
or (background='//')
- 表格内排列内容对齐
align="left(/right)"
- frame 外框
frame=""
box 四面铁框
above 头顶有框
below 脚下有框
hsides 上头下头被框
vsides 两边有框
块
<div> 在CSS里设置样式属性
可用于文档布局
<span> 为部分文本设置样式属性
类
类-块-行
(Q这块有点疑问,id, name, class相关)
布局
- header 页眉
- nav 导航链接的容器
- section 定义文档中的节
- article 定义独立的自包含文章
- aside 定义内容之外的内容(比如侧栏)
- footer 定义文档或节的页脚
- details 定义额外的细节
- summary 定义details 元素的标题
(detail/article/summary Q下次注意下)
响应式web设计
(Q虽然现在还不懂,最好要有印象,以后再回头看)
RWD响应式web设计(responsive web design)
- 自己创建
在head中<style>中设置
- Bootstrap
(Q之后学)
使用现成的CSS框架
在head中加入:
<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1">
<link rel="stylesheet"
href="////">
内联框架
<iframe src="//"(width="" height="" frameborder="0")></iframe>
- 作为连接的目标时
加入name属性
name=""
脚本
(Q之后学)
”假设6个月之后的你在教现在的你学习“
”强迫输出促进输入“
整理过程是一个复习的过程,虽然离现在实质工作内容相差千万,还应起项目直接实操才好。
稍加整理,如有错误或者其他的建议,还请不吝赐教,万分感谢。
HTML
种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站、小说类网站等文字密度较大的站点。在开始学习之前,我们先来看看具体的现象。打开网址:
https://implicit-style-css_0.crawler-lab.com
复制代码
呈现在我们眼前的是这样一个界面:
这次的任务,就是拿到页面上所呈现的内容的文本。在编写爬虫代码之前,我们要做几件事:
其实就是最基本的观察和分析。
网络请求方面,打开浏览器调试工具并切换到 Network 面板后,看到页面只加载了 2 个资源:
一个 html 文档和一个 js 文件,想必我们要的内容就在 html 文档中。点击该请求,浏览器开发者工具就会分成两栏,左侧依然是请求记录列表,右侧显示的是指定请求的详情。右侧面板切换到 Response,就可以看到服务器响应的内容:
看样子,我们要的东西就在这次响应正文中。咋一看,我们直接取 class 为 rdtext 的 div 标签下的 p 标签中的文本内容即可。然而事情并没有那么简单,细心的读者可能发现了,响应正文中显示的内容和页面中呈现的文字并不完全相同——响应正文中少了一些标点符号和文字,多了一些 span 标签。例如页面中显示的是:
夜幕团队 NightTeam 于 2019 年 9 月 9 日正式成立,团队由爬虫领域中实力强劲的多名开发者组成:崔庆才、周子淇、陈祥安、唐轶飞、冯威、蔡晋、戴煌金、张冶青和韦世东。
复制代码
而响应正文中看到的是:
<p>夜幕团队 NightTeam 于 2019 年 9 月 9 日正式成立<span class="context_kw0"></span>团队由爬虫领域中实力强劲<span class="context_kw1"></span>多<span class="context_kw21"></span>开发者组成:崔庆才、周子淇、陈祥安、唐轶飞、冯威、蔡晋、戴煌金、张冶青和韦世东<span class="context_kw2"></span>
</p>
复制代码
这句话中,被 span 标签替代的有逗号、的字、名字。整体看一遍,发现这些 span 标签都带有 class 属性。
明眼人一看就知道,又是利用了浏览器渲染原理做的反爬虫措施。不明所以的读者请去翻阅《Python3 反爬虫原理与绕过实战》。
既然跟 span 和 class 有关,那我们来看一下 class 属性到底设置了什么。class 名为 context_kw0 的 span 标签样式如下:
.context_kw0::before {
content: ",";
}
复制代码
再看看其他的,class 属性为 context_kw21 的 span 标签样式如下:
.context_kw21::before {
content: "名";
}
复制代码
原来被替换掉的文字出现在这里!看到这里,想必聪明的你也知道是怎么回事了!
解决这个问题的办法很简单,只需要提取出 span 标签 class 属性名称对应的 content 值,然后将其恢复到文本中即可。
属性名有个规律:context_kw + 数字。也就是说 context_kw 有可能是固定的,数字是循环出来的,或者是数组中的下标?大胆猜想一下,假设有这么一个字典:
{0: ",", 1: "的", 21: "名"}
复制代码
那么将 context_kw 与字典的键组合,就得到了 class 的名称,对应的值就作为 content,这好像很接近了。中高级爬虫工程师心中都明白:在网页中,能干出如此之事唯有借助 JavaScript。不明白的读者请去翻阅《Python3 反爬虫原理与绕过实战》。
那就搜一下吧!
唤起浏览器调试工具的全局搜索功能,输入 context_kw 并会车。然后在搜索结果中寻找看上去有用的信息,例如:
发现 JavaScript 代码中出现了 context_kw,关键的信息是 .context_kw + i + _0xea12('0x2c')。代码还混淆了一下!看不出的读者可以找作者韦世东报名《JavaScript 逆向系列课》,学完就能够很快找到看上去有用的代码,并且看懂代码的逻辑。
这里手把手带读一下这些 JavaScript 代码。第一段,也就是 977 行代码原文如下:
var _0xa12e=['appendChild', 'fromCharCode', 'ifLSL', 'undefined', 'mPDrG', 'DWwdv', 'styleSheets', 'addRule', '::before', '.context_kw', '::before{content:\x20\x22', 'cssRules', 'pad', 'clamp', 'sigBytes', 'YEawH', 'yUSXm', 'PwMPi', 'pLCFG', 'ErKUI', 'OtZki', 'prototype', 'endWith', 'test', '8RHz0u9wbbrXYJjUcstWoRU1SmEIvQZQJtdHeU9/KpK/nBtFWIzLveG63e81APFLLiBBbevCCbRPdingQfzOAFPNPBw4UJCsqrDmVXFe6+LK2CSp26aUL4S+AgWjtrByjZqnYm9H3XEWW+gLx763OGfifuNUB8AgXB7/pnNTwoLjeKDrLKzomC+pXHMGYgQJegLVezvshTGgyVrDXfw4eGSVDa3c/FpDtban34QpS3I=', 'enc', 'Latin1', 'parse', 'window', 'location', 'href', '146385F634C9CB00', 'decrypt', 'ZeroPadding', 'toString', 'split', 'length', 'style', 'type', 'setAttribute', 'async', 'getElementsByTagName', 'NOyra', 'fgQCW', 'nCjZv', 'parentNode', 'insertBefore', 'head'];
(function (_0x4db306, _0x3b5c31) {
var _0x24d797=function (_0x1ebd20) {
while (--_0x1ebd20) {
_0x4db306['push'](_0x4db306['shift']());
}
};
复制代码
往下延伸阅读,还能看到 CryptoJS 这个词,看到它就应该晓得代码中使用了一些加密解密的操作。
第二段,1133 行代码原文如下:
for (var i=0x0; i < words[_0xea12('0x18')]; i++) {
try {
document[_0xea12('0x2a')][0x0][_0xea12('0x2b')]('.context_kw' + i + _0xea12('0x2c'), 'content:\x20\x22' + words[i] + '\x22');
} catch (_0x527f83) {
document['styleSheets'][0x0]['insertRule'](_0xea12('0x2d') + i + _0xea12('0x2e') + words[i] + '\x22}', document[_0xea12('0x2a')][0x0][_0xea12('0x2f')][_0xea12('0x18')]);
}
}
复制代码
这里循环的是 words,然后将 words 元素的下标和对应元素组合,这和我们猜想的是非常接近的,现在要找到 words。
怎么找?
又不会吗?
搜索就可以了,顺着搜索结果看,找到了定义 words 的代码:
var secWords=decrypted[_0xea12('0x16')](CryptoJS['enc']['Utf8'])[_0xea12('0x17')](',');
var words=new Array(secWords[_0xea12('0x18')]);
复制代码
按照这个方法,我们最后发现 CSS 的 content 的内容都是数组 _0xa12e 中一个经过加密的元素先经过 AES 解密再经过一定处理后得到的值。
捋清楚逻辑之后,就可以开始抠出我们需要的 JS 代码了。
这个代码虽然经过混淆,但还是比较简单的,所以具体的抠代码步骤就不演示了,这里提示一下在抠出代码之后两个需要改写的点。
第一个是下图中的异常捕获,这里判断了当前的 URL 是否为原网站的,但调试时,在 Node 环境下执行是没有 window 对象、document 对象的,如果不做修改会出现异常,所以需要把带有这些对象的代码注释掉,例如下面 if 判断语句:
try {
if (top[_0xea12('0x10')][_0xea12('0x11')][_0xea12('0x12')] !=window[_0xea12('0x11')]['href']) {
top['window'][_0xea12('0x11')]['href']=window[_0xea12('0x11')][_0xea12('0x12')];
}
复制代码
其他的地方还需要自己踩坑。
修改完后就可以获取到所有被替换过的字符了,接下来只需要把它们替换进 HTML 里就可以还原出正常的页面,replace 就不演示了噢。
例子中用到的是 ::before,下方文字描述了它的作用:
在 CSS 中,::before 用于创建一个伪元素,其将成为匹配选中的元素的第一个子元素。常通过 content 属性来为一个元素添加修饰性的内容。
引用自:developer.mozilla.org/zh-CN/docs/…
举个例子,新建一个 HTML 文档,并在里面写上如下内容:
<q>大家好,我是咸鱼</q>,<q>我是 程序员中的一员</q>
复制代码
然后为 q 标签设置样式:
q::before {
content: "?";
color: blue;
}
q::after {
content: "?";
color: red;
}
复制代码
完整代码如下(写给没有 HTML 基础的朋友):
<style>
q::before {
content: "?";
color: blue;
}
q::after {
content: "?";
color: red;
}
</style>
<q>大家好,我是咸鱼</q>,<q>我是 程序员中的一员</q>
复制代码
我们在样式中,为 q 标签加上了 ::before 和 ::after 属性,并设置了 content 和对应的颜色。于是乎,在被q 标签包裹着的内容前会出现蓝色的 《 符号,而后面会出现红色的 》 符号。
简单易懂吧!
本文简单介绍了隐式 Style–CSS 在反爬虫中的应用,并通过一个简单的实例学习了如何应对这种情况,相信尝试过的你已经清楚地知道下次碰到这种反爬的时候该如何破解了。
当然呢,这个例子还不够完善,没有完全覆盖到隐式 Style–CSS 在反爬虫中的所有应用方式,如果读者朋友对这类反爬虫有兴趣的话,不妨多找几个例子自己动手试试,也欢迎通过留言区与我交流讨论。
最后,小编想说:我是一名python开发工程师,
整理了一套最新的python系统学习教程,
想要这些资料的可以关注私信小编“01”即可(免费分享哦)希望能对你有所帮助
*请认真填写需求信息,我们会在24小时内与您取得联系。