整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Centos安装wkhtmltopdf,curl访问

Centos安装wkhtmltopdf,curl访问网页生成pdf文件

文:迷神

在各种网站项目开发过程都需要生成PDF文件,用于生成显示pdf。其实,生成pdf文件很多种,一种简单的方法就是安装wkhtmltopdf,然后curl访问网页生成pdf文件。

安装wkhtmltopdf

下去github上下载下:

https://github.com/wkhtmltopdf/wkhtmltopdf/

下载github的问题件
wget https://github.com/wkhtmltopdf/wkhtmltopdf/releases/download/0.12.4/wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
解压文件,
tar xvfJ wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
cd wkhtmltox/bin
复制到bin目录下,并设置可执行啊。
sudo mv ./wkhtmltopdf /usr/local/bin/wkhtmltopdf
sudo chmod +x /usr/local/bin/wkhtmltopdf

如果部分电脑没有安装依赖库还是需要安装,可以先执行试试。安装插件:

yum install libXrender libXext fontconfig


执行生成pdf文件:

wkhtmltopdf http://www。。baidu。。com ./baidu.pdf

网页生成了pdf文件

解决中文乱码的问题

解决办法如下:

我这里的服务器centos,找windows里的宋体 simsun.ttf,上传到服务器/usr/share/fonts/里

/usr/share/fonts/simsun.ttf

测试解决!

解决乱码

好了,使用wkhtmltopdf生成pdf就这样了,剩下,使用你们的编程语言调用wkhtmltopdf访问网页,保存成pdf文件即可。比如php只要执行下system("wkhtmltopdf http://网页 ./网页文件.pdf")

.为什么选择使用PHP进行公众号文章采集?

在进行公众号文章采集时,选择使用PHP是因为它是一种强大而灵活的编程语言,具有丰富的网络处理能力和简单易用的HTML解析库。PHP可以轻松地发送HTTP请求,获取网页内容,并通过解析HTML文档来提取所需的信息,非常适合用于爬取公众号文章。

2.如何使用PHP采集公众号文章?

首先,我们需要通过获取公众号的URL或者微信公众平台提供的API来获取文章列表。然后,我们可以使用PHP的curl库发送HTTP请求,获取到文章列表页面的HTML内容。接下来,我们可以利用正则表达式或者PHP内置的DOMDocument类对HTML进行解析,提取出文章标题、摘要、发布时间等关键信息。

3.如何处理反爬机制?

在进行公众号文章采集时,我们可能会遇到一些反爬机制,如IP限制、验证码等。针对这些问题,我们可以使用代理IP池来解决IP限制问题,并且可以使用第三方工具或者自动识别验证码接口来处理验证码。另外,在进行爬取时要注意合理设置请求间隔时间,以避免被封IP。

4.如何保存采集到的公众号文章?

采集到公众号文章后,我们可以选择将其保存到数据库中,或者将其以某种格式(如JSON、XML)保存到本地文件中。在保存时,我们可以根据需要对文章进行去重、分类等处理,以便后续的分析和使用。

5.如何处理公众号文章的版权问题?

在进行公众号文章采集时,我们要注意尊重原作者的版权。一般来说,我们可以在采集过程中保留原文链接和作者信息,并在文章展示时注明文章来源。如果有必要,我们还可以与原作者进行沟通,获得授权或者达成其他形式的合作。

6.如何处理公众号文章的更新问题?

公众号文章是动态更新的,为了保持采集数据的实时性,我们可以使用定时任务来定期执行采集脚本,以获取最新的文章列表。另外,在每次采集时要注意增量更新,只采集新增的文章,避免重复采集已有的文章。

7.如何处理公众号文章内容中的HTML标签和样式?

在获取到公众号文章内容后,我们可能会遇到一些HTML标签和样式。为了使内容更加整洁美观,在展示文章时,我们可以使用PHP的字符串处理函数或者正则表达式来去除HTML标签,并对样式进行适当的处理。

8.如何处理公众号文章中的图片和视频?

在公众号文章中,可能会包含图片和视频等多媒体内容。在采集时,我们可以通过解析HTML文档提取出这些多媒体资源的URL,并下载保存到本地。在展示文章时,我们可以将图片和视频插入到文章内容中,以丰富阅读体验。

9.如何处理公众号文章中的链接?

公众号文章中常常包含一些链接,如其他文章链接、外部链接等。在采集时,我们可以提取这些链接,并根据需要进行进一步处理。例如,可以将这些链接保存到数据库中,方便后续的跳转和导航。

10.如何优化公众号文章采集效率?

为了提高公众号文章采集效率,我们可以采取以下措施:合理设置请求间隔时间,避免频繁请求被封IP;使用多线程或者协程技术并发执行采集任务;使用缓存技术缓存已经采集过的数据,减少重复采集。同时,我们还可以对采集脚本进行优化,如使用更高效的HTML解析库、减少不必要的数据处理等。

HP的错误机制也是非常复杂的,做了几年php,也没有仔细总结过,现在就补上这一课。

特别说明:文章的PHP版本使用5.5.32

PHP的错误级别

首先需要了解php有哪些错误。截至到php5.5,一共有16个错误级别

注意:尝试下面的代码的时候请确保打开error_log:

error_reporting(E_ALL);

ini_set('display_errors', 'On');

E_ERROR

这种错误是致命错误,会在页面显示Fatal Error, 当出现这种错误的时候,程序就无法继续执行下去了

错误示例:

// Fatal error: Call to undefined function hpinfo() in /tmp/php/index.php on line 5

hpinfo(); //E_ERROR

注意,如果有未被捕获的异常,也是会触发这个级别的。

// Fatal error: Uncaught exception 'Exception' with message 'test exception' in /tmp/php/index.php:5 Stack trace: #0 {main} thrown in /tmp/php/index.php on line 5

throw new \Exception("test exception");

E_WARNING

这种错误只是警告,不会终止脚本,程序还会继续进行,显示的错误信息是Warning。比如include一个不存在的文件。

//Warning: include(a.php): failed to open stream: No such file or directory in /tmp/php/index.php on line 7

//Warning: include(): Failed opening 'a.php' for inclusion (include_path='.:/usr/share/pear:/usr/share/php') in /tmp/php/index.php on line 7

include("a.php"); //E_WARNING

E_NOTICE

这种错误程度更为轻微一些,提示你这个地方不应该这么写。这个也是运行时错误,这个错误的代码可能在其他地方没有问题,只是在当前上下文情况下出现了问题。

比如$b变量不存在,我们把它赋值给另外一个变量

//Notice: Undefined variable: b in /tmp/php/index.php on line 9

$a=$b; //E_NOTICE

E_PARSE

这个错误是编译时候发生的,在编译期发现语法错误,不能进行语法分析。

比如下面的z没有设置为变量。

// Parse error: syntax error, unexpected '=' in /tmp/php/index.php on line 20

z=1; // E_PARSE

E_STRICT

这个错误是PHP5之后引入的,你的代码可以运行,但是不是PHP建议的写法。

比如在函数形参传递++符号

// Strict Standards: Only variables should be passed by reference in /tmp/php/index.php on line 17

function change (&$var) {

$var +=10;

}

$var=1;

change(++$var);

// E_STRICT

E_RECOVERABLE_ERROR

这个级别其实是ERROR级别的,但是它是期望被捕获的,如果没有被错误处理捕获,表现和E_ERROR是一样的。

经常出现在形参定义了类型,但调用的时候传入了错误类型。它的错误提醒也比E_ERROR的fatal error前面多了一个Catachable的字样。

//Catchable fatal error: Argument 1 passed to testCall() must be an instance of A, instance of B given, called in /tmp/php/index.php on line 37 and defined in /tmp/php/index.php on line 33

class A {

}

class B {

}

function testCall(A $a) {

}

$b=new B();

testCall($b);

E_DEPRECATED

这个错误表示你用了一个旧版本的函数,而这个函数后期版本可能被禁用或者不维护了。

比如curl的CURLOPT_POSTFIELDS使用\@FILENAME来上传文件的方法

// Deprecated: curl_setopt(): The usage of the @filename API for file uploading is deprecated. Please use the CURLFile class instead in /tmp/php/index.php on line 42

$ch=curl_init("http://www.remotesite.com/upload.php");

curl_setopt($ch, CURLOPT_POSTFIELDS, array('fileupload'=> '@'. "test"));

E_CORE_ERROR, E_CORE_WARNING

这两个错误是由PHP的引擎产生的,在PHP初始化过程中发生。

E_COMPILE_ERROR, E_COMPILE_WARNING

这两个错误是由PHP引擎产生的,在编译过程中发生。

E_USER_ERROR, E_USER_WARNING, E_USER_NOTICE, E_USER_DEPRECATED,

这些错误都是用户制造的,使用trigger_error,这里就相当于一个口子给用户触发出各种错误类型。这个是一个很好逃避try catch异常的方式。

trigger_error("Cannot divide by zero", E_USER_ERROR);

// E_USER_ERROR

// E_USER_WARING

// E_USER_NOTICE

// E_USER_DEPRECATED

E_ALL

E_STRICT出外的所有错误和警告信息。

错误控制

php中有很多配置和参数是可以控制错误,以及错误的日志显示的。第一步,我们需要了解的是php中的有关错误的配置有哪些?

我们按照php+php-fpm的模型来说,会影响php错误显示的其实是有两个配置文件,一个是php本身的配置文件php.ini,另外一个是php-fpm的配置文件,php-fpm.conf。

php.ini中的配置

error_reporting=E_ALL // 报告错误级别,什么级别的

error_log=/tmp/php_errors.log // php中的错误显示的日志位置

display_errors=On // 是否把错误展示在输出上,这个输出可能是页面,也可能是stdout

display_startup_errors=On // 是否把启动过程的错误信息显示在页面上,记得上面说的有几个Core类型的错误是启动时候发生的,这个就是控制这些错误是否显示页面的。

log_errors=On // 是否要记录错误日志

log_errors_max_len=1024 // 错误日志的最大长度

ignore_repeated_errors=Off // 是否忽略重复的错误

track_errors=Off // 是否使用全局变量$php_errormsg来记录最后一个错误

xmlrpc_errors=0 //是否使用XML-RPC的错误信息格式记录错误

xmlrpc_error_number=0 // 用作 XML-RPC faultCode 元素的值。

html_errors=On // 是否把输出中的函数等信息变为HTML链接

docref_root=http://manual/en/ // 如果html_errors开启了,这个链接的根路径是什么

fastcgi.logging=0 // 是否把php错误抛出到fastcgi中

我们经常会被问到,error_reporting和display_errors有什么区别呢?这两个函数是完全不一样的。

PHP默认是会在日志和标准输出(如果是fpm模式标准输出就是页面)

error_reporting的参数是错误级别。表示什么样子的级别才应该触发错误。如果我们告诉PHP,所有错误级别都不需要触发错误,那么,不管是日志,还是页面,都不会显示这个错误,就相当于什么都没有发生。

display_errors是控制是否要在标准输出展示错误信息

log_errors则是控制是否要在日志中记录错误信息。

error_log是显示错误日志的位置,这个在php-fpm中往往会被重写,于是往往会发现的是cli和fpm的错误日志竟然不是在同一个文件中。

ignore_repeated_errors这个标记控制的是如果有重复的日志,那么就只会记录一条,比如下面的程序:

error_reporting(E_ALL);

ini_set('ignore_repeated_errors', 1);

ini_set('ignore_repeated_source', 1);

$a=$c; $a=$c; //E_NOTICE

//Notice: Undefined variable: c in /tmp/php/index.php on line 20

本来会出现两次NOTICE的,但是现在,只会出现一次了…

track_errors开启会把最后一个错误信息存储到变量里面去,这个可能在对记日志的时候会有一些用处吧。不过我觉得真是没啥用…

html_errors 和 docref_root 两个是个挺有人性化的配置,配置了这两个参数以后,我们返回的错误信息中如果有一些在文档中有的信息,就会变成链接形式。

error_reporting(E_ALL);

ini_set('html_errors', 1);

ini_set('docref_root', "https://secure.php.net/manual/zh/");

include("a2.php"); //E_WARNING

能让你快速定位到我们出现错误的地方。是不是很人性~

php-fpm中的配置

error_log=/var/log/php-fpm/error.log // php-fpm自身的日志

log_level=notice // php-fpm自身的日志记录级别

php_flag[display_errors]=off // 覆盖php.ini中的某个配置变量,可被程序中的ini_set覆盖

php_value[display_errors]=off // 同php_flag

php_admin_value[error_log]=/tmp/www-error.log // 覆盖php.ini中的某个配置变量,不可被程序中的ini_set覆盖

php_admin_flag[log_errors]=on // 同php_admin_value

catch_workers_output=yes // 是否抓取fpmworker的输出

request_slowlog_timeout=0 // 慢日志时长

slowlog=/var/log/php-fpm/www-slow.log // 慢日志记录

php-fpm的配置中也有一个error_log配置,这个很经常会和php.ini中的error_log配置弄混。但他们记录的东西是不一样的,php-fpm的error_log只记录php-fpm本身的日志,比如fpm启动,关闭。

而php.ini中的error_log是记录php程序本身的错误日志。

那么在php-fpm中要覆盖php.ini中的error_log配置,就需要使用到下面几个函数:

php_flag

php_value

php_admin_flag

php_admin_value

这四个函数admin的两个函数说明这个变量设置完之后,不能在代码中使用ini_set把这个变量重新赋值了。而php_flag/value就仍然以php代码中的ini_set为准。

slowlog是fpm记录的,可以使用request_slowlog_timeout设置判断慢日志的时长。

总结

我们经常弄混的就是日志问题,以及某些级别的日志为何没有记录到日志中。最主要的是要看error_log,display_errors, log_errors这三个配置,只是在看配置的时候,我们还要注意区分php.ini里面的配置是什么,php-fpm.ini里面的配置是什么。

好吧,我觉得弄懂这些配置,基本就没有php日志记录不了的WTF的问题了。

想要学习PHP的朋友可以私信帐号“学习交流”获取加群方式,加群后领取学习资料。