思维新建站官网:www.inspinovation.cn
文|何掌柜
对于很多 web 应用来说,简单地转义 HTML 是不够的。 你可能想完全去除任何HTML,或者允许一小部分子集的 HTML 存在。 若是如此,则使用 HTML Purifier 库。
HTML Purifier 是一个经过充分测试但效率比较低的库。 这就是为什么如果你的需求并不复杂就应使用htmlentities(), 因为它的效率要快得多。
HTML Purifier 相比 strip_tags() 是有优势的, 因为它在净化 HTML 之前会对其校验。 这意味着如果用户输入无效 HTML,HTML Purifier 相比 strip_tags() 更能保留 HTML 的原意。 HTML Purifier 高度可定制,允许你为 HTML 的一个子集建立白名单来允许这个 HTML 子集的实体存在输出中。
但其缺点就是相当的慢,它要求一些设置,在一个共享主机的环境里可能是不可行的。 其文档通常也复杂而不易理解。 以下示例是一个基本的使用配置。 查看文档阅读 HTML Purifier 提供的更多更高级的特性。
示例
// Include the HTML Purifier library
require_once('htmlpurifier-4.4.0/HTMLPurifier.auto.php');
// Oh no! The user has submitted malicious HTML, and we have to display it in our web app!
$evilHtml = '
Mua-ha-ha! Twiddling my evil mustache...
';
// Set up the HTML Purifier object with the default configuration.
$purifier = new HTMLPurifier(HTMLPurifier_Config::createDefault());
$safeHtml = $purifier->purify($evilHtml);
// $safeHtml is now sanitized. You can output $safeHtml to your users without fear!
?>
陷阱
以错误的字符编码使用 htmlentities() 会造成意想不到的输出。 在调用该函数时始终确认指定了一种字符编码,并且该编码与将被净化的字符串的编码相匹配。 更多细节请查看 UTF-8 一节。
使用 htmlentities() 时,始终包含 ENT_QUOTES 和字符编码参数。 默认情况下,htmlentities() 不会对单引号编码。多愚蠢的默认做法!
HTML Purifier 对于复杂的 HTML 效率极其的低。可以考虑设置一个缓存方案如APC来保存经过净化的结果以备后用。
因思维新专注于高端网站订制开发,不仅仅为您建设网站,还为您做网络营销。
于工作需要,有几个nginx配置的需求,在这里整理记录一下。
1. 屏蔽请求方式,仅允许POST、GET等
当有非我们允许的请求方式访问站点时,定义返回403状态码,示例配置如下:
if ($request_method !~ ^(GET|POST)$ )
{
return 403;
}
2. 定义错误页
有时候我们访问到不存在的页面或报错,如403/404/502/503/504/405等,再或者500这种程序错误时,出于安全和用户友好度的考虑,希望能够跳转到统一的错误页等。可以添加如下示例配置:
error_page 404 403 502 503 /error.html
location = /error.html {
root html;
}
这里前提是要自己写好一个错误页面,放到指定的nginx服务器目录里。
3. 屏蔽指定url
比如一台nginx提供的多个server_name共用静态资源时,但又有资源仅仅想让某个server_name访问到;又比如程序写的不够合理,当生产环境跑起来时发现有些地址不应该提供到互联网访问;再或者我们想通过nginx屏蔽掉一些恶意的访问如特殊字符,都可以使用下面示例配置进行指定url的屏蔽跳转到错误页:
if ( $request_uri ~* "\.\.;|test1234|home/test\.do" ){
rewrite xxxxxxxxx; #或return指定错误码
}
作用域可以是server,也可以是location。上面写法使用正则匹配包含以上字符串的url,根据使用场景调整,转义使用\,多个字符串之间用|分隔。
4. 屏蔽指定IP地址
比如我们的服务部署后只想指定IP地址可以访问或指定的IP不可访问时,可以使用下面示例配置强制跳转到错误页面。
if ($http_x_forwarded_for !~ ^(192.168.3.100|123.123.123.123|222.222.222.222)) {
return 403; #或 rewrite指定页面
}
作用域可以是server,也可以是location。
5. 比较奇葩的需求
我这里有一个服务test对互联网开放访问,但是其中比如地址 /test/admin.jsp 和 /test/config.jsp 又只想让指定的几个人访问到其他人不允许访问,这里我将上面的3和4组合起来使用了,配置示例如下:
location /test {
set $flag 0;
if ( $request_uri ~* "admin\.jsp|config\.jsp" ) {
set $flag "${flag}1";
}
if ($http_x_forwarded_for !~ ^(192.168.3.100|123.123.123.123|222.222.222.222)) {
set $flag "${flag}2";
}
if ( $flag = "012" ){
return 403;
}
proxy_pass xxxxxxxxxxxxxxxxx;
proxy_set_header xxxxxxxxxxxxxxx;
.......................
}
本来想if如果是真的话flag=flag+1, 不过随手写了写,发现写不对,就换这种比较熟悉的字符串拼接的方式了,殊途同归;
flag初始为1,如果访问到指定的url则会变成01, 如果访问到url的却又不是我们白名单允许的IP,flag会变成012,最后对flag做下判断如过时“012”则拒绝访问。
写在最后:
如有错误请评论告知,多多包涵。
也可以点击以下链接关注我的CSDN,谢谢
使用Nginx配置文件屏蔽指定请求_冯大仙的博客-CSDN博客
TML 规范的开发是一个渐进的过程,有时会出现问题。随着时间的推移,许多元素和属性被添加到 HTML 中,直到后来 Web 社区集体意识到有更好的方法时才被删除。由于已弃用和过时的元素和属性已经存在于网络上,因此许多现代浏览器继续支持它们的使用。尽管它们可能仍然有效,但您应该始终遵循最新版本的要求 HTML。不能保证浏览器对过时和弃用元素的支持会持续下去。有效但执行不A力。
有几种 HTML 元素和属性是有效的并且应该被使用,但是这些特性的实现随着时间的推移而发生了变化,而 Web 开发社区的一些人还没有注意到。HTMLtables就是一个很好的例子。table在某一时刻,使用 HTML元素创建网页布局是很常见的。几乎没有人再这样做了,CSS 比tables以往任何时候都更强大。但是,即使是经验丰富的 Web 开发人员,也存在许多其他不太严重的误用和语法错误。以下是一些经常被误用得完全有效且有用的 HTML 功能以及正确实现的示例。
虽然在技术上不是 HTML 元素,但DOCTYPE声明应该是每个 HTML 文档中出现的第一件事。这个声明是浏览器文档中代码的语言。过去,这个声明包括几个部分,可能会有点复杂。然而,在 HTML5 中,这很简单:
使用该声明开始每个人 HTML 文档,Web 浏览器将准确地知道您要说什么。
Web 浏览器必须知道用于编写文档的字符集才能正确呈现它。在绝大多数情况下,要声明的正确字符集是UTF-8。如果您需要声明其他任何内容,很可能您已经知道并知道如何去做。如果您不确定,请坚持使用 UTF-8 是一个安全的选择。在 HTML5 中声明字符集比在以前的 HTML 版本中要简单得多。这是现代 HTML5 中声明的正确语法:
只需将该行放到head您的 HTML 文档中即可。
过去,通常使用meta标签来提供版权信息。但是,这不是处理此任务的正确方法,并且网络爬虫无法识别标签的这种标签外使用meta。识别版权的正确方法是使用HTML 文档link中的元素,如下所示:head
您还可以在锚点和区域元素上使用rel="license"属性值对。
在过去,通常使用如下语法将脚本添加到 HTML 文档中:
这是有充分理由的。在某一时刻,许多浏览器无法识别script标签,并试图将标签之间的内容呈现为 HTML,从而导致它们以纯文本形式显示脚本。为了避免这个问题,开发人员会注释掉文本,这样它就不会被不受支持的浏览器呈现为 HTML。那些日子已经离我们很远了。所有现代浏览器都支持该script标签。只需完全删除 HTML 注释括号,或者更好的是,将 JavaScript 编写在单独的文件中,然后使用script标记将其导入到当前的 HTML 文档中,如下所示:
还有不少元素曾经是 HTML 规范的一部分,但后来被弃用或废弃。以下是您可能仍在使用的八个 HTML 元素,您应该立即停止使用它们以及您可以使用的替代标签:
有许多元素和属性曾经是 HTML 的一部分,但执行的任务更适合 CSS。这些元素已经被弃用,取而代之的是让 CSS 控制网页呈现。
曾经使用 HTML 元素(如font、basefont、center、strike和u. 这些元素都已被弃用,取而代之的是 CSS 提供的字体和排版控件。要了解更多信息,请查看我们的字体和网页排版教程。一个从未真正流行起来的独特标签是multicol。此标签可用于将文本分成多列,类似于报纸的外观。现在可以使用 CSScolumns属性在现代浏览器中创建类似但更强大的效果。
广泛的 HTML 元素属性曾经可用于控制 HTML 元素的呈现。几乎所有这些标签都已被弃用,现在 CSS 提供了相同的功能。如果您不熟悉 CSS 以及如何实现这些属性,我们的 CSS 教程将帮助您立即开始使用层叠样式表。下面是一些更常用的属性和现在可以用来实现相同结果的 CSS 属性。
在本文中,我们介绍了一些最常见的元素和属性,这些元素和属性使用不当或已被弃用或过时。然而,我们真的只是触及了冰山一角。如果您想了解已从 HTML 规范中删除的所有 HTML 元素和属性,请参阅以下资源:
*请认真填写需求信息,我们会在24小时内与您取得联系。