如何用用正则表达式过滤html中所有 Script ?

如何用用正则表达式过滤html中所有 Script ?,第1张

正则表达式过滤html中所有Script 的方法:

1、定义正则表达式:

/<script\b[^<]*(?:(?!<\/script>)<[^<]*)*<\/script>/gi

2、用正则表达式处理script的方法如下:

<html>

<head>

<!--此处引入script脚本用于测试开始-->

<script type="text/javascript" src="/jquery/jquery.js"></script>

<script type="text/javascript">

$(document).ready(function(){

$(".btn1").click(function(){

alert($("p").html())

})

})

</script>

<!--此处引入script脚本用于测试结束-->

</head>

<body>

<p>This is a paragraph.</p>

<!--这里增加一个按钮,点击后会删除所有的script块的代码-->

<button class="btn1" onclick="removeAllScript()">删除script</button>

</body>

</html>

<!--定义function处理删除-->

function removeAllScript(obj){

//定义正则表达式,只要是存在于<script>和</script>之间的内容都会被删除

var SCRIPT_REGEX = /<script\b[^<]*(?:(?!<\/script>)<[^<]*)*<\/script>/gi

while (SCRIPT_REGEX.test(obj)) {//传入文档对象,获取整体内容

text = text.replace(SCRIPT_REGEX, "")//正则替换为空

}

}

1、过滤所有html标签的属性的正则表达式:

$search = array ("'<script[^>]*?>.*?</script>'si", // 去掉 JavaScript

"'<[\/\!]*?[^<>]*?>'si", // 去掉 HTML 标记

"'([\r\n])[\s]+'",// 去掉空白字符

"'&(quot|#34)'i",// 替换 HTML 实体

"'&(amp|#38)'i",

"'&(lt|#60)'i",

"'&(gt|#62)'i",

"'&(nbsp|#160)'i"

) // 作为 PHP 代码运行

$replace = array ("","","\\1","\"","&","<",">"," ")

$html = preg_replace($search, $replace, $html)

$str=preg_replace("/\s+/", " ", $str)//过滤多余回车

$str=preg_replace("/<[ ]+/si","<",$str)//过滤<__("<"号后面带空格)

$str=preg_replace("/<\!--.*?-->/si","",$str)//注释

$str=preg_replace("/<(\!.*?)>/si","",$str)//过滤DOCTYPE

$str=preg_replace("/<(\/?html.*?)>/si","",$str)//过滤html标签

$str=preg_replace("/<(\/?head.*?)>/si","",$str)//过滤head标签

$str=preg_replace("/<(\/?meta.*?)>/si","",$str)//过滤meta标签

$str=preg_replace("/<(\/?body.*?)>/si","",$str)//过滤body标签

$str=preg_replace("/<(\/?link.*?)>/si","",$str)//过滤link标签

$str=preg_replace("/<(\/?form.*?)>/si","",$str)//过滤form标签

$str=preg_replace("/cookie/si","COOKIE",$str)//过滤COOKIE标签

$str=preg_replace("/<(applet.*?)>(.*?)<(\/applet.*?)>/si","",$str)//过滤applet标签

$str=preg_replace("/<(\/?applet.*?)>/si","",$str)//过滤applet标签

$str=preg_replace("/<(style.*?)>(.*?)<(\/style.*?)>/si","",$str)//过滤style标签

$str=preg_replace("/<(\/?style.*?)>/si","",$str)//过滤style标签

$str=preg_replace("/<(title.*?)>(.*?)<(\/title.*?)>/si","",$str)//过滤title标签

$str=preg_replace("/<(\/?title.*?)>/si","",$str)//过滤title标签

$str=preg_replace("/<(object.*?)>(.*?)<(\/object.*?)>/si","",$str)//过滤object标签

$str=preg_replace("/<(\/?objec.*?)>/si","",$str)//过滤object标签

$str=preg_replace("/<(noframes.*?)>(.*?)<(\/noframes.*?)>/si","",$str)//过滤noframes标签

$str=preg_replace("/<(\/?noframes.*?)>/si","",$str)//过滤noframes标签

$str=preg_replace("/<(i?frame.*?)>(.*?)<(\/i?frame.*?)>/si","",$str)//过滤frame标签

$str=preg_replace("/<(\/?i?frame.*?)>/si","",$str)//过滤frame标签

$str=preg_replace("/<(script.*?)>(.*?)<(\/script.*?)>/si","",$str)//过滤script标签

$str=preg_replace("/<(\/?script.*?)>/si","",$str)//过滤script标签

$str=preg_replace("/javascript/si","Javascript",$str)//过滤script标签

$str=preg_replace("/vbscript/si","Vbscript",$str)//过滤script标签

$str=preg_replace("/on([a-z]+)\s*=/si","On\\1=",$str)//过滤script标签

$str=preg_replace("//si","&#",$str)//过滤script标签,如javAsCript:alert(

清除空格,换行

function DeleteHtml($str)

{

$str = trim($str)

$str = strip_tags($str,"")

$str = ereg_replace("\t","",$str)

$str = ereg_replace("\r\n","",$str)

$str = ereg_replace("\r","",$str)

$str = ereg_replace("\n","",$str)

$str = ereg_replace(" "," ",$str)

return trim($str)

}

过滤HTML属性

1,过滤所有html标签的正则表达式:

复制代码 代码如下:

</?[^>]+>

//过滤所有html标签的属性的正则表达式:

$html = preg_replace("/<([a-zA-Z]+)[^>]*>/","<\\1>",$html)

3,过滤部分html标签的正则表达式的排除式(比如排除<p>,即不过滤<p>):

复制代码 代码如下:

</?[^pP/>]+>

4,过滤部分html标签的正则表达式的枚举式(比如需要过滤<a><p><b>等):

复制代码 代码如下:

</?[aApPbB][^>]*>

5,过滤部分html标签的属性的正则表达式的排除式(比如排除alt属性,即不过滤alt属性):

复制代码 代码如下:

\s(?!alt)[a-zA-Z]+=[^\s]*

6,过滤部分html标签的属性的正则表达式的枚举式(比如alt属性):

复制代码 代码如下:

(\s)alt=[^\s]*


欢迎分享,转载请注明来源:内存溢出

原文地址:https://www.54852.com/zaji/7173328.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-02
下一篇2023-04-02

发表评论

登录后才能评论

评论列表(0条)

    保存