书签分享收藏举报版权申诉 / 8

立即下载加入VIP,免费下载

当前位置：首页 > PPT模板 > 商务科技 > 解析Html生成标签树.docx

解析Html生成标签树.docx

文档编号：2802836
上传时间：2023-05-04
格式：DOCX
页数：8
大小：16.57KB

解析Html生成标签树.docx

《解析Html生成标签树.docx》由会员分享，可在线阅读，更多相关《解析Html生成标签树.docx（8页珍藏版）》请在冰点文库上搜索。

解析Html生成标签树.docx

解析Html生成标签树

（一）

2011-04-0109:

10:

24|分类：

HTML|标签：

tagstackilevel文本htmltag|字号大中小订阅解析Html成标签树结构以后，我们不但可以很容易取得想要的元素，同时也很容易将Html转换成对应的XML文件。

但是由于代码是在公司写的，所以没有粘贴出来的可能性，所以我只能给出大概的代码流程，具体细节描述，相信各位都很容易写出来，并且写的比我好，关键的是算法实现思想。

算法的关键如下：

1.Html中每个tag都是都将作为树中的一个节点存在的，每个tag都属于树中的某一层。

2.辅助数据结构：

栈（stack）、List、HashTable。

其中HashTable[i]（i属于int类型）是一个List，用于临时存储第i层子Tag。

3.顺序扫描Html文本，当遇到”

如果返回值不为空，那么将返回值入栈。

并且记录次tag的开始位置。

4.遇到这样的标志，表示可能是某个Tag的结束。

解析出此结束标志的Tag名。

如果在栈中找到与此结束标志名同名的元素（此元素属于栈中第iLevel层），那么表示找到匹配的Tag。

则Tag出栈，将HashTable[iLevel+1]到HashTable[maxLevel]中的所有元素取出作为此Tag的子节点。

放入第HashTable[iLevel]中。

并记录Tag的结束位置。

5.对于xxx之间的字符串xxx，将其作为特殊的HtmlTextTag处理。

出栈，和入栈操作与普通Tag类似。

6.当栈为空的时候表示最后一次出栈的Tag给根节点。

由于是在公司内部开发的东西，所以不可能把源代码拿出来粘贴，所以只能把大概的代码给出。

伪代码如下：

viewplaincopytoclipboardprint?

publicvoidParse（）{charch=GetCurrentChar（）;//取第一个字符while（!

Eof（））{if（ch=='='A'）&&（ch0）{//将文本作为一个普通Tag入栈Stack.Push（newHtmlTextTag（m_CurrentText））;}tag.BeginPos=iBeginPos;//记录此Tag的开始位置Stack.Push（tag）;//把Tag入栈}}ch=GetCurrentChar（）;if（ch=='/'）{//可能是结束标签tagName=GetTagName（）;//从上到下查看Stack，如果Tag中存在if（FindInStack（tagName））{//在栈中找到名为tagName的元素，则把找到的元素出栈PopTag（tagName）;}}}else{//对于xxx之间的文本xxx，这里将作为TextTag来处理m_CurrentText.Append（GetCurrentChar（））;}//继续处理下一个字符ch=MoveNext（）;}//解析完成以后，如果栈不空，那么把元素出栈，并把最后一次出栈的元素作为根if（Stack.Count>0）{HtmlTagtag=null;while（Stack.Count>0）{tag=Stack.Pop（）;PopTag（tag）;}//最后一个元素作为根元素if（tag!

=null）{m_listRoot.Add（tag）;}}}privatevoidPopTag（HtmlTagtag）{intiLevel=Stack.Count;//找到了元素，把iLevel到m_IMaxLevel中所有的元素按照全部作为tag的子元素for（inti=iLevel+1;i

文本段1文本段2文本段3*在Parse中，当解析出入栈前，需要先把"文本段1"入栈*在这里，解析出了结束标志*那么首先需要把"文本段2"入栈。

*解析出则需要把"文本段3'入栈。

*这样才能够保证"文本段1"和"文本段3"成为的子节点，而"文本段2"作为的子节点*/if（m_CurrentText.Lenght>0）{//将文本作为一个普通Tag入栈Stack.Push（newHtmlTextTag（m_CurrentText））;}HtmlTagtag=Stack.Pop（）;//元素出栈intiLevel=Stack.Count;//记录栈元素数while（tag.Name!

=tagName）{//将tag放入第iLevel层的List中HashTable[iLevel].Add（tag）;tag=Stack.Pop（）;iLevel=Stack.Count;}//元素出栈后续处理PopTag（tag）;}privateHtmlTagGetTag（）{if（"如果发现是

--开头的元素"）//则表示是注释{SkipComment（）;}HtmlTagtag=newHtmlTag（）;tag.Name=GetTagName（）;//这里的Attribute我将其作为HashTable类型，Hash[属性名]=属性值tag.Attribute=GetTagAttribute（）;returntag;}

publicvoidParse（）

{

charch=GetCurrentChar（）;//取第一个字符

while（!

Eof（））

{

if（ch=='

{

ch=MoveNext（）;//取下一个字符

if（（ch>='A'）&&（ch

{

iBeginPos=Index;//记录开始位置

//表示可能是一个标签

HtmlTagtag=GetTag（）;//解析此Tag

if（tag!

=null）

{

//首先判断是否有文本

if（m_CurrentText.Lenght>0）

{

//将文本作为一个普通Tag入栈

Stack.Push（newHtmlTextTag（m_CurrentText））;

}

tag.BeginPos=iBeginPos;//记录此Tag的开始位置

Stack.Push（tag）;//把Tag入栈

}

ch=GetCurrentChar（）;

if（ch=='/'）

{

//可能是结束标签

tagName=GetTagName（）;

//从上到下查看Stack，如果Tag中存在

if（FindInStack（tagName））

{

//在栈中找到名为tagName的元素，则把找到的元素出栈

PopTag（tagName）;

}

else

{

//对于xxx之间的文本xxx，这里将作为TextTag来处理

m_CurrentText.Append（GetCurrentChar（））;

}

//继续处理下一个字符

ch=MoveNext（）;

}

//解析完成以后，如果栈不空，那么把元素出栈，并把最后一次出栈的元素作为根

if（Stack.Count>0）

{

HtmlTagtag=null;

while（Stack.Count>0）

{

tag=Stack.Pop（）;

PopTag（tag）;

}

//最后一个元素作为根元素

if（tag!

=null）

{

m_listRoot.Add（tag）;

}

privatevoidPopTag（HtmlTagtag）

{

intiLevel=Stack.Count;

//找到了元素，把iLevel到m_IMaxLevel中所有的元素按照全部作为tag的子元素

for（inti=iLevel+1;i

{

for（j=0;j

{

tag.Children.Add（HashTable[i][j]）;

}

//表示栈已经为空，那么最后一次出栈的tag将作为根

if（Stack.Count==0）

{

m_listRoot.Add（tag）;

}

privatevoidPopTag（stringtagName）

{

/*

*元素出栈的时候，首先需要把当前已经存在了的HtmlTextTag入栈

*比如：

文本段1文本段2文本段3

*在Parse中，当解析出入栈前，需要先把"文本段1"入栈

*在这里，解析出了结束标志

*那么首先需要把"文本段2"入栈。

*解析出则需要把"文本段3'入栈。

*这样才能够保证"文本段1"和"文本段3"成为的子节点，而"文本段2"作为的子节点

*/

if（m_CurrentText.Lenght>0）

{

//将文本作为一个普通Tag入栈

Stack.Push（newHtmlTextTag（m_CurrentText））;

}

HtmlTagtag=Stack.Pop（）;//元素出栈

intiLevel=Stack.Count;//记录栈元素数

while（tag.Name!

=tagName）

{

//将tag放入第iLevel层的List中

HashTable[iLevel].Add（tag）;

tag=Stack.Pop（）;

iLevel=Stack.Count;

}

//元素出栈后续处理

PopTag（tag）;

}

privateHtmlTagGetTag（）

{

if（"如果发现是

{

SkipComment（）;

}

HtmlTagtag=newHtmlTag（）;

tag.Name=GetTagName（）;

//这里的Attribute我将其作为HashTable类型，Hash[属性名]=属性值

tag.Attribute=GetTagAttribute（）;

returntag;

}解析结束以后，通过访问m_listRoot就可以遍历出所有的节点了。

上面仅仅是给出了大概的方法，不过我相信要将上面的方法转换成可运行代码，各位都是有这个能力的。

。

解析Html生成标签树

（二）

2011-04-0109:

12:

08|分类：

HTML|标签：

解析divhtmltd阿道夫|字号大中小订阅前面两篇讲解了解析Html的思想个核心算法，感谢各位提出了意见。

先专门列出一文作为解释：

1、ViewStates提到，“”怎么办？

这个是可以解析出来的，其中解析后节点名为“td”,而“阿道夫骄傲了沙发

如图：

上面的图中，包含了上面提到的例子。

回复ml_dark兄

象这种..你看看你的解析结果....

解析结果如上图。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 解析 Html 生成标签

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：解析Html生成标签树.docx
链接地址：https://www.bingdoc.com/p-2802836.html

解析Html生成标签树.docx

热门标签