找回密码
 用户注册

QQ登录

只需一步,快速开始

查看: 5483|回复: 2

如何从网页下载文件中抓取所有链接

[复制链接]
发表于 2010-12-8 11:25:56 | 显示全部楼层 |阅读模式
请教一个问题。我写了个程序下载了一个网页信息,然后我要读取文件得到这个网页信息里面的所有连接,依次从文件读取1024个字节,然后解析,可是怎么判断出结尾处的连续性啊
就是比如前1024个字节
/><label for="parseurloff">禁用 URL 识别</label></p>
<p><input type="checkbox" name="smileyoff" id="smileyoff" value="1"  tabindex="1" /><label for="smileyoff">禁用 <a href="faq.php


后1024个字节是
?action=faq&amp;id=5&amp;messageid=32" target="_blank">Smilies</a></label></p>
<p><input type="checkbox" name="bbcodeoff"
他们在文件里面是连续的,现在分开了, 怎么办啊?

就是还有关于解析网页链接有什么好的办法啊。。。
比如把<script>...</script>脚本里面也解析出来
发表于 2010-12-8 23:35:48 | 显示全部楼层
其实这个就跟网络问题无关了。
对于已经下载的内容,可以用XHTML分析引擎来处理。查找一下开源的实现,都有的。
对于规范的XHTML,是可以方便的提取各类信息的。
 楼主| 发表于 2010-12-9 11:05:04 | 显示全部楼层
恩。。。明白了。。谢咯i

  不过自己解析确实很麻烦呵呵
您需要登录后才可以回帖 登录 | 用户注册

本版积分规则

Archiver|手机版|小黑屋|ACE Developer ( 京ICP备06055248号 )

GMT+8, 2024-12-22 18:14 , Processed in 0.015992 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表