c527380322 发表于 2010-12-8 11:25:56

如何从网页下载文件中抓取所有链接

请教一个问题。我写了个程序下载了一个网页信息,然后我要读取文件得到这个网页信息里面的所有连接,依次从文件读取1024个字节,然后解析,可是怎么判断出结尾处的连续性啊
就是比如前1024个字节
/><label for="parseurloff">禁用 URL 识别</label></p>
<p><input type="checkbox" name="smileyoff" id="smileyoff" value="1"tabindex="1" /><label for="smileyoff">禁用 <a href="faq.php


后1024个字节是
?action=faq&amp;id=5&amp;messageid=32" target="_blank">Smilies</a></label></p>
<p><input type="checkbox" name="bbcodeoff"
他们在文件里面是连续的,现在分开了, 怎么办啊?

就是还有关于解析网页链接有什么好的办法啊。。。
比如把<script>...</script>脚本里面也解析出来

winston 发表于 2010-12-8 23:35:48

其实这个就跟网络问题无关了。
对于已经下载的内容,可以用XHTML分析引擎来处理。查找一下开源的实现,都有的。
对于规范的XHTML,是可以方便的提取各类信息的。

c527380322 发表于 2010-12-9 11:05:04

恩。。。明白了。。谢咯i

不过自己解析确实很麻烦呵呵
页: [1]
查看完整版本: 如何从网页下载文件中抓取所有链接