如何从网页下载文件中抓取所有链接
请教一个问题。我写了个程序下载了一个网页信息,然后我要读取文件得到这个网页信息里面的所有连接,依次从文件读取1024个字节,然后解析,可是怎么判断出结尾处的连续性啊就是比如前1024个字节
/><label for="parseurloff">禁用 URL 识别</label></p>
<p><input type="checkbox" name="smileyoff" id="smileyoff" value="1"tabindex="1" /><label for="smileyoff">禁用 <a href="faq.php
后1024个字节是
?action=faq&id=5&messageid=32" target="_blank">Smilies</a></label></p>
<p><input type="checkbox" name="bbcodeoff"
他们在文件里面是连续的,现在分开了, 怎么办啊?
就是还有关于解析网页链接有什么好的办法啊。。。
比如把<script>...</script>脚本里面也解析出来 其实这个就跟网络问题无关了。
对于已经下载的内容,可以用XHTML分析引擎来处理。查找一下开源的实现,都有的。
对于规范的XHTML,是可以方便的提取各类信息的。 恩。。。明白了。。谢咯i
不过自己解析确实很麻烦呵呵
页:
[1]