如何从网页下载文件中抓取所有链接

c527380322 · 发表于 2010-12-8 11:25:56

请教一个问题。我写了个程序下载了一个网页信息，然后我要读取文件得到这个网页信息里面的所有连接，依次从文件读取1024个字节，然后解析，可是怎么判断出结尾处的连续性啊
就是比如前1024个字节
/><label for="parseurloff">禁用 URL 识别</label></p>
<p><input type="checkbox" name="smileyoff" id="smileyoff" value="1" tabindex="1" /><label for="smileyoff">禁用 <a href="faq.php

后1024个字节是
?action=faq&id=5&messageid=32" target="_blank">Smilies</a></label></p>
<p><input type="checkbox" name="bbcodeoff"
他们在文件里面是连续的，现在分开了，怎么办啊?

就是还有关于解析网页链接有什么好的办法啊。。。
比如把<script>...</script>脚本里面也解析出来

winston · 发表于 2010-12-8 23:35:48

其实这个就跟网络问题无关了。
对于已经下载的内容，可以用XHTML分析引擎来处理。查找一下开源的实现，都有的。
对于规范的XHTML，是可以方便的提取各类信息的。

c527380322 · 发表于 2010-12-9 11:05:04

恩。。。明白了。。谢咯i

不过自己解析确实很麻烦呵呵

		自动登录	找回密码
密码			用户注册