倾程记 flyby      本站首页     管理页面    写新日志    退出   


[CS技巧]网页数据抓取并分析 
flyby 发表于 2005/7/8 12:39:21

项目需求1、抓取网页数据,分析网页数据中的[下一页]的网址,继续抓取数据,直到把所有需要的网页全部下载完毕;2、对上一部抓取下来的数据进行分析,保存为需要的Xml格式文件,供相关程序使用。 技术分析使用C#作为开发工具,用WebRequest、WebResponse获取网页数据,用正则表达式分析数据,生成XML文件保存到指定目录。该程序应主要有两点:一、抓取网页数据,保存文件到指定目录用WebRequest、WebResponse获取网页数据,用StreamWriter将数据写入文件。获取网页中相关链接,重复获取网页数据。二、分析数据,生成XML文件读取第一步生成的文件,用正则分析数据,构造XML文件,保存到本地目录。

阅读全文(23597) | 回复(12) | 编辑 | 精华

回复:网页数据抓取并分析
fewag(游客)发表评论于2009/4/14 10:14:24

蓄电池修复、电池修复、修复仪、蓄电池修复仪、电动车维修 、蓄电池修复机、电瓶修复、电瓶修复机、电瓶修复仪、电动车维修培训班 考察 商务考察、公务考察、螺杆压缩机机柜、台湾液压、台湾液压元件、液压元件、液压系统、液压、液压油缸、打印机维修、金属软管

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:网页数据抓取并分析
kaitoo(游客)发表评论于2007/7/6 13:20:39

Kaitoo(开拓搜索) 具有业界最强大的互联网数据抓取和整合技术,要领先Google两年时间,MS一年… 该技术可以广泛地应用于无线搜索,商机搜索,本地搜索,某领域的垂直搜索,行业数据的抓取和整合等领域. 抓取的数据可以覆盖生活类,商业类,资讯类的,如: 音乐的下载、新闻资讯/天气预报/二手车/房产/招聘/交友/股票/彩票/博客/BBS/会展/促销转让/宾馆/餐馆/企业黄页/邮政编码-地名/公交/火车时刻/飞机票等。 该系统已经产品化,可以对外授权/OEM使用。 联系方式:                      E-MAIL:  kaitoo2006@yahoo.com.cn http://www.kaitoo.com QQ: 598397370 MSN:kaitoo.com@hotmail.com
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:网页数据抓取并分析
mlks_2008(游客)发表评论于2007/3/27 17:34:03

验证码的页面肯定很难的,请到做分析出来!
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:网页数据抓取并分析
ASKFORHELP(游客)发表评论于2006/10/7 22:27:04

请问如何将网页中的数据获取下来,保存到本地? 我想把一个网页上的数据保存下来,但不知道如何做,没做过这方面的东西,向您请教!您可以通过songjm1981@gmail.com联系我,或者msn :computer386sjm@hotmail.com,问题解决了,可以给您一些应该的酬劳,谢谢了!
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:网页数据抓取并分析
lalala(游客)发表评论于2006/10/5 10:41:17

请问 这种情况的网页数据怎么抓取? 通过下拉列表进行选择后 ,弹出生成数据的网页,该网页的数据怎么抓取?(需要对下拉列表中每一种选择情况生成的数据进行抓取)
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:网页数据抓取并分析
Dino(游客)发表评论于2006/7/17 20:30:47

以下引用xxb(游客|59.40.8.153)在2005-8-2 22:23:36的评论:如“http://51js.zahui.net/html/1/30225.htm”有个"验证码确认",如何获得验证码中的数字,请问能否做到,若能做到,请报价。基本上这个很难,要对图片进行分析,市面上实现验证码的方式各种各样,要做到抓取率100%是不可能的。
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:网页数据抓取并分析
fycooer(游客)发表评论于2006/5/15 12:03:40

以下引用网络幽灵(游客)在2005-10-10 12:46:20的评论:现在做些网页数据抓取,可以实现信息快速共享,www.ciimo.com www.ciimo.cn楼主做了么,我也想做这么个东东,可一直没动手. www.okdoit.com.cn
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:网页数据抓取并分析
梦想依旧(游客)发表评论于2005/10/18 11:45:42

这个原理是不难,但要适应网页的各种情况的话,要做好,很难的。
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

回复:网页数据抓取并分析
网络幽灵(游客)发表评论于2005/10/10 12:46:20

现在做些网页数据抓取,可以实现信息快速共享,www.ciimo.com www.ciimo.cn
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

to xxb
flyby发表评论于2005/8/26 15:17:21

你好,因为"验证码确认"是一个图片,无法获取的。或者说获取起来很难。
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
» 1 2 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)

 
«December 2025»
123456
78910111213
14151617181920
21222324252627
28293031

  公告

此Blog中的文章仅代表本人当时观点,不对其正确性做任何担保。转载原创,请知会作者。QQ  MSN


  我的分类(专题)
  最近日志

  最新评论

  留言板

  链接

  Blog信息

blog名称:倾程记
日志总数:27
评论数量:72
留言数量:-3
访问次数:234686
建立时间:2005年7月8日



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.047 second(s), page refreshed 144802534 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号