[CS技巧]网页数据抓取并分析  |
flyby 发表于 2005/7/8 12:39:21 | 项目需求1、抓取网页数据,分析网页数据中的[下一页]的网址,继续抓取数据,直到把所有需要的网页全部下载完毕;2、对上一部抓取下来的数据进行分析,保存为需要的Xml格式文件,供相关程序使用。
技术分析使用C#作为开发工具,用WebRequest、WebResponse获取网页数据,用正则表达式分析数据,生成XML文件保存到指定目录。该程序应主要有两点:一、抓取网页数据,保存文件到指定目录用WebRequest、WebResponse获取网页数据,用StreamWriter将数据写入文件。获取网页中相关链接,重复获取网页数据。二、分析数据,生成XML文件读取第一步生成的文件,用正则分析数据,构造XML文件,保存到本地目录。
|
阅读全文(23597) | 回复(12) | 编辑 | 精华 |
| 回复:网页数据抓取并分析 |
|
fewag(游客)发表评论于2009/4/14 10:14:24 | 蓄电池修复、电池修复、修复仪、蓄电池修复仪、电动车维修 、蓄电池修复机、电瓶修复、电瓶修复机、电瓶修复仪、电动车维修培训班 考察 商务考察、公务考察、螺杆压缩机机柜、台湾液压、台湾液压元件、液压元件、液压系统、液压、液压油缸、打印机维修、金属软管
|
个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| 回复:网页数据抓取并分析 |
|
kaitoo(游客)发表评论于2007/7/6 13:20:39 | Kaitoo(开拓搜索) 具有业界最强大的互联网数据抓取和整合技术,要领先Google两年时间,MS一年…
该技术可以广泛地应用于无线搜索,商机搜索,本地搜索,某领域的垂直搜索,行业数据的抓取和整合等领域.
抓取的数据可以覆盖生活类,商业类,资讯类的,如:
音乐的下载、新闻资讯/天气预报/二手车/房产/招聘/交友/股票/彩票/博客/BBS/会展/促销转让/宾馆/餐馆/企业黄页/邮政编码-地名/公交/火车时刻/飞机票等。
该系统已经产品化,可以对外授权/OEM使用。
联系方式:
E-MAIL: kaitoo2006@yahoo.com.cn
http://www.kaitoo.com
QQ: 598397370
MSN:kaitoo.com@hotmail.com
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| 回复:网页数据抓取并分析 |
|
mlks_2008(游客)发表评论于2007/3/27 17:34:03 | 验证码的页面肯定很难的,请到做分析出来!
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| 回复:网页数据抓取并分析 |
|
ASKFORHELP(游客)发表评论于2006/10/7 22:27:04 | 请问如何将网页中的数据获取下来,保存到本地? 我想把一个网页上的数据保存下来,但不知道如何做,没做过这方面的东西,向您请教!您可以通过songjm1981@gmail.com联系我,或者msn :computer386sjm@hotmail.com,问题解决了,可以给您一些应该的酬劳,谢谢了!
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| 回复:网页数据抓取并分析 |
|
lalala(游客)发表评论于2006/10/5 10:41:17 | 请问 这种情况的网页数据怎么抓取?
通过下拉列表进行选择后 ,弹出生成数据的网页,该网页的数据怎么抓取?(需要对下拉列表中每一种选择情况生成的数据进行抓取)
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| 回复:网页数据抓取并分析 |
|
Dino(游客)发表评论于2006/7/17 20:30:47 | 以下引用xxb(游客|59.40.8.153)在2005-8-2 22:23:36的评论:如“http://51js.zahui.net/html/1/30225.htm”有个"验证码确认",如何获得验证码中的数字,请问能否做到,若能做到,请报价。基本上这个很难,要对图片进行分析,市面上实现验证码的方式各种各样,要做到抓取率100%是不可能的。
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| 回复:网页数据抓取并分析 |
|
fycooer(游客)发表评论于2006/5/15 12:03:40 | 以下引用网络幽灵(游客)在2005-10-10 12:46:20的评论:现在做些网页数据抓取,可以实现信息快速共享,www.ciimo.com www.ciimo.cn楼主做了么,我也想做这么个东东,可一直没动手. www.okdoit.com.cn
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| 回复:网页数据抓取并分析 |
|
梦想依旧(游客)发表评论于2005/10/18 11:45:42 | 这个原理是不难,但要适应网页的各种情况的话,要做好,很难的。
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| 回复:网页数据抓取并分析 |
|
网络幽灵(游客)发表评论于2005/10/10 12:46:20 | 现在做些网页数据抓取,可以实现信息快速共享,www.ciimo.com www.ciimo.cn
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
| to xxb |
flyby发表评论于2005/8/26 15:17:21 | 你好,因为"验证码确认"是一个图片,无法获取的。或者说获取起来很难。
|
| 个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除 |
|
|
| « | December 2025 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | | | |
|
| 公告 |
此Blog中的文章仅代表本人当时观点,不对其正确性做任何担保。转载原创,请知会作者。QQ MSN | |
| Blog信息 |
|
blog名称:倾程记 日志总数:27 评论数量:72 留言数量:-3 访问次数:234686 建立时间:2005年7月8日
| |

|