网络数据挖掘

网络数据挖掘是在云云的互联网上截取一些网站有用的信息

我大学的专业是信息科技,对数据挖掘是非常感兴趣的,自问我个人没可能有很多时间看和挖掘全世界的信息,只好靠机器帮我找找了。

04年起开始用PHP截取一些网站的信息,拿回来后再进行分析及整合,当然把有用的也放到网站上啦=v=

做网站信息截取是比较化时间的,因为网页上太多无用的信息(如广告、菜单、其他文章推介等….),每个页都要做一个分析模板来拿取我想要的信息,有时候更要为一种信息进行次抓取,就是见一页拆解一页,很考知力的。

技術层面上,最基本的要有:

  • HTTP request 工具
  • HTML 分析功能
  • Javascript 分析功能
  • XML 分析功能
  • 大量代理
  • 模拟人性化读取信息路径

不断重复做以上的东西,每个网页的截取模板,然后在数据库中纵横交错地挖掘信息…

4年了,我的机子拿到的东西已超过30GB多,有时候想,我会做一个搜索引擎吗?