网络数据挖掘

网络数据挖掘是在云云的互联网上截取一些网站有用的信息

我大学的专业是信息科技,对数据挖掘是非常感兴趣的,自问我个人没可能有很多时间看和挖掘全世界的信息,只好靠机器帮我找找了。

04年起开始用PHP截取一些网站的信息,拿回来后再进行分析及整合,当然把有用的也放到网站上啦=v=

做网站信息截取是比较化时间的,因为网页上太多无用的信息(如广告、菜单、其他文章推介等….),每个页都要做一个分析模板来拿取我想要的信息,有时候更要为一种信息进行次抓取,就是见一页拆解一页,很考知力的。

技術层面上,最基本的要有:

  • HTTP request 工具
  • HTML 分析功能
  • Javascript 分析功能
  • XML 分析功能
  • 大量代理
  • 模拟人性化读取信息路径

不断重复做以上的东西,每个网页的截取模板,然后在数据库中纵横交错地挖掘信息…

4年了,我的机子拿到的东西已超过30GB多,有时候想,我会做一个搜索引擎吗?

6 Replies to “网络数据挖掘”

  1. 1台机器就可以验证程序是否可以实现了
    说到数据,我现在就是没数据,在想要不要自己造个什么数据出来
    -_-

    效果的话,昨天教授说了可以把机房20几台机器给我玩,不过我没数据 -_- 没东西往里面装

  2. -_,-
    hadoop 不是要多台机才见成效吗
    太少内刈存玩mapreduce 也没意思啦
    都不知保存到那个数据

  3. kui
    我建议…
    直接开始搞Hadoop+HBase
    用mapreduce玩很爽很轻松很愉快
    完全可以仿制google来做一个data minning system
    不过30GB做cloud computing有点小 -_-

Comments are closed.