数据抓取可否发展出好的商业模式? - olmec - 商业模式
数据抓取可否发展出好的商业模式?
olmec : 商业模式 2推荐&5收藏昨天 上午9点52分这个帖子来源于周末 @刘永辉 发的两篇, 一篇是 有人愿意接数据抓取的活吗?(http://42qu.us/oQso) 还有一篇是 为什么没有一家公司专门做数据抓取的业务呢? (http://42qu.us/oQsp) 发这个帖子的初衷是想跟对这个话题感兴趣的,或者参与过数据抓取的同学做一点讨论,交流一下经验,发散一下思维,看看这方面有没有可能定义出什么商业模式来。作为42qu里面最廉价的产品经理,我目前带队开发着两个项目,一个是在线理财社区(http://42qu.us/oQsq),还有一个是财经资讯聚合(http://42qu.us/oQsr),跟数据抓取直接相关的是后者。目前抓取的对象包括财经新闻,股票行情,财经名人博客等,抓取的目标网站目前大概有20个,实现的语言是Java。@刘永辉 跟我聊天的时候说到,数据抓取服务中,一个需要注意的问题是维护,对于这点我也有些体会。目前我们主要是通过分析文档结构,定义相应的正则表达式,后台用Quarz定时启动抓取任务,包括启动多个线程,建立URL连接,分解文档抽取数据,再存入数据库等等。有些网站为了防抓取,会定期更改文档结构,导致我们的解析实效,所以所谓的维护,就是跟着他们的文档结构变化而变化。还有一点麻烦的是对于动态加载的数据,追溯JS调用,找到数据真正的源,比较麻烦。除了数据抓取以外,我们还做了简单的数据分析。对于抓取的新闻,简单定义了一个热度算法,对于相近的新闻,作了归并处理。我觉得,也许数据分析的价值要大于数据抓取,但是我们现在这方面的能力还比较弱。手头的这两个项目短期内都看不到盈利的可能,所以一直在考虑怎么用手头的资源,来给自己的项目带来一点现金流,目前已经实现的功能也就是数据抓取了。看到 @刘永辉 的帖子,眼前大亮,试着联系了一下,可惜已经包了出去。站内信跟他联系了一下,加了Q,可惜时间比较短,聊得还不深入。针对 为什么没有一家公司专门做数据抓取的业务呢? 这篇帖子,我去百度了"数据抓取"这个词,结果有很多,说明这个命题并不成立,事实上是有很多公司在做数据抓取的事情的。A.报价可以参照这个(http://42qu.us/oQss)。这些网站多数在卖静态数据,提供一次性服务,根据抓取信息的复杂程度和信息量,来确定价格,比较常见的是大众点评的评论数据,电商的价格数据等等。B.比价,团购,本地分类信息,这些应该也有不少数据是从网上抓取的,不知道他们是用了自己的开发力量,还是找了第三方服务。C.Discuz论坛好像是有文章自动采集的工具,算是数据抓取的一种实现。D.一些公司在做的所谓微博舆情监控,需要借助于微博官方的API接口,抓取微博数据。关于爬虫,我不知道我们目前的财经资讯数据抓取的功能算不算是爬虫,也没必要纠结于这个定义,只能说,能满足我们自己的需求。还看到不少使用Python实现网页数据抓取的,这个是主流?数据抓取是否是一项通用的,真实存在的需求? 哪些客户有这样的需求,是否愿意为这样的需求付费? 数据抓取这个事情是否可以作标准化,让它成为一个产品,以规范的方式运作?在数据抓取之上的数据分析,可以做哪些事情? @van @ghostdom.wj @Alex Rezit @echoHUST @丁家远 @杨子江 @陈钢用python是因为比较容易而已. 用什么语言都一样, 同样的流程(代理)->(模拟登录)->(抓数据). 盈利的话现在已经有很多服务了, 比如说实时监控App在市场中销售情况的, 各种新闻/体育赛事信息的推送等等...谈一下个人浅见: 有个很重要的认识:技术还没发展到具有足够的智能。技术和智能,扮演不同的分工,也体现了不同的内在价值。 技术还是在节约时间,节省重复劳动,提高工作效率。不可否认,这是有价值的。只是一种工具价值。 但对于数据,人们,特别是商业领域,更多的是一种智能价值——对于数据的理解、分析、判断。这是一种高附加值。这需要人的经验、阅历、知识、技能、人脉、能力的综合。目前的技术水平对此望尘莫及。 有点像“用粉笔划一道杠1美元,知道在哪里划杠值4999美元”的那个故事。 所以,如果真想发展出“数据抓取可否发展出好的商业模式” 一般是抽取一种工具需求,提供功能性服务,比如对于Twitter的数据监控、分析。有很多app。 在此基础上,开发一种在线工具,提供功能的服务:基础版免费、标准版xx价、定制版xx价 如果再想要提升,显得“智能“,那就得和某一领域的行家合作,比如电商领域,如果xx数据出现了xx情况,那可能是由于什么原因出现的,如果是由某个原因出现,则在数据上有什么表现——这样一套由经验和内在逻辑判断结合,形成一种模式,但可能逻辑交叉起来比较复杂,但能通过技术实现。但要面对具体情况,还是离不开人的解读和判断。我觉得有一个方式不错, 我们来写一个可配置的爬虫, 暂时只考虑抓取纯html的页面, 不考虑ajax等情况, 然后要方便用户自己去配置, 比如用浏览器插件点击要抓取的目标后能自动生成配置文件, 能配置url, 比如http://***?page={1-100} 然后免费给用户抓取, 让他们学会自己去配置, 然后在增值服务上赚钱, 比如定期推送, 比如数据分析(比如根据鞋子名称用算法来识别鞋子是运动鞋还是凉鞋, 是高跟还是坡跟等) 只有做到自己写平台, 不维护爬虫(交给用户自己维护), 才能做大这个业务, 个人看法谢谢张教主. @joyfire 给我们分享一点数据分析方面的经验吧,:) @Alex Rezit 是否可以详细说说市场销售情况监控的模式? 比如什么公司在做,有哪些典型用户,提供的服务具体是怎样的,收费模式是怎样的? 新闻和体育赛事的推送现在基本都是免费的? @于宏庆 我现在还没有确切的认识,感觉上,数据采集仅仅是初级原料,附加值最大的应该在深度加工上。你的观点加深了我这个印象。我们说的商业模式,简单的说,就是这个业务是怎么赚钱的,赚谁的钱;具体的操作上,就是要整合资源,满足愿意付费的需求。整合资源包括IT的经验,也包括对于特定领域,行业的经验,包括苦逼的自动运行的程序,也包括人工的数据资讯编辑团队,包括自己拥有的资源,也包括能够联络到的愿意合作的外部资源。关于人工的数据资讯编辑团队,早上专门去找一个朋友聊了聊,他做的是基础化工的信息和报价(http://www.icis-china.com/chemease/information/default.aspx),数据采集的方式主要靠电话,IT系统的呈现,加上人工的数据采集,就有了行业价格,信息的一个汇总,让客户了解到更全面的信息,也就有了他们存在的意义和价值。(相关的还有,有卓创资讯、中宇资讯、中华商务网、金银岛等等) P.S.他们暂时还没有做交易中介,不过有这方面的客户关系,数据信息平台,行业经验,做交易中介不是没有可能的。 @刘永辉 昨天聊天的时候你也提到了这点,简单的说就是要减少人力投入,提高服务的自动化程度,或者把一部分需要人参与的事情转嫁出去,这点我是认同的。单纯的说数据抓取,应该是可行的。如果涉及数据分析,估计就有些难度了。其实我考虑更多的是是否有一些需求量比较大的,相对通用一些的数据,比如网上的点评的数据,提供一个公共的数据平台,这样就不是点对点的卖项目,而是点对面的卖数据服务了。@olmec 是的, 不过如果你能做到自动化的点对点抓取, 就能在这个基础上总结数据做到你说的点对面, 但是如果不能把维护的工作分给用户, 那么你会面对两个问题, 一个是大量数据需求和维护成本的矛盾, 另一个是干活的人会不爽.