摘要:
使用Talend open studio ,从mysql数据源中读取数据,将数据导出到excel文档,另外一个mysql数据库,和一个普通文件,遇到标题的错误,模型如下图所示: tMap将30.7中的每一个字段都要输出到excel字段中,如下图所示: 但是其中有两个字段,update_time和last_msg_intime为date类型,到了excel中,应该设置为... 阅读全文
摘要:
1 开源数据汇集工具 1.1 Talend Open Studio Talend Open Studio 是一个 ETL (Extract, Transform, and Load) 工具,可执行数据仓库到数据库之间的数据同步,提供基于 Eclipse RCP 的图形操作界面。 项目源码:http://talendforge.org/trac/tos 项目主页: http://www.talen... 阅读全文
摘要:
在ubuntu环境下,使用scrapy定时执行抓取任务,由于scrapy本身没有提供定时执行的功能,所以采用了crontab的方式进行定时执行: 首先编写要执行的命令脚本cron.sh #! /bin/sh ... 阅读全文
摘要:
1. 获取某一个节点下所有的文本数据: data = response.xpath('//div[@id="zoomcon"]')
content = ''.join(data.xpath('string(.)').extract())
这段代码将获取,div为某一个特定id的所有文本数据: http://www.nhfpc.gov.cn/fzs/s3576/200804/cdbda975... 阅读全文
摘要:
sudo apt-get install python-mysqldb #!/usr/bin/python
#-*-coding:utf-8-*- '''
This file include all the common routine,that are needed in
the crawler project.
Author: Justnzhang @(uestczhangchao@qq.... 阅读全文
摘要:
在ubuntu环境下, 想往/etc/sudoers中添加可以执行sudo操作的用户,使用root将/etc/sudoers的权限修改为755后,提示出现标题中的错误: 修正方法:将/etc/sudoers的owner和组修改为root: chown root:root /etc/sudoers 阅读全文
摘要:
1. apt-get install mysql-server mysql-client 输入root的密码: 确认root的密码: 2. 连接测试是否成功:mysql –hlocalhost –uroot –p 3. ps –ef | grep mysql 查看mysql的运行情况 4. mysql重启, service mysql restart 在提示信息... 阅读全文
摘要:
首先安装tigervnc-server: yum install tigervnc-server 安装好后,设置 vi /etc/sysconfig/vncservers [root@gateway-001 ~]# cat /etc/sysconfig/vncservers # The VNCSERVERS variable is a list of display:user pairs.... 阅读全文
摘要:
由于spark-1.3作为一个里程碑式的发布, 加入众多的功能特性,所以,有必要好好的研究一把,spark-1.3需要scala-2.10.x的版本支持,而系统上默认的scala的版本为2.9,需要进行升级, 可以参考ubuntu 安装 2.10.x版本的scala. 配置好scala的环境后,下载spark的cdh版本, 点我下载. 下载好后,直接解压,然后在bin目录直接运行./spark... 阅读全文
摘要:
Ubuntu 14.04.1 LTS上默认的scala版本是2.9的,而最新版本的spark-1.3需要最低版本的scala版本为2.10.x,先使用apt-get remove scala将机器上的老版本scala清除干净。在这个位置下载 http://www.scala-lang.org/download/2.10.5.html scala, 现在好后,解压, 最后编辑~/.bashrc,设... 阅读全文