2017年1月23日
摘要: 之前介绍了如何用git构建项目库及其后续操作的问题,但主要还是个人的操作问题,不太涉及到项目协作方面的问题,所以来说下这块。传送门在 "这里" (后面的可以不用看了)。 1.同步 首先就式同步问题:在项目协作的时候,本地开发了新功能以后就需要和中央库或者其他开发人员的库进行同步。主要进行的操作有:创 阅读全文
posted @ 2017-01-23 11:56 Arkenstone 阅读(606) 评论(1) 推荐(0) 编辑
  2017年1月20日
摘要: 这年头git基本都是项目开发的标配,之前刚好碰到了就花了两天时间系统学习了下。本文内容基本来自以下tutorial: "Learn Git" (建议直接去看原文,因为这个网站是有更新的)。这个是我看过对git进行版本控制和项目协作原理讲解最清楚的文档,就记下比较加深理解和记忆。 1.git是啥 Gi 阅读全文
posted @ 2017-01-20 13:06 Arkenstone 阅读(679) 评论(0) 推荐(0) 编辑
  2017年1月11日
摘要: Python的pandas包对表格化的数据处理能力很强,而SQL数据库的数据就是以表格的形式储存,因此经常将sql数据库里的数据直接读取为dataframe,分析操作以后再将dataframe存到sql数据库中。而pandas中的read_sql和to_sql函数就可以很方便得从sql数据库中读写数 阅读全文
posted @ 2017-01-11 00:51 Arkenstone 阅读(37461) 评论(0) 推荐(1) 编辑
  2017年1月10日
摘要: 利用pandas自带的函数notnull可以很容易判断某一列是否为null类型,但是如果这一列中某一格为空字符串“”,此时notnull函数会返回True,而一般我们选择非空行并不包括这一点,所以需要把这一类也去掉。 如果数据来源是MySQL数据库,用sql函数调用的时候也要注意相同的问题。 注:T 阅读全文
posted @ 2017-01-10 16:35 Arkenstone 阅读(28983) 评论(2) 推荐(1) 编辑
  2017年1月5日
摘要: 在多个文件或者不同语言协同的项目中,python脚本经常需要从命令行直接读取参数。万能的python就自带了 "argprase包" 使得这一工作变得简单而规范。PS:optparse包是类似的功能,只不过写起来更麻烦一些。 如果脚本很简单或临时使用,没有多个复杂的参数选项,可以直接利用 将脚本后的 阅读全文
posted @ 2017-01-05 00:21 Arkenstone 阅读(59911) 评论(4) 推荐(7) 编辑
  2016年12月19日
摘要: I. 最小编辑距离的定义 最小编辑距离旨在定义两个字符串之间的相似度(word similarity)。定义相似度可以用于拼写纠错,计算生物学上的序列比对,机器翻译,信息提取,语音识别等。 编辑距离 就是指将一个字符串通过的包括插入(insertion),删除(deletion),替换(substi 阅读全文
posted @ 2016-12-19 00:40 Arkenstone 阅读(3087) 评论(0) 推荐(0) 编辑
  2016年12月18日
摘要: I. 正则表达式(regular expression) 正则表达式是专门处理文本字符串的正式语言(这个是基础中的基础,就不再详细叙述,不了解的可以看 "这里" )。 []: 分割符,匹配任何在中括号里面的字符。比如 匹配大小写W; 匹配所有数字 ^(在字符前): 负选择,匹配除括号以外的字符。比如 阅读全文
posted @ 2016-12-18 22:17 Arkenstone 阅读(3778) 评论(0) 推荐(0) 编辑
  2016年12月16日
摘要: Stanford NLP课程简介 1. NLP应用例子 问答系统: IBM Watson 信息提取(information extraction) 情感分析 机器翻译 2. NLP应用当前进展 很成熟:垃圾邮件检测,词性标注(POS),实体名称识别(Named Entity Recognition, 阅读全文
posted @ 2016-12-16 00:22 Arkenstone 阅读(3813) 评论(0) 推荐(0) 编辑
  2016年11月30日
摘要: Python中利用强大的threading模块可以很容易的实现多线程开发,提高运行速度。这一般是对某个进行大量计算操作的的函数进行多线程处理,然后合并各线程的结果。获取函数返回值的方法可以如下: 1). 利用 类 运行结果为7.6s和4.2s。可以看到结果并非线性地减少4倍,这可能与运行结果需要同步 阅读全文
posted @ 2016-11-30 00:31 Arkenstone 阅读(10661) 评论(0) 推荐(0) 编辑
  2016年11月23日
摘要: 中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法,如有更好的工具,请推荐补充。 1. 中文标点集合 比较常见标点有这些: 调用 "zhon包" 的 函数即可得到这些中文标点。 如果想用英文的标点,则可调用str 阅读全文
posted @ 2016-11-23 01:14 Arkenstone 阅读(62981) 评论(0) 推荐(5) 编辑