博客园  :: 首页  :: 联系 :: 管理

2017年12月2日

摘要: 参见 基于中文人员特征的性别判定方法 理论,告诉一个名字,来猜猜是男是女,多多少少有点算命的味道。此命题是一种有监督的学习方法,从标注好的训练数据学习到一个预测模型,然后对未标注的数据进行预测。 1、首先,有监督的学习方法,就需要这样一批标注数据:大量的人名,以及其性别。训练数据集参考 SofaSo 阅读全文

posted @ 2017-12-02 07:03 天戈朱 阅读(805) 评论(0) 推荐(0) 编辑

摘要: 摘至小米大数据总监司马云瑞在2017年 11月4日中科院计算所举行大数据系统与应用研讨会上的分享主题。原文地址:https://mp.weixin.qq.com/s/95Zklj8ovheQV3Gnc-2h-Q , 小米公司经过7年的发展,积累了海量的日志和用户行为数据。基于全生态、多维度的数据资产 阅读全文

posted @ 2017-12-02 07:02 天戈朱 阅读(8336) 评论(0) 推荐(2) 编辑

摘要: 摘要:基于中文人名用字具有的较强的性别区分性,提出一种利用朴素贝叶斯分类器对中文人名性别进行判定的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定。在412775个中文人名语料上采用10重交叉 阅读全文

posted @ 2017-12-02 07:02 天戈朱 阅读(1051) 评论(0) 推荐(0) 编辑