简历项目的梳理和面试准备

简历的目的是拿到面试机会，所以要

1、简历项目

一、投资人用户画像，给新的项目推荐投资机构，文本的处理，文本相似问题，用tfidf和浅语义模型解决，文本检索技术，可以归类为文本检索的问题

　　文本预处理：中文分词，然后去除停用词、删除低频词、进行word ->id转换

　　可选的优化：比如用TF-IDF为词汇加上局部权重，构建TF_IDF向量

　　将训练文本用Dictionary转换成id表现的形式，这就得到了Term-Document矩阵A

　　降维，将奇异值S减少为k个（topic值），当然k是个经验数字，比如200-500，然后U选前k列，V选前k列；S选左上角k行k列对角方阵，其实V的

　　新的查询文本q，其查询向量为q上公式；两个向量的相似度计算常常使用consine余弦相似度

gensim库的实现：

LSI模块

Similarities模块

二、发现创投新概念，文本分类，打标签问题，文本分类有传统的 tfidf + lr 或者svm；深度学习中词嵌入+lstm，词嵌入的是通过公司内部收集关于证券的数据，

三、搜狗大数据用户画像：特征：搜索文本，label：年龄、性别、学历

　　三个子任务、任务查询词、

用户画像：

研究准备与数据收集 -> 亲和图 -> 人物原型框架 -> 优先级排序 -> 完善人物原型 ->

用户画像构建流程：

　　基础数据收集 -> 行为建模 -> 构建画像

　　网络行为数据文本挖掘基本属性

　　服务内行为数据　　　　自然语言处理购买能力

　　用户内容偏好数据　　　　机器学习行为特征

　　用户交易数据　预测算法　　　　兴趣爱好

　　　　　　　　　　　　　　聚类算法　　　　心理特征

　　　　　　　　　　　　　　　　　　　　　　社交网络

1、数据预处理

　　停用词：教育高：空格留下，教育低，用之的概率大，

　　分词处理：jieba分词

2、特征表示：

　　（1）Bag of words 词袋：至少5篇文档中的词汇来组成词表，统计one-gram及bi-gram特征，该特征可以有效体现出不同类别用户的用词习惯，

　　（2）词嵌入：使用google的word2vec工具在搜狗新闻语聊上训练得到了常用词的词向量，应用到用户的历史查询词中，该方法得到的词向量可以有效计算出两个词之间的相似度，从而表示出不同用户查询历史的差异

　　　word2vec词向量可以较好地表达不同词之间的相似和类比关系

　　（3）主题词嵌入：

　　该任务中，每个用户具有多组查询词，其中有些查询相关性较强，有些则完全不相关，使用主题模型来抽取用户的多个查询主题，更有利于刻画用户的查询习惯，基于LDA的结果，使用topical word

　　embedding模型训练得到每个查询词的词向量。TWE模型与常见的word2vec不同在于，其计算出的词向量同时考虑词的上下文及该词的所在主题的信息。使用tfidf特征值对用户查询历史中的词向量进行加权平均，可以得到表示整体查询的向量值，可以将其直接作为多个分类模型的输入，完成用户层级的分类任务

　　 (4) doc2vec特征表示：
　　为了将文档直接表示成一个固定长度的向量，采用Doc2vec方法，它通过直接构造文档向量，并将该向量加入到该文档中词向量的训练过程，进行共同训练，从而得到能直接体现该文档语义特征的向量

　　根据训练文档向量的网络结构不同，可分为DM分布式内存模型和dbow 分布式词袋 DM是更具上下文和文档id预测中心词，dbow是以文档id去预测文档中的词

　　(5) 人工构建的特征：

　　查询词的个数、查询词的平均长度、查询词的最大长度、有空格的query占总查询的比例、

3、模型结构

　　基于TFIDF的传统机器学习模型

　　第一层模型：尝试了sklearn中的LR、KNN、SVC、RF和xgboost中的gliear和gbtree。其中，由于tfidf特征过于稀疏、维度过高、树形模型表现结果很差，由于数据量太大，KNN和SVC算法都不能训练出结果

　　gliear线下测试要高于逻辑回归，但是线下成绩不如逻辑回归

　　基于分布式向量的神经网络模型

　　第二层融合模型（stacking）：

　　融合的优点：