LTR入门材料整理--小白学搜广推01

C++

{
⭐⭐常见变量: fileName / workspaceDir等问题;
1. \({workspaceFolder}表示的是当前打开文件夹所在的路径,也就是咱第一次从外边打开进来的文件夹; 2.\){fileDirname}表示当前打开文件所在的路径不包括文件名;
3. ${fileBasenameNoExtension}表示当前打开的文件名,不包括路径;

⭐⭐VSCode 如何编写运行 C、C++ 程序? - 谭九鼎的回答 - 知乎: https://www.zhihu.com/question/30315894/answer/154979413  ⭐⭐几乎可以当作问题大全查看;⭐⭐

⭐: VSCode实现C++多文件编译: 
    1. ⭐⭐命令行⭐⭐: https://blog.csdn.net/qq_34801642/article/details/103770219?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf
    2. ⭐基于MinGW: https://blog.csdn.net/u012030174/article/details/107791407?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf
    2.1 单纯修改tasks.json中的参数; VS Code:编译运行根目录下不同文件夹中的文件: https://blog.csdn.net/qq_34801642/article/details/106419763

    3. ⭐⭐使用CMake⭐⭐: https://blog.csdn.net/frostime/article/details/86756983?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.add_param_isCf&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.add_param_isCf

⭐其他:
快捷键整理:  Ctrl+Shift+B单纯编译,按F5为编译加调试
整理:
    1. Visual Studio Code (vscode) 配置C、C++环境/编写运行C、C++(主要Windows、简要Linux): https://blog.csdn.net/bat67/article/details/76095813?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.add_param_isCf&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.add_param_isCf
    2. windows 10上使用vscode编译运行和调试C/C++: https://zhuanlan.zhihu.com/p/77645306
    3. GDB进行调试时候文件路径不能有中文; 不会识别; https://blog.csdn.net/neve_give_up_dan/article/details/105471278?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf
    4. 视频教程: https://www.bilibili.com/video/BV14f4y127BC?from=search&seid=3260620193597550876 也是很多回答;
    5. 知乎-多文件编写也建议看看: VSCode配置C/C++学习环境(小白向): https://www.zhihu.com/people/zhang_tao0906;

}

LTR学习

{
LTR:
[
1. 三种方法思想、原理、比较(三大类方法主要区别在于损失函数); 开源代码的学习整理, 例如: RankNet
2. 常见的评价方式;
]
LTR参考:
[ 相关性排序: pointwise/pairwise/listwise 重要性排序: pagerank/TrustRank
0. ⭐机器学习排序之Learning to Rank简单介绍: https://blog.csdn.net/Eastmount/article/details/42367515?utm_medium=distribute.pc_relevant_download.none-task-blog-baidujs-2.nonecase&depth_1-utm_source=distribute.pc_relevant_download.none-task-blog-baidujs-2.nonecase
⭐1. 信息检索中的排序: https://www.cnblogs.com/bytedance/p/9286387.html
⭐1. Learning to rank 基本算法小结: https://www.6aiq.com/article/1576078092816
1.1 ltr基本方法;
1.2 评价指标
1.3 LambdaMART 模型原理
1.4 FTRL 模型原理
⭐最详细介绍三种方法优劣: 2. Learning to Rank:pointwise, pairwise, listwise 总结: https://www.cnblogs.com/shona/p/11989041.html
3. learning to rank 简介: https://www.cnblogs.com/cx2016/p/13252960.html
4. https://arxiv.org/pdf/2005.14713.pdf SIGIR20最佳论文:通往公平、公正的Learning to Rank: https://blog.csdn.net/abcdefg90876/article/details/108413884
5. Learning to Rank 简介: https://www.cnblogs.com/kemaswill/archive/2013/06/01/3109497.html
6. [Search Engines笔记]17: Authority metrics: https://blog.csdn.net/cos2cot/article/details/78859218
7. ltr git-hub 综述: https://github.com/frutik/awesome-search#learning-to-rank
8. 排序学习调研: 详细介绍2018年12月之前的模型,可供文章笔记: http://xtf615.com/2018/12/25/learning-to-rank/
9. Learning to Rank学习笔记--基于query的排序: https://zhuanlan.zhihu.com/p/69246361
]
LTR进一步阅读:
[
1. 2019-01-17 大众点评搜索基于知识图谱的深度学习排序实践: https://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651750220&idx=1&sn=42df36757a7007808c56b53ee6832713&chksm=bd12a6018a652f17de2f66e28ba203bde1e8ae22155687fd3abe73b0336900a855c057e6ad38&mpshare=1&scene=1&srcid=0117dRsxGP0zSDCmQ4pTmBDF&pass_ticket=yoIK672aXk4WPiJRK3zkCxK5C5wwnua1%2B%2F115s%2FKJyXjdHQlvctIkGZpDsP%2FPVPZ#rd
⭐知乎-搜狗算法工程师三部曲:
1. Learning To Rank 研究与应用: 基础LTR算法(2017年) https://zhuanlan.zhihu.com/p/26221188
2. 排序学习(LTR)杂谈 (上): 1) LTR概念、LTR评价、2)常见LTR算法、3)LTR数据处理 https://zhuanlan.zhihu.com/p/138436325
3. 排序学习(LTR)杂谈(下): 4)后 LTR 时代 5)LTR开源实现
3.1 推荐的几个大佬: Qingyao Ai: http://ir.aiqingyao.org/research
Thorsten Joachims: https://www.aminer.cn/profile/thorsten-joachims/53f48dd5dabfaea88977b59d
Jiafeng Guo(郭嘉丰) https://www.aminer.cn/profile/jiafeng-guo/53f438d4dabfaee0d9b7bb26
⭐知乎-机智的叉烧|OPPO搜索算法工程师: 主要做 query理解, 半年经验,未做rank
1. ACL2020 | 线上搜索结果大幅提升!亚马逊提出对抗式query-doc相关性模型 知乎笔记: https://zhuanlan.zhihu.com/p/144911605
2. 浅谈文本增强技术: https://www.zhihu.com/people/ceng-guan-rong-72/posts
3. 个性化搜索&推荐-有关用户理解的思考: https://zhuanlan.zhihu.com/p/262167155
4. 用户画像初探: https://zhuanlan.zhihu.com/p/261957299
5. 搜索系统中的召回: https://zhuanlan.zhihu.com/p/102428847
6. 搜索中的纠错问题初探: https://zhuanlan.zhihu.com/p/111788847
7. 浅谈Query理解和分析: https://zhuanlan.zhihu.com/p/136313695
8. 搜索中的意图识别: https://zhuanlan.zhihu.com/p/261367997
9. 搜索领域算法需要掌握的知识: https://zhuanlan.zhihu.com/p/261697891
10. 搜索系统中涉及的算法问题(常见算法): https://zhuanlan.zhihu.com/p/95921738
11. 浅谈模型的局限性: https://zhuanlan.zhihu.com/p/108678940
12. bad case分析: https://zhuanlan.zhihu.com/p/108680134
13. NER系列: 1)2018年的一篇NER综述笔记 https://zhuanlan.zhihu.com/p/133532858 2) ner自动化打标方法 https://zhuanlan.zhihu.com/p/133532494 3)近期做NER的反思:https://zhuanlan.zhihu.com/p/125676493
14. 算法工程师的工程能力是什么意思: https://zhuanlan.zhihu.com/p/86493797
14.1 数据的操作能力: 1) 数据处理格式化; SQL; 2) 找到算法空间、时间复杂度低的方法,让程序更加高效的运行;
14.2 模型的设计和开发能力: 1)设计: 针对实际情况选择/设计合适的模型算法来解决问题; 2) 模型发布让用户使用, 打包、上线,前端、应用端的帮助。 服务。
14.3 项目的部署和监控:1) 对于模型,是否有不可容忍的bad case。 2)上线流程是都规范,如果是大项目,你的模块的更新是否会对有关模块产生影响。 3)AB实验,实验的目标、内容以及检测的内容。 4)检测模型线上是不是有问题;
5) 线上有问题, 是否有马上可以回滚的方案; 6) 埋点:一方面确认程序正常运行, 另一方面记录必要的数据。

    2. 文本语义特征在图片搜索中的实践: https://zhuanlan.zhihu.com/p/84812565    
    3.搜索排序—概述(7篇文章): https://zhuanlan.zhihu.com/p/93196423
    
    2019年之前的 Deep Match 模型:      1)⭐辛俊波的博文《搜索中的深度匹配模型》 https://zhuanlan.zhihu.com/p/113244063   
                                       2)《搜索中的深度匹配模型(下)》https://zhuanlan.zhihu.com/p/118183738   
                                       3)《文本匹配相关方向打卡点总结》-夕小瑶 https://zhuanlan.zhihu.com/p/87384188
    ⭐sigir2019-LTR-tutorial PPT链接地址:  http://ltr-tutorial-sigir19.isti.cnr.it/slides/   搭配中文理解: 排序学习(LTR)杂谈 (下)  https://zhuanlan.zhihu.com/p/138436960  

    4. (2020-04)Transformer 在美团搜索排序中的实践: https://tech.meituan.com/2020/04/16/transformer-in-meituan.html  
    5. (2020-03)美团-WSDM Cup 2020检索排序评测任务第一名经验总结(多模融合排序检索): https://tech.meituan.com/2020/03/26/wsdm-2020-bert-lightgbm.html  
    6. (2019-01)大众点评搜索基于知识图谱的深度学习排序实践: https://tech.meituan.com/2019/01/17/dianping-search-deeplearning.html  
    7. 全面理解搜索Query:当你在搜索引擎中敲下回车后,发生了什么?  https://zhuanlan.zhihu.com/p/112719984  
    8. 漫谈搜索引擎 https://zhuanlan.zhihu.com/p/99624706
]
LTR论文整理: 

Data Mining:
    A类: KDD
    B类: WWW、WSDM、CIKM、ICDM
Information Retrieval:
    A类:SIGIR、WWW
    B类:WSDM、CIKM

LTR综述整理: Learning To Rank (LTR) https://github.com/marevol/learning-to-rank
sigir-2020: http://www.sigir.org/sigir2020/accepted-papers/
kdd-2020: https://dlp-kdd.github.io/accept.html  
wsdm-2020 http://www.wsdm-conference.org/2020/accepted-papers.php  
CIKM-2020: https://www.cikm2020.org/accepted-papers/accepted-research-papers/

[
    1. (2019-02-27 字节跳动)Unbiased LambdaMART: An Unbiased Pairwise Learning-to-Rank Algorithm       arXiv: https://arxiv.org/pdf/1809.05818.pdf     开源代码: https://github.com/QingyaoAi/Unbiased-Learning-to-Rank-with-Unbiased-Propensity-Estimation   
    2. (2020-09-10) Time-Aware Evidence Ranking for Fact-Checking     arXiv: https://arxiv.org/pdf/2009.06402.pdf  
    3. (2019-03-16 综述IR中的Rank)A Deep Look into Neural Ranking Models for Information Retrieval     arXiv: https://arxiv.org/abs/1903.06902
    4.(cikm2020)  Analysis of Multivariate Scoring Functions for Automatic Unbiased Learning to Rank    arXiv:https://arxiv.org/abs/2008.09061
    5. QingyaoAi/CS4960-6550:信息检索课程---https://github.com/QingyaoAi/CS4960-6550/blob/master/index.md  
    6. SIGIR20最佳论文:通往公平、公正的Learning to Rank: https://blog.csdn.net/abcdefg90876/article/details/108413884   知乎笔记:https://zhuanlan.zhihu.com/p/214242589  arXiv:https://arxiv.org/pdf/2005.14713.pdf   笔记: https://baijiahao.baidu.com/s?id=1673843893232232656&wfr=spider&for=pc
    7. (2018-03-16)Unbiased Learning to Rank with Unbiased Propensity Estimation  https://arxiv.org/abs/1804.05938?context=cs  开源
    ⭐sigir2019-LTR-tutorial PPT链接地址:  http://ltr-tutorial-sigir19.isti.cnr.it/slides/   搭配中文理解: 排序学习(LTR)杂谈 (下)  https://zhuanlan.zhihu.com/p/138436960  
    8. Fair Learning-to-Rank from Implicit Feedback  https://arxiv.org/abs/1911.08054
    9. A General Framework for Counterfactual Learning-to-Rank   https://arxiv.org/abs/1805.00065
    10. Unbiased Learning to Rank: Online or Offline? https://www.aminer.cn/pub/5ea9504391e0118eb1e1a072/unbiased-learning-to-rank-online-or-offline
    11. Consistent Position Bias Estimation without Online Interventions for Learning-to-Rank: https://arxiv.org/abs/1806.03555
    12. Policy Learning for Fairness in Ranking  https://arxiv.org/abs/1902.04056   开源代码: https://github.com/ashudeep/Fair-PGRank


    13. ULTRA: ULTR的官方文档,封装了常见的算法. 
        13.1 Github地址: https://github.com/ULTR-Community/ULTRA
        1.3.2 官方文档: https://ultr-community.github.io/ULTRA/ranking_model_reference.html  
    14. 从KDD 2018 Best Paper看Airbnb实时搜索排序中的Embedding技巧: https://zhuanlan.zhihu.com/p/55149901   原文章地址:https://dl.acm.org/doi/pdf/10.1145/3219819.3219885
    15. When Inverse Propensity Scoring does not Work: Affine Corrections for Unbiased Learning to Rank  https://arxiv.org/abs/2008.10242  代码地址: https://github.com/AliVard/  trust-bias-CIKM2020
    16. Context-Aware Learning to Rank with Self-Attention  https://arxiv.org/abs/2005.10084  代码: https://github.com/allegro/allRank 
    17. (CIKM-2018)Differentiable Unbiased Online Learning to Rank  代码: https://github.com/HarrieO/OnlineLearningToRank

    ⭐SIGIR-2020 Ranking相关: 
        1. Ranking-Incentivized Quality Preserving Content Modification https://arxiv.org/abs/2005.12989  代码实现: https://github.com/asrcompetition/content_modification_dataset
        2. A Deep Recurrent Survival Model for Unbiased Ranking   https://arxiv.org/abs/2004.14714   代码实现: https://github.com/Jinjiarui/DRSR
        3. rank性能提升: Efficient Document Re-Ranking for Transformers by Precomputing Term Representations  https://arxiv.org/abs/2004.14255  代码: https://github.com/Georgetown-IR-Lab/prettr-neural-ir
        4. Fair Learning-to-Rank from Implicit Feedback  https://arxiv.org/abs/1911.08054   
        5. Policy-Aware Unbiased Learning to Rank for Top-k Rankings  https://arxiv.org/abs/2005.09035  代码实现: https://github.com/HarrieO/2020topkunbiasedltr   
        6. SetRank: Learning a Permutation-Invariant Ranking Model for Information Retrieval https://arxiv.org/abs/1912.05891  代码实现: https://github.com/pl8787/SetRank  
        7. Answer Ranking for Product-Related Questions via Multiple Semantic Relations Modeling   https://arxiv.org/abs/2006.15599  
        8. Choppy: Cut Transformer For Ranked List Truncation  Choppy: Cut Transformer For Ranked List Truncation  
        9. Sampling Bias Due to Near-Duplicates in Learning to Rank https://webis.de/downloads/publications/papers/webis_2020d.pdf   代码: (JAVA)https://github.com/webis-de/sigir20-sampling-bias-due-to-near-duplicates-in-learning-to-rank
        10. Query-level Early Exit for Additive Learning-to-Rank Ensembles    https://arxiv.org/abs/2004.14641  
        11. Contextual Re-Ranking with Behavior Aware Transformers  http://ciir-publications.cs.umass.edu/getpdf.php?id=1383  
        12. Reputation (In)dependence in Ranking Systems: Demographics Influence Over Output Disparities  https://arxiv.org/abs/2005.12371  
        13. Do Neural Ranking Models Intensify Gender Bias?   https://arxiv.org/abs/2005.00372  
        14. The Curious Case of IR Explainability: Explaining Document Scores within and across Ranking Models  (未)  https://dl.acm.org/doi/abs/10.1145/3397271.3401286    
        15. Multi-grouping robust fair ranking  https://dl.acm.org/doi/abs/10.1145/3397271.3401292  
        16. Cascade Model-based Propensity Estimation for Counterfactual Learning to Rank  https://arxiv.org/abs/2005.11938  
        17. 数据集 Studying Ranking-Incentivized Web Dynamics: https://arxiv.org/abs/2005.13810  
        18. L2R2: Leveraging Ranking for Abductive Reasoning   https://arxiv.org/abs/2005.11223    代码: https://github.com/zycdev/L2R2 
        19. Feature Transformation for Neural Ranking Models   https://dl.acm.org/doi/pdf/10.1145/3397271.3401333  
        20. demo-paper  User Modeling Towards Stateful Learning to Rank: https://dl.acm.org/doi/abs/10.1145/3397271.3401455
    ⭐KDD-2020 Ranking 相关:       
        1. Ranking with Deep Multi-Objective Learning https://dlp-kdd.github.io/assets/pdf/a5-cao.pdf
        2. (Best Paper Award) COLD: Towards the Next Generation of Pre-Ranking System https://dlp-kdd.github.io/assets/pdf/a13-wang.pdf 
        3. (Best Paper Runner-Up) Learning-To-Rank with Context-Aware Position Debiasing: https://dlp-kdd.github.io/assets/pdf/a18-xiao.pdf

    ⭐wsdm2020 web search/ ranking相关: 
        1. (清华)A Context-Aware Click Model for Web Search  http://www.thuir.cn/group/~YQLiu/publications/wsdm2020Chen.pdf  
        2. (谷歌)A Stochastic Treatment of Learning to Rank Scoring Functions  
        3. Comparative Web Search Questions  
        4. Listwise Learning to Rank by Exploring Unique Ratings  https://arxiv.org/abs/2001.01828  代码: https://github.com/XiaofengZhu/uRank_uMart   
        5. (谷歌)Unbiased Learning to Rank via Propensity Ratio Scoring   https://arxiv.org/pdf/2005.08480.pdf  
        6. (人大-个性化搜索)Enhancing Re-finding Behavior with External Memories for Personalized Search  
        7. (google)Parameter Tuning in Personal Search Systems  https://storage.googleapis.com/pub-tools-public-publication-data/pdf/7942b414d269cbdb5308cc8a12c7e4e1f06beca4.pdf
] 
LTR算法-Github: 
[
1. python实现几个常见LTR算法: RankNet: https://github.com/shiba24/learning2rank 
2. python实现: https://github.com/jma127/pyltr  
3. ULTR-Community/ULTRA  https://github.com/ULTR-Community/ULTRA  
4. 开源框架整理: https://wildltr.github.io/ptranking/
    4.1 基于pytorch/python: PT-Ranking: A Benchmarking Platform for Neural Learning-to-Rank arXiv:https://arxiv.org/abs/2008.13368  开源代码: https://github.com/wildltr/ptranking   说明文档: https://wildltr.github.io/ptranking/  
    4.2 基于TensorFlow/python: TF-Ranking: https://github.com/tensorflow/ranking  
    4.3 基于JAVA: Rank Lib: http://www.lemurproject.org/ranklib.php

5. ⭐⭐利用lightgbm做 learning to rank 排序:1) 数据预处理; 2)模型训练;  3)模型决策可视化;  4) 预测;  5) NCDG评估;   6)特征重要度分析;  https://github.com/jiangnanboy/learning_to_rank
6. ⭐⭐⭐: 一个合格的搜索算法工程师应该具备哪些能力? https://www.zhihu.com/question/381003357 
    6.1     1) query理解: NLU--分词、新词发现、词权重计算、核心词识别、改写、同义词、紧密度分析、意图识别、纠错  
            2) 召回(粗排): 相关性计算:TFIDF,BM25等; 
            3) ranking(精排): LTR, 权威性、时效性、点击率预测;  语义匹配、点击调权等, DSSM, DBN等常规的算法
            4) 排索引构建、网页搜索中的爬虫、网页分析、摘要计算;
            5) 搜索算法工程师是对经验要求特别高的一个岗位,上述熟悉一个就很不错了; 
            6) 检索多需求、SEO作弊、以及架构工程角度
    6.2     1) NLP基础: 语言模型、n-gram、语法词法分析、NER、分类、word-embedding;
            2)大数据、pipline基础: 数据库知识、中间件知识、数据系统、分布式系统; hadooop、流处理架构 lambda architecture、   hdfs、hive、spark
            3)相关性、重要性;
            4) 工具比如xapian,solr、elasticsearch等等也可以参考学习,可以看看架构;
            5)C++\python\shell\git\linux\vim
            6) 爬虫、网页分析、pagerank、index(正排、倒排)、
                ranker(搜索公司的商业机密),公司: embedding + 大规模网络 + parameter server 做训练,主要还是特征非常复杂动辄几百万维稀疏特征,分布式那些问题又搞出来,ctr啥的放进去再调权,有时候还要接入广告这些。
                当然这部分还有专门的组做黄色反动/页面质量/权威性等等部分,一起扔到ranker模型里面。这地方真得是flink(流处理)/kafka(消息队列)写的溜算法又nb的人才行 
            7) query processor: 预处理/切词/改写/纠错/重要性/紧密度/双发/个性化/语法树构建    
    6.3    从用户输入到最后返回结果整个链条其实有点长,大致可以分为:Query suggestion,Query理解,文档召回,个性化排序,相关搜索词推荐等,  
            query理解流程  1) 预处理,无效字符表情什么的直接丢掉了,截取前n个字等
                          2) 纠错,包括错误检测和自动纠错,目前的方法有:噪声信道模型、序列标注模型、seq2seq模型
                          3) 分词&词性标注,这个一般都是现成的分词工具+用户词典来做了
                          4) 词权重计算,计算每个词的重要性,一般会根据用户的点击日志离线算好
                          5) 同义词
                          6) 意图分析,为了意图可以扩充,所以一般做成很多个二分类任务,方法比较多,最常见的还是CNN,也有BERT蒸馏到CNN的
                          7) 实体识别,识别搜索词中的实体词,一般也是序列标注模型BILSTM+CRF,或者BERT蒸馏到BILSTM
                          8) 丢词,因为目前的搜索引擎更多的是还是以文本匹配的方式进行文档召回,所以如果query中有一些语义不重要的词,那就会丢弃了,并且往往会有多次丢词,比如:北京著名的温泉,在进行召回的时候,会先丢弃“的”字,以“北京、著名、温泉”三个词去和文档集求交集,如果没有好的结果,这三个词会继续丢词,以“北京、温泉”和文档集求交集,这里一般也是用序列标注来做
                          9) Query改写,其实丢词&纠错也都算改写的一种,不过这里的改写是指找到原始Query的一些等价或者近似Query,规则的方法比较多,也有用seq2seq的
    6.4 字节搜索工程师:   1) 一是基础知识
                         2) 二是算法的灵活运用能力: 这就对搜索算法提出了新的要求,灵活运用跨方向的知识并不容易,需要平时广泛涉猎积累,当然我有不少同事之前是做其他方向的,自带其他维度的奇怪知识...
                         3) 如何理解机器学习和统计中的AUC?: https://www.zhihu.com/people/carlisle/answers
7. (2013年,整理很多数据集)Lerot: an Online Learning to Rank Framework: https://github.com/redreamality/learning-to-rank
8. (2018)lambdamart / lambdarank / evaluating 的实现:  https://github.com/sophwats/learning-to-rank  
9. ⭐深度学习排序艺术(聚焦深度学习在互联网搜索推荐广告的排序算法)-知乎专栏: https://zhuanlan.zhihu.com/c_1288235772122718208 
    9.1 CIKM 2020 搜索推荐广告论文集锦: https://zhuanlan.zhihu.com/p/267916397       CIKM-2020 召回、排序等等几个方向的文章
    9.2 Airbnb搜索:深度学习排序算法如何进化? https://zhuanlan.zhihu.com/p/238095817  讲了airbnb分别近几年的 深度学习+排序算法的进化路程; 
    9.3 Airbnb搜索:Embedding表示学习: https://zhuanlan.zhihu.com/p/240252162  Airbnb KDD 2018: 搜索推荐中怎样更好的学习embedding,如何应用到搜索推荐。 
    9.3 Airbnb搜索:重排序阶段如何优化搜索结果多样性?  https://zhuanlan.zhihu.com/p/239824669  Airbnb KDD 2020: Airbnb 搜索排序中在重排序阶段如何解决 结果多样性的问题。    

10. 深度学习做 搜索-推荐-广告 文章: Awesome-Deep-Learning-Papers-for-Search-Recommendation-Advertising https://github.com/guyulongcs/Awesome-Deep-Learning-Papers-for-Search-Recommendation-Advertising

]
百度: 
[   
    search_science 主页: http://searchscience.baidu.com/index.html
    dawei yin主页: https://www.yindawei.com/
    王帅强主页: http://wangshuaiqiang.net/      dbpl:https://dblp.org/pid/16/1524.html
]
书籍: 
[
    1. 王喆老师的深度学习推荐系统: 王老师推荐过一篇youtube的推荐的论文和airbnb的论文非常有借鉴价值。书写的也非常好,我司的搜索和推荐共享架构看王老师的书对做搜索也非常有价值。  
    2. 信息检索导论

]

一些其他基础: 
字节算法工程师: 算法工程师技术路线图-知乎链接: https://zhuanlan.zhihu.com/p/192633890 
1. python: 
    1.1 学习掌握Python的基本语法: 《Learn Python the Hard Way》  自我考核:能够读懂大多数的内部项目及一些开源项目代码的基本模块,例如pandas, sklearn等。
    1.2 学习Python的编程风格,建议学习: 观远内部的Python代码规范   自我考核:编写的代码符合编码规范,能够通过各类lint检查。
    1.3 Python进阶,这方面有一本非常著名的书《Fluent Python》,深入介绍了Python内部的很多工作原理,读完之后对于各类疑难问题的理解排查,以及语言高级特性的应用方面会很有帮助。另外动态语言元编程这块,《Ruby元编程》也是一本非常值得推荐的书。
2. Linux基础: CentOS和macOS,都是Unix/Linux系
    2.1 Shell与命令行工具,软件包管理,用户及权限,系统进程管理,文件系统基础等
    2.2 入门学习资料推荐《鸟哥的Linux私房菜》,基本涵盖了Linux系统管理员需要掌握知识的方方面面。进阶可以阅读《Unix环境高级编程》,对于各种系统调用的讲解非常深入,可以为后续性能调优等高级应用打下基础。

}

Aminer科研动态: https://www.aminer.cn/user/notification

shona笔记: https://www.cnblogs.com/shona/p/12364216.html

其他:
{
1. 无偏估计、有偏估计: 本质是: 对于变量/参数 真实值不能确定(数据难获取、样本大),使用采样分析进一步估计真实值的过程中产生的误差。 E(xi) =? E(x) ? 百度知道: https://zhidao.baidu.com/question/250427382.html
2. 痘痘: 氨基酸洁面
2.1 氨基酸不是最温和的! 乳化型洁面> 氨基酸洁面
洁面: 1) 日常 表面; 2)定期 深层(ICE-GINA水杨酸面模); 清洁的目的:1)去除皮肤上得污垢 2)温和不损伤皮肤\ 3)赋予皮肤有营养的成分。

}

算法工程师:
1. 工程能力
2. 机器学习/深度学习:
2.1 模型的原理:
* 数学推导
* 优化算法
2.2 数学能力: 离散数学、随机过程、优化
2.3 论文阅读:
* 经典论文
* 理解前提和结论
2.4 模型的训练/测试/服务
2.5 特征工程:
* 特征提取
* 从特征到向量空间模型
2.6 工具和支持库的使用
2.7 模型的实际应用
3. 数据收集/清晰/处理: log/爬虫等等;

4. 计算机网络:    操作系统:      编译原理: 
5. 常用包的 使用经验、理论、
posted @ 2021-01-18 20:28  自私的人  阅读(1117)  评论(0编辑  收藏  举报