随笔分类 -  Feature-NLP

web crawler + data analysis + data compression
摘要:From: https://www.coursera.org/learn/introduction-to-large-language-models/home/week/1 Bard 预测后面的文字。 完成一些指令。 算是一种特殊的 Instruction Tuned。 Tuning: 为了特定领域 阅读全文
posted @ 2023-10-02 14:44 郝壹贰叁 阅读(18) 评论(0) 推荐(0) 编辑
摘要:Ref: https://www.kaggle.com/markwijkhuizen/code Google - Isolated Sign Language Recognition 背景知识 可视化 ASL Competition Drawing landmarks 250个类别,也不算多。 链接 阅读全文
posted @ 2023-07-04 10:21 郝壹贰叁 阅读(40) 评论(0) 推荐(0) 编辑
摘要:DeBERTa [case] Google AI4Code – Understand Code in Python Notebooks Predict the relationship between code and comments RoBERTa, DeBERTa (v1, v2, v3) R 阅读全文
posted @ 2023-07-04 10:00 郝壹贰叁 阅读(246) 评论(0) 推荐(0) 编辑
摘要:GPT,GPT-2,GPT-3 论文精读【论文精读】 GPT1: Improving Language Understanding by Generative Pre-Training GPT2: language_models_are_unsupervised_multitask_learners 阅读全文
posted @ 2023-06-16 08:49 郝壹贰叁 阅读(98) 评论(0) 推荐(0) 编辑
摘要:本篇来自如下。不同的人对transformer的讲解角度不同,多听听,在多角度认知的前提下,方能真正理解transformer。 水论文的程序猿 LiMu的视频教程 Shusen Wang 全网最详细Transformer中的mask操作及代码详解【推荐】【系列10-4-3】,学习材料【代码】 Na 阅读全文
posted @ 2021-12-02 11:08 郝壹贰叁 阅读(118) 评论(0) 推荐(0) 编辑
摘要:正则表达式 以实践为准:正则表达式在线测试 当 中间有一段不确定。 runoo+b,可以匹配 runoob、runooob、runoooooob 等,+ 号代表前面的字符必须至少出现一次(1次或多次)。 runoo*b,可以匹配 runob、runoob、runoooooob 等,* 号代表前面的字 阅读全文
posted @ 2021-08-30 19:16 郝壹贰叁 阅读(41) 评论(0) 推荐(0) 编辑
摘要:第60讲 知识图谱的行业应用 问答系统:语义解析 + 信息检索 + 人工反馈 可视化: Cytoscape.js,对网络进行操作,内置了算法。 EChart D3.js 特定领域有特定的属于自己的知识图谱。 知识图谱导论-浙江大学 刘先生 44 videos 15,033 views Last up 阅读全文
posted @ 2021-03-26 18:37 郝壹贰叁 阅读(41) 评论(0) 推荐(0) 编辑
摘要:课程:【推荐系统 python】推荐系统从入门到实战,18课时,based on Python。 油管基础:Recommender System The Search & Recommendations Group is working to enhance its search retrieval 阅读全文
posted @ 2020-12-10 20:36 郝壹贰叁 阅读(102) 评论(0) 推荐(0) 编辑
摘要:Ref: 「英语流利说」是如何进行比对评分的? 关于打分使用的算法 目前工业界采用的主流的跟读口语评分方法主要是基于隐马尔可夫模型(Hidden Markov Model) 的语音识别引擎, 利用其似然分数值 (likelihood score) 以及其他相关的信息做为评分依据。 其中,最经典的GO 阅读全文
posted @ 2018-06-04 10:48 郝壹贰叁 阅读(3971) 评论(2) 推荐(0) 编辑
摘要:声音有哪些特性? Ref: 实时演唱打分系统评价算法的研究与应用 高音信息,节奏信息 短时平稳特性 音高:频率 音长:持续 音强:振幅 音色:基音+若干泛音 找到基音很重要。 Ref: 语音相似度评价算法研究 - 任雪妮 - 西安建筑科技大学 Research on Phonetic similar 阅读全文
posted @ 2018-05-07 18:18 郝壹贰叁 阅读(736) 评论(0) 推荐(0) 编辑
摘要:From: https://www.youtube.com/watch?v=pw187aaz49o Ref: http://blog.csdn.net/abcjennifer/article/details/46397829 Ref: Word2Vec (Part 1): NLP With Deep 阅读全文
posted @ 2017-09-25 13:00 郝壹贰叁 阅读(451) 评论(0) 推荐(0) 编辑
摘要:文本自动摘要 - 阅读笔记 自动文摘要解决的问题描述很简单,就是用一些精炼的话来概括整篇文章的大意,用户通过阅读文摘就可以了解到原文要表达的意思。 问题包括两种解决思路, 一种是extractive,抽取式的,从原文中找到一些关键的句子,组合成一篇摘要;【最主流、应用最多、最容易的方法】 另外一种是 阅读全文
posted @ 2017-08-04 16:26 郝壹贰叁 阅读(442) 评论(0) 推荐(0) 编辑
摘要:文章阅读:全文索引技术时空效率分析 LIU Xiao-ZhuPENG Zhi-Yong 根据全文索引实现技术的不同,将其分为三大类: 索引技术 (倒排文件、签名文件 、后缀树与后缀数组) 压缩与索引混合技术 自索引技术(self-index technique). 研究表明 , 对于 1GB 的文本 阅读全文
posted @ 2017-06-10 16:08 郝壹贰叁 阅读(206) 评论(0) 推荐(0) 编辑
摘要:基本概念 前缀树 匹配前缀字符串是不言自明的道理。 1. 字符串的快速检索 2. 最长公共前缀(LCP) 等等 树的压缩 后缀树 囊括了所有“子字符串” 以一种相对节省内存的方式,例如: Let s=abab, a suffix tree of s is a compressed trie of a 阅读全文
posted @ 2017-06-10 08:25 郝壹贰叁 阅读(798) 评论(0) 推荐(0) 编辑
摘要:为了提高检索效率,大概有两种思路: 对文本做预处理,比如:BWT 对字符串做预处理,比如:KMP、Boyer-Moore BWT [IR] BWT+MTF+AC 中已经介绍了BWT (Burrows–Wheeler_transform)数据转换算法, 这种变换方式不仅方便压缩,同时对pattern 阅读全文
posted @ 2017-06-09 20:02 郝壹贰叁 阅读(485) 评论(0) 推荐(0) 编辑
摘要:BWT (Burrows–Wheeler_transform)数据转换算法 MTF(Move-to-front transform)数据转换 基于统计的压缩算法:游程编码 良心PPT: bwt_based_compression_verbin.ppt BWT Idea: 压缩技术主要的工作方式就是找 阅读全文
posted @ 2017-06-09 11:25 郝壹贰叁 阅读(962) 评论(0) 推荐(0) 编辑
摘要:【数据压缩】LZ77算法原理及实现 【数据压缩】LZ78算法原理及实现 Lempel–Ziv–Welch LZ77算法是采用字典做数据压缩的算法,由以色列的两位大神Jacob Ziv与Abraham Lempel在1977年发表的论文《A Universal Algorithm for Sequen 阅读全文
posted @ 2017-06-08 19:37 郝壹贰叁 阅读(300) 评论(0) 推荐(0) 编辑
摘要:Statistical methods的除了huffman外的另一种常见压缩方式。 Huffman coding的非连续数值特性成为了无法达到香农极限的先天无法弥补的缺陷,但Arithmetic coding给出了better solution。 当然,最好的东西往往伴随着各种专利。 2012年之后 阅读全文
posted @ 2017-06-08 17:04 郝壹贰叁 阅读(1785) 评论(0) 推荐(0) 编辑
摘要:为了保证:Block中,所有的叶子在所有的中间结点的前面。Static: Huffman coding Dynamic: Adaptive Huffman 一些概念 压缩指标 • Compress a 10MB file to 2MB• Compression ratio = 5 or 5:1• S 阅读全文
posted @ 2017-06-08 10:40 郝壹贰叁 阅读(296) 评论(0) 推荐(0) 编辑
摘要:良心博文: http://blog.csdn.net/opennaive/article/details/7532589 这里只是基础简述 众人说: 链接:http://blog.csdn.net/opennaive/article/details/7532589 2006年的OSDI有两篇goog 阅读全文
posted @ 2017-06-07 17:17 郝壹贰叁 阅读(319) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示