01 2025 档案
摘要:LDA 主题模型分析 做了什么:使用 Gensim 训练 LDA(Latent Dirichlet Allocation)模型,分析文本主题。 学到什么:掌握主题建模方法,理解 LDA 的 α、β 超参数调优。 遇到的问题:主题数难确定,LDA 对短文本效果较差。 家里大扫除
阅读全文
摘要:TF-IDF 关键词提取 做了什么:计算文本的 TF-IDF 值,提取最重要的热词。 学到什么:理解 TF-IDF 算法的基本原理,掌握 sklearn.feature_extraction.text.TfidfVectorizer。 遇到的问题:高频词干扰结果,TF-IDF 不能捕捉语义关系。
阅读全文
摘要:数据库设计与存储优化 做了什么:设计 MySQL 或 Elasticsearch 数据库,优化索引结构,加速查询。 学到什么:掌握数据库索引优化,熟悉全文检索引擎。 遇到的问题:查询速度慢,数据库字段设计影响存储效率。
阅读全文
摘要:数据清洗与预处理 做了什么:去除 HTML 标签、去重、分词(使用 Jieba 或 THULAC)。 学到什么:掌握文本数据清洗方法,理解分词算法的原理。 遇到的问题:分词精度低,停用词去除影响关键词提取。 闲来无事,准备整理一下园子博客,最近打算研究一下卷积神经网络
阅读全文
摘要:数据爬取与存储方案 做了什么:使用 Scrapy 爬取新闻数据,调用 Tweepy 访问 Twitter API(或用 requests 访问微博)。 学到什么:掌握 Python 爬虫技术,熟悉 REST API 认证机制。 遇到的问题:API 速率限制,动态网页数据爬取困难。 下午太累了,睡觉
阅读全文
摘要:项目背景和需求分析 做了什么:确定研究主题(如微博、新闻、学术论文等信息领域的热词趋势),分析数据源(微博 API、知乎话题、新闻 RSS)。 学到什么:如何确定数据分析目标,选择合适的数据抓取方案。 遇到的问题:不同数据源的数据格式不一致,API 限制访问频率。
阅读全文
摘要:做了什么:使用 MLlib 进行回归、分类、聚类任务(如 KMeans、逻辑回归)。 学到什么:理解 Spark MLlib 的 Pipeline 机制,学会使用 VectorAssembler 处理数据。 遇到的问题:训练集数据格式转换问题,调参时计算资源占用大。
阅读全文
摘要:做了什么:搭建 Spark Streaming 任务,处理 Kafka 数据流。 学到什么:掌握 DStream,理解窗口操作、checkpoint 机制。 遇到的问题:Kafka 连接 Spark 时 offset 处理问题,数据积压导致延迟。
阅读全文
摘要:做了什么:使用 DataFrame 和 Spark SQL 进行数据查询、Schema 定义。 学到什么:掌握 Spark SQL 和 RDD 的区别,学会使用 DataFrame API 处理结构化数据。 遇到的问题:Hive 连接 Spark 时 hive-site.xml 配置问题,DataF
阅读全文
摘要:做了什么:编写 RDD 相关代码(创建 RDD、转换操作 map、filter、reduceByKey)。 学到什么:理解 RDD 的惰性计算、窄依赖与宽依赖。 遇到的问题:RDD collect() 时数据过大导致 OOM,调试时 log 过多导致信息混乱。
阅读全文
摘要:做了什么:安装 Hadoop 伪分布式模式,配置 Spark 环境,编写简单的 Spark 任务。 学到什么:理解 Hadoop 分布式存储与计算原理,掌握 Spark 本地环境搭建。 遇到的问题:Hadoop 配置 core-site.xml、hdfs-site.xml 容易出错,JDK 版本兼容
阅读全文
摘要:做了什么:安装 Scala,学习基本语法(变量、函数、集合操作、模式匹配)。 学到什么:熟悉 Scala 语法和 REPL 交互式编程。 遇到的问题:Scala 的 val 和 var 变量区别,函数式编程 vs 命令式编程的思维转换。
阅读全文
摘要:做了什么:安装 Linux(Ubuntu/CentOS),配置 SSH,学习基本命令(ls、cd、cp、mv、vim、grep 等) 学到什么:掌握 Linux 基本环境操作,为后续 Spark 实验打基础 遇到的问题:无
阅读全文