搞数据抓取搞得整个人都不好了
背景:抓取各个医药网站关于“肝炎”的疾病的问答。
分别是两个问题:
1、用PHPEXCEL保存到excel文件出现中文乱码怎么解决,查了百度查了好久,都没有搞定。百度到的基本是因为是从数据库取数据而数据库编码不一致。可是我是从网站根据phpquery取得数据,所以没有找到有用的东西。
待解决。
2、为什么根据百度到的url
1 | https://www.baidu.com/s?ie=utf -8 &f= 8 &rsv_bp= 1 &ch= 1 &tn= 98010089 _dg&wd=site% 3 Aclub.xywy.com% 20 intitle% 3 A%E 8% 82% 9 D%E 7% 82% 8 E&oq=site% 3 Aclub.xywy.com% 20 intitle% 20% E 8% 82% 9 D%E 7% 82% 8 E&rsv_pq=f 49 e 11880001 fca 6 &rsv_t=d 4481 GSX 9 BMWUhT% 2 BZMgWOkPIksjYaNwwalBtnUzPcPm 87 o 7 bWfkH 5 elJrKqBQjc 7 ER 8 &rsv_enter= 1 &inputT= 1872 &gpc=stf% 3 D 1433088000% 2 C 1435766399% 7 Cstftype% 3 D 2 &tfflag= 1 &si=club.xywy.com&ct= 2097152 "; |
用正则匹配url地址匹配不上呢?查了半天,原来是https和http的区别,估计是https传递数据进行了加密,所以用正则匹配不到。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构