搞数据抓取搞得整个人都不好了

背景:抓取各个医药网站关于“肝炎”的疾病的问答。

分别是两个问题:

1、用PHPEXCEL保存到excel文件出现中文乱码怎么解决,查了百度查了好久,都没有搞定。百度到的基本是因为是从数据库取数据而数据库编码不一致。可是我是从网站根据phpquery取得数据,所以没有找到有用的东西。

待解决。

2、为什么根据百度到的url 

1
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&ch=1&tn=98010089_dg&wd=site%3Aclub.xywy.com%20intitle%3A%E8%82%9D%E7%82%8E&oq=site%3Aclub.xywy.com%20intitle%20%E8%82%9D%E7%82%8E&rsv_pq=f49e11880001fca6&rsv_t=d4481GSX9BMWUhT%2BZMgWOkPIksjYaNwwalBtnUzPcPm87o7bWfkH5elJrKqBQjc7ER8&rsv_enter=1&inputT=1872&gpc=stf%3D1433088000%2C1435766399%7Cstftype%3D2&tfflag=1&si=club.xywy.com&ct=2097152";

  用正则匹配url地址匹配不上呢?查了半天,原来是https和http的区别,估计是https传递数据进行了加密,所以用正则匹配不到。

posted @   扶-苏  阅读(347)  评论(0编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
点击右上角即可分享
微信分享提示