03 2018 档案
摘要:网址https://book.douban.com/reading/46607817/ 建立回归器后,需要建立评价回归器拟合效果的指标模型。 平均误差(mean absolute error):这是给定数据集的所有数据点的绝对误差平均值 均方误差(mean squared error):给定数据集的
阅读全文
摘要:最好大学网 2018大学排名 功能描述: 输入:大学排名url链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests库和bs4库 定向爬虫:仅对输入的URL进行爬取,不扩展爬取 步骤: 1、输入url网址,查看源代码,发现信息都在HTML文件中 2、打开http://
阅读全文
摘要:注:文件中的异常包括描述性数据(特征)、缺失值(NAN)、 在这里的解决方法是借用pandas库 interpolate()使用插值来估计NaN 如果index是数字,可以设置参数method='value' ,如果是时间,可以设置method='time' get_dummies对离散型特征进行o
阅读全文
摘要:网络爬虫引发的问题 网络爬虫的尺寸: 小规模,数据量小,爬取速度不敏感,使用Requests库,应用占比90% 中规模,数据规模较大,爬取速度敏感,Scrapy库 大规模,搜索引擎、爬取速度关键,定制开发 爬取网页 玩转网页 爬取网站 爬取系列网站 爬取全网 网络爬虫的‘骚扰’,对于web服务器有骚
阅读全文
摘要:Requests库的7个主要方法: 方法 说明 requests.request() 构造一个请求,支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET requests.head() 获取HTML网页头信息的方法,对应HTTP的HEAD req
阅读全文
摘要:爬取网页的通用代码框架 异常 说明 requests.ConnectionError 网络连接错误异常,比如DNS查询失败、拒绝连接等 requests.HTTPError HTTP错误异常 requests.URLRequired URL缺失异常 requests.TooManyRedirects
阅读全文
摘要:使用Beautiful Soup库,先看一个例子: #利用beautiful soup解析网页源代码 #首先利用requests库获取网页源代码 import requests url='https://python123.io/ws/demo.html' r=requests.get(url) r
阅读全文
摘要:当输入的文件是csv文件时,我们有一下几种打开方式: 1、 2、 3、 4、将csv的文件转为数组类型 注意:使用genfromtxt时,需要保证文件里没有中文,这应该怎么处理?
阅读全文
摘要:爬取某图片的程序: #图片爬取全代码 import requests import os url='http://img0.dili360.com/rw9/ga/M01/4A/3D/wKgBy1p6qJ6ALyaOADWDaIwa9uw587.tub.jpg' root='D:/北理工爬虫课程/'
阅读全文
摘要:HTML基本格式(树型格式): 遍历方式:下行遍历(根节点到叶节点),上行遍历(叶节点到根节点),平行遍历 标签树的下行遍历: 属性 说明 .contents 子节点的列表,将<tag>所有儿子节点存入列表 .children 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点 .de
阅读全文
摘要:bs4有一个find_all(name,attrs,recursive,string,**kwargs)方法,返回一个列表类型,存储查找的结果 name 对标签名称的检索字符串 attrs 对标签属性值的检索字符串,可标注属性检索,可查找某标签中是否含有特定的字符串 recursive 是否对子孙全
阅读全文
摘要:###使用python进行文本分类 # -*- coding: utf-8 -*- """ Created on Mon Aug 21 17:17:19 2017 @author: rocky """ #机器学习实战第四章 #朴素bayes #使用python进行文本分类 #从文本中构建词向量 fr
阅读全文
摘要:信息标记的三种形式: XML: 扩展标记语言,用<>,以标签为主,名称,属性等 JSON:有类型的键值对,可以嵌套使用,可以一个键对应多个值 YAML:无类型键值对,用缩进的形式表达所属关系,-表示并列关系 比较 XML 最早的通用信息标记语言,可扩展性好,但是繁琐;适用于Internet上的信息交
阅读全文
摘要:《大话数据结构》 线性表 基础知识 线性表:零个或多个数据元素的有限序列。关键词:序列,有限。 元素个数定义为线性表的长度,n=0时成为空表。 在较复杂的线性表中,一个数据元素可以由若干个数据项组成。 线性表的一些基本操作:初始化建立空的线性表,判断是否为空,清空,取出第i个值,查找与给定值相同的值
阅读全文
摘要:数据结构的基本知识 下面的都是摘自《大话数据结构》书中的内容,记下来可以时时查看: 数据:描述客观事物的符号,计算机可以操作的对象; 数据元素:组成数据的有一定意义的基本单位,作为整体能被计算机处理;人是人类的数据元素,牛马是牲畜类的数据元素 数据项:组成数据元素,人的眼睛耳朵就是人这个数据元素的数
阅读全文
摘要:###逻辑回归进行分类 有这么几个关键词:最佳拟合曲线,利用逻辑回归模型进行分类,最佳拟合参数(w和b),sigmoid函数(S函数),最优化方法,梯度上升(下降),随机梯度下降法,参数迭代公式(梯度,步长) 梯度上升找到最佳参数: 伪代码: 每个回归系数初值定为1 for i in steps:
阅读全文
摘要:第一章: 经验之谈: 观察的数量太少、选择偏差、确认偏差、不准确 更好的做法-统计方法: 收集数据,使用大型全国性调查的数据 描述性统计,计算能总结数据的统计量 探索性数据分析,寻找模式、差异和其他能解决问题的而特征 假设检验,评判影响是否真实 估计,样本推断整体 术语: 经验之谈 个人随意收集的证
阅读全文
摘要:实例3 百度360搜索关键词提交 百度的关键词接口: http://www.baidu.com/s?wd=keyword 360的关键词接口: http://www.so.com/s?q=keyword 替换keyword就可以替换并提交关键词 #百度搜索全代码 import requests ke
阅读全文
摘要:爬取某东页面信息的代码: #全代码 import requests url='https://item.jd.com/6008133.html' try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding
阅读全文
摘要:利用python进行数据分析,需要了解一些基本的方法,比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。这部分需要掌握的知识点如下: 回归分析:线性回归、逻辑回归 基本的分类算法:决策树、随机森林、朴素贝叶斯…… 基本的聚类算法:k-mea
阅读全文
摘要:关于python在输出时出现none 比如我们首先定义一个class 最后的输出时print,而我们在后面调用时又使用了print(这个class),此时我们输出的结果就会出现在结果后面跟着一个none。 正确的处理是,class的定义里是return 调用时print() 比如:leetcode的
阅读全文
摘要:需要了解和掌握的统计学知识如下: 基本统计量:均值、中位数、众数、百分位数、极值等 其他描述性统计量:偏度、方差、标准差、显著性等 其他统计知识:总体和样本、参数和统计量、ErrorBar 概率分布与假设检验:各种分布、假设检验流程 其他概率论知识:条件概率、贝叶斯等 在这里我们可以使用 Seabo
阅读全文
摘要:关于SQL需要掌握: 1、提取特定情况下的数据,比如提取2017年的数据,提取前100个顾客的数据等 2、数据库的增、删、查、改,这些命令都很简单,记住即可 3、数据的分组聚合、如何建立多个表之间的联系,这在处理多维度、多个数据集时很有用 对于以上,需要掌握一些基本的操作,找一些数据集练习一下即可
阅读全文
摘要:###(1)问题一:如何在tensorflow环境下使用spyder 答:在anaconda navigator中environment中搜索tensorflow,安装适合tensorflow的spyder ###(2)问题二:在在tensorflow环境下使用spyder时有些库文件(比如matp
阅读全文
摘要:1、查看.mat文件:load('文件名')即可,其中有这样的语句: load('ex3data1.mat'); % training data stored in arrays X, y m = size(X, 1); 这其中在文件中已经定义了X,所以在程序的内容中X已经有了数据 2、关于~ise
阅读全文
摘要:笔记: import pandas as pd 对于csv数据文件,利用pd.read_csv()打开,如train_data=pd.read_csv('') 利用train_data.head()可以查看部分data train_describe()可以得到统计数目,得到平均数、方差等特征(当然是
阅读全文
摘要:数据的获取方式: 1、获取外部的公开数据集, UCI 加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用 http://archive.ics.uci.edu/ml/datasets.html 国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。 http://data.
阅读全文
摘要:企业对数据分析师的基础技能需求差别不大,如下: SQL数据库的基本操作,会基本的数据管理 会用Excel/SQL做基本的数据管理 会用脚本语言进行数据分析,Python or R 有获取外部数据的能力,如爬虫 会基本的数据可视化技能,能撰写数据报告 熟悉常用的数据挖掘算法:以回归分析为主 SQL数据
阅读全文
摘要:在使用matlab对数据进行拟合时,遇到了一些问题,现记录如下: 1、拟合参数精度不够,导致拟合曲线计算的输出值与原函数值相差较大,比如高斯拟合时峰值位置偏移较大。 这时我们可将拟合的模型保存到工作空间(save xxfit to workspace),在命令窗口中输入‘coeffvalues(xx
阅读全文

浙公网安备 33010602011771号