随笔档案「2018年3月」 - 歪胡子的日常

机器学习1-关于回归问题的准确性评价

摘要：网址https://book.douban.com/reading/46607817/ 建立回归器后，需要建立评价回归器拟合效果的指标模型。平均误差(mean absolute error):这是给定数据集的所有数据点的绝对误差平均值均方误差(mean squared error):给定数据集的阅读全文

posted @ 2018-03-29 23:39 歪胡子的日常阅读(4707) 评论(0) 推荐(0)

(参考)爬虫5-爬取中国大学排名情况

摘要：最好大学网 2018大学排名功能描述：输入：大学排名url链接输出：大学排名信息的屏幕输出（排名，大学名称，总分）技术路线：requests库和bs4库定向爬虫：仅对输入的URL进行爬取，不扩展爬取步骤： 1、输入url网址，查看源代码，发现信息都在HTML文件中 2、打开http:// 阅读全文

posted @ 2018-03-29 20:56 歪胡子的日常阅读(3225) 评论(0) 推荐(0)

(原创)python使用小记2-异常数据的处理

摘要：注：文件中的异常包括描述性数据(特征)、缺失值（NAN）、在这里的解决方法是借用pandas库 interpolate()使用插值来估计NaN 如果index是数字，可以设置参数method='value' ，如果是时间，可以设置method='time' get_dummies对离散型特征进行o 阅读全文

posted @ 2018-03-29 20:55 歪胡子的日常阅读(739) 评论(0) 推荐(0)

（参考）爬虫4-爬虫引起的问题以及robots协议

摘要：网络爬虫引发的问题网络爬虫的尺寸：小规模，数据量小，爬取速度不敏感，使用Requests库，应用占比90% 中规模，数据规模较大，爬取速度敏感，Scrapy库大规模，搜索引擎、爬取速度关键，定制开发爬取网页玩转网页爬取网站爬取系列网站爬取全网网络爬虫的‘骚扰’，对于web服务器有骚阅读全文

posted @ 2018-03-28 17:52 歪胡子的日常阅读(175) 评论(0) 推荐(0)

(参考)爬虫3-Requests库的主要方法

摘要：Requests库的7个主要方法：方法说明 requests.request() 构造一个请求，支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法，对应于HTTP的GET requests.head() 获取HTML网页头信息的方法，对应HTTP的HEAD req 阅读全文

posted @ 2018-03-27 21:02 歪胡子的日常阅读(139) 评论(0) 推荐(0)

爬虫2

摘要：爬取网页的通用代码框架异常说明 requests.ConnectionError 网络连接错误异常，比如DNS查询失败、拒绝连接等 requests.HTTPError HTTP错误异常 requests.URLRequired URL缺失异常 requests.TooManyRedirects 阅读全文

posted @ 2018-03-27 21:01 歪胡子的日常阅读(117) 评论(0) 推荐(0)

做汤1

摘要：使用Beautiful Soup库，先看一个例子： #利用beautiful soup解析网页源代码 #首先利用requests库获取网页源代码 import requests url='https://python123.io/ws/demo.html' r=requests.get(url) r 阅读全文

posted @ 2018-03-26 11:09 歪胡子的日常阅读(258) 评论(0) 推荐(0)

python使用小记2-csv文件处理

摘要：当输入的文件是csv文件时，我们有一下几种打开方式： 1、 2、 3、 4、将csv的文件转为数组类型注意：使用genfromtxt时，需要保证文件里没有中文，这应该怎么处理？阅读全文

posted @ 2018-03-26 11:08 歪胡子的日常阅读(254) 评论(0) 推荐(0)

练习-爬取某图片及查询IP地址

摘要：爬取某图片的程序： #图片爬取全代码 import requests import os url='http://img0.dili360.com/rw9/ga/M01/4A/3D/wKgBy1p6qJ6ALyaOADWDaIwa9uw587.tub.jpg' root='D:/北理工爬虫课程/' 阅读全文

posted @ 2018-03-25 01:03 歪胡子的日常阅读(1270) 评论(0) 推荐(0)

基于bs4库的HTML内容遍历方法

摘要：HTML基本格式（树型格式）：遍历方式：下行遍历（根节点到叶节点），上行遍历（叶节点到根节点），平行遍历标签树的下行遍历：属性说明 .contents 子节点的列表，将<tag>所有儿子节点存入列表 .children 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点 .de 阅读全文

posted @ 2018-03-25 01:03 歪胡子的日常阅读(522) 评论(0) 推荐(0)

爬虫-基于bs4库的HTML内容查找方法

摘要：bs4有一个find_all(name,attrs,recursive,string,**kwargs)方法，返回一个列表类型，存储查找的结果 name 对标签名称的检索字符串 attrs 对标签属性值的检索字符串，可标注属性检索，可查找某标签中是否含有特定的字符串 recursive 是否对子孙全阅读全文

posted @ 2018-03-25 01:02 歪胡子的日常阅读(325) 评论(0) 推荐(0)

机器学习实战-朴素贝叶斯

摘要：###使用python进行文本分类 # -*- coding: utf-8 -*- """ Created on Mon Aug 21 17:17:19 2017 @author: rocky """ #机器学习实战第四章 #朴素bayes #使用python进行文本分类 #从文本中构建词向量 fr 阅读全文

posted @ 2018-03-23 23:30 歪胡子的日常阅读(193) 评论(0) 推荐(0)

爬虫-信息组织与提取方法

摘要：信息标记的三种形式： XML：　扩展标记语言，用<>，以标签为主，名称，属性等 JSON：有类型的键值对，可以嵌套使用，可以一个键对应多个值 YAML：无类型键值对，用缩进的形式表达所属关系，-表示并列关系比较 XML 最早的通用信息标记语言，可扩展性好，但是繁琐；适用于Internet上的信息交阅读全文

posted @ 2018-03-23 02:09 歪胡子的日常阅读(179) 评论(0) 推荐(0)

线性表、栈与队列

摘要：《大话数据结构》线性表基础知识线性表：零个或多个数据元素的有限序列。关键词：序列，有限。元素个数定义为线性表的长度，n=0时成为空表。在较复杂的线性表中，一个数据元素可以由若干个数据项组成。线性表的一些基本操作：初始化建立空的线性表，判断是否为空，清空，取出第i个值，查找与给定值相同的值阅读全文

posted @ 2018-03-23 01:57 歪胡子的日常阅读(1134) 评论(0) 推荐(0)

数据结构的基本知识、算法

摘要：数据结构的基本知识下面的都是摘自《大话数据结构》书中的内容，记下来可以时时查看：数据：描述客观事物的符号，计算机可以操作的对象；数据元素：组成数据的有一定意义的基本单位，作为整体能被计算机处理；人是人类的数据元素，牛马是牲畜类的数据元素数据项：组成数据元素，人的眼睛耳朵就是人这个数据元素的数阅读全文

posted @ 2018-03-22 01:34 歪胡子的日常阅读(280) 评论(0) 推荐(0)

机器学习实战—逻辑回归

摘要：###逻辑回归进行分类有这么几个关键词：最佳拟合曲线，利用逻辑回归模型进行分类，最佳拟合参数（w和b），sigmoid函数（S函数），最优化方法，梯度上升（下降），随机梯度下降法，参数迭代公式（梯度，步长）梯度上升找到最佳参数：伪代码：每个回归系数初值定为1 for i in steps: 阅读全文

posted @ 2018-03-21 22:58 歪胡子的日常阅读(1235) 评论(0) 推荐(0)

统计思维：程序员数学之概率统计（1）

摘要：第一章：经验之谈：观察的数量太少、选择偏差、确认偏差、不准确更好的做法-统计方法：收集数据，使用大型全国性调查的数据描述性统计，计算能总结数据的统计量探索性数据分析，寻找模式、差异和其他能解决问题的而特征假设检验，评判影响是否真实估计，样本推断整体术语：经验之谈个人随意收集的证阅读全文

posted @ 2018-03-20 20:48 歪胡子的日常阅读(251) 评论(0) 推荐(0)

爬虫-练习1

摘要：实例3 百度360搜索关键词提交百度的关键词接口： http://www.baidu.com/s?wd=keyword 360的关键词接口： http://www.so.com/s?q=keyword 替换keyword就可以替换并提交关键词 #百度搜索全代码 import requests ke 阅读全文

posted @ 2018-03-20 20:45 歪胡子的日常阅读(210) 评论(0) 推荐(0)

爬虫1

摘要：爬取某东页面信息的代码： #全代码 import requests url='https://item.jd.com/6008133.html' try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding 阅读全文

posted @ 2018-03-16 00:05 歪胡子的日常阅读(151) 评论(0) 推荐(0)

利用python进行数据分析

摘要：利用python进行数据分析，需要了解一些基本的方法，比如掌握回归分析的方法，通过线性回归和逻辑回归，其实你就可以对大多数的数据进行回归分析，并得出相对精确地结论。这部分需要掌握的知识点如下：回归分析：线性回归、逻辑回归基本的分类算法：决策树、随机森林、朴素贝叶斯…… 基本的聚类算法：k-mea 阅读全文

posted @ 2018-03-16 00:03 歪胡子的日常阅读(430) 评论(0) 推荐(0)

(原创)关于python在输出时出现none

摘要：关于python在输出时出现none 比如我们首先定义一个class 最后的输出时print，而我们在后面调用时又使用了print(这个class)，此时我们输出的结果就会出现在结果后面跟着一个none。正确的处理是，class的定义里是return 调用时print() 比如：leetcode的阅读全文

posted @ 2018-03-15 23:56 歪胡子的日常阅读(7658) 评论(0) 推荐(1)

关于数据分析用到的统计学知识

摘要：需要了解和掌握的统计学知识如下：基本统计量：均值、中位数、众数、百分位数、极值等其他描述性统计量：偏度、方差、标准差、显著性等其他统计知识：总体和样本、参数和统计量、ErrorBar 概率分布与假设检验：各种分布、假设检验流程其他概率论知识：条件概率、贝叶斯等在这里我们可以使用 Seabo 阅读全文

posted @ 2018-03-14 18:14 歪胡子的日常阅读(514) 评论(0) 推荐(0)

关于SQL和python数据预处理

摘要：关于SQL需要掌握： 1、提取特定情况下的数据，比如提取2017年的数据，提取前100个顾客的数据等 2、数据库的增、删、查、改，这些命令都很简单，记住即可 3、数据的分组聚合、如何建立多个表之间的联系，这在处理多维度、多个数据集时很有用对于以上，需要掌握一些基本的操作，找一些数据集练习一下即可阅读全文

posted @ 2018-03-13 23:51 歪胡子的日常阅读(1321) 评论(0) 推荐(0)

(原创)使用tensorflow及anaconda(spyder)时遇到的问题

摘要：###（1）问题一：如何在tensorflow环境下使用spyder 答：在anaconda navigator中environment中搜索tensorflow，安装适合tensorflow的spyder ###（2）问题二：在在tensorflow环境下使用spyder时有些库文件（比如matp 阅读全文

posted @ 2018-03-12 00:12 歪胡子的日常阅读(2792) 评论(0) 推荐(0)

（原创）matlab随笔1-关于mat文件以及~isempty、exist、colormap等函数的使用

摘要：1、查看.mat文件：load('文件名')即可，其中有这样的语句： load('ex3data1.mat'); % training data stored in arrays X, y m = size(X, 1); 这其中在文件中已经定义了X，所以在程序的内容中X已经有了数据 2、关于~ise 阅读全文

posted @ 2018-03-12 00:12 歪胡子的日常阅读(639) 评论(0) 推荐(0)

数据分析随笔(python及pandas及matplotlib查看数据)

摘要：笔记： import pandas as pd 对于csv数据文件，利用pd.read_csv()打开，如train_data=pd.read_csv('') 利用train_data.head()可以查看部分data train_describe()可以得到统计数目，得到平均数、方差等特征（当然是阅读全文

posted @ 2018-03-10 00:31 歪胡子的日常阅读(4114) 评论(0) 推荐(0)

数据分析的数据来源都有哪些？

摘要：数据的获取方式： 1、获取外部的公开数据集， UCI 加州大学欧文分校开放的经典数据集，被很多数据挖掘实验室采用 http://archive.ics.uci.edu/ml/datasets.html 国家数据：数据来源于中国国家统计局，包含了我国经济民生等多个方面的数据。 http://data. 阅读全文

posted @ 2018-03-08 22:40 歪胡子的日常阅读(2272) 评论(0) 推荐(0)

数据分析的技能要求及分析流程

摘要：企业对数据分析师的基础技能需求差别不大，如下： SQL数据库的基本操作，会基本的数据管理会用Excel/SQL做基本的数据管理会用脚本语言进行数据分析，Python or R 有获取外部数据的能力，如爬虫会基本的数据可视化技能，能撰写数据报告熟悉常用的数据挖掘算法：以回归分析为主 SQL数据阅读全文

posted @ 2018-03-08 22:39 歪胡子的日常阅读(403) 评论(0) 推荐(0)

(原创)使用matlab-cftools拟合工具的问题

摘要：在使用matlab对数据进行拟合时，遇到了一些问题，现记录如下： 1、拟合参数精度不够，导致拟合曲线计算的输出值与原函数值相差较大，比如高斯拟合时峰值位置偏移较大。这时我们可将拟合的模型保存到工作空间（save xxfit to workspace），在命令窗口中输入‘coeffvalues(xx 阅读全文

posted @ 2018-03-08 10:28 歪胡子的日常阅读(1501) 评论(0) 推荐(0)

invictus maneo

03 2018 档案

公告