光棍节之夜,用数据分析帮女神学姐选婚房
(本文成文于2015年11月12日,为作者原创,发布在博客园方便诸君阅读)
前段时间发了一篇分析房价的文章,于是这两天在微信上咨询我的朋友络绎不绝。今天是光棍节,我什么都没抢到。下午,有一位学姐在微信上找我,怀着激动的心情打开微信。
学姐说,“看到你之前发的文章了,能不能帮我在北京选一套婚房啊?”
学姐求我,焉有不应。于是,我们约了今天晚上在北邮校园的零一咖啡厅见面。学姐是我们实验室比我大两级的女神,追求者众,据说要找男朋友只找BAT三家的高富帅,听说后来找了个360的男朋友。毕业两年,就准备买婚房了,太令人羡慕了。看看我能不能帮忙吧!
坐在咖啡厅,我重新运行了数据采集程序,抓取光棍节当天所有的二手房数据,这个过程要花15分钟。趁着这个时候,我开始询问学姐对婚房具体需求。
学姐说,她希望能找面积在70平以上,130平以下的比较新的房子。至于预算,现在两家人拿出了180万的首付,我当时就震惊了。我帮她算了一下,她男友的工资一个月两万,按照贷款三十年,每个月还款不超过收入的51%计算,总共能贷大概140万。因此,预算在320万左右。
正好15分钟过去,数据采完了,总共10W套左右,基本上包括了绝大多数北京二手房。大概是下面这个样子(省略了一部分信息):
可选数量:10W套
我按照学姐的要求,选择了70到130平,价格在350万以下的所有房子,总共3W套。看来可选择的还挺多的啊。平均面积93平,单价2.34万。
按面积和价格筛选:30498套
她突然又说,不喜欢太老的房子。
确实如此,房子不能太老,否则水暖电和房子的质量都会比较差,以后也很难出手。于是,我用正则表达式,从每个房子的全部信息里,抽取房子的年份,并选择1997年以后的房子。97年以后,大户型开始多了起来。看了看,还有2.5万套左右。
选择1997年之后:2.5W套
学姐又说,她不想上班太远,位置也不想太偏。
我心想,恩,要离老公近一点,可是,怎么定义不远呢?我打开了地图,告诉她,你来选一个区域范围吧!
学姐用纤纤手指,在屏幕上画了一个框,我仔细看了一下,大概是这个样子:
这个区域,西至玉泉路,东到东五环,南到长安街,北到立水桥。我觉得很有意思,问学姐,长安街以南有好多单价较低的东西城区的房子,为什么不考虑呢?
她说,“男朋友在北边,这样上班方便。再说,宁要北边一张床,不要南边一间房,所以当然要买长安街以北的房子啦!”
她选的其实还挺有道理,北边过了立水桥,就是昌平的天通苑了,连我都听说过天通苑国的传言,每天出入境极其困难,她男朋友怎么舍得让她早高峰在天通苑地铁站挤地铁呢,那个情景,大概是下面这个样子(男默女泪)。
我分析了一下坐标,这个矩形范围大约在东经116.25到116.53度,北纬39.91到40.059度之间。一个表达式跑下来,总共只剩下2400套左右的房子了。
选定地图区域:2400套
按照不同区域进行划分,就能看到下面的柱状图:
看来基本上只能在朝阳,海淀,燕郊三个地方买房子了。学姐不会考虑燕郊。她说,居然还有西城区的房子!
我也深感奇怪,1998年后,居然还有单价在5W以内的西城区的房子?看了一下,西城有18套,东城有17套。
如果能买到西城的房子,学姐真是赚大了!于是我赶紧检索那些西城的房子出来:
单价才三万八!这怎么可能,随便找了两个仔细一看,原来一个是地下室,另外一个是商住两用的房子。
学姐问我,什么是商住两用?我告诉她,所谓商住两用就是商水商电,小产权,不能落户口。
学姐说,坚决不要地下室,而且一定能落户口。
这个也难不倒我,中介当然不会傻到在标题上标注地下室和商住两用。但通常商住两用,会标明“不限购”,各种“大厦”,“中心”,“投资”的,肯定都是无法落户的,用关键字筛掉它们!
keywords = re.compile(u'商|地下|限购|大厦|中心|投资');
学姐眉头一皱,“忘了告诉你了,我要两室或者三室的房子,一定要带客厅”。我想了几秒钟,看来还得正则表达式出马:
housetype = re.compile(u'(2|3)室(1|2)厅');
这样,西城东城的房子彻底干掉了,一套都没有。我告诉学姐,你现在只能选择朝阳和海淀的房子了。此时,可选的房子数量共计1000套左右,只占总数的不到1%。
不要小产权,商住两用和地下室,两室/三室带客厅:1000套
接下来按照区域选房子。我们按照区域排序分组并求数量,得到了下面这张表:
学姐问道,这么多商圈,很多地方听都没听过,怎么选?我把数据导出成文件,导入到基于百度地图的可视化工具工具里,汇出了这样的一张图,每个地方有多少套房子,一目了然。按照大区来划分,可选项主要集中在北苑,清河,望京和十里堡附近。
学姐想了想,说,男朋友所在的科技公司在东边,我在中关村上班,所以北苑应该是个不错的选择,正好是两个人的上班的中点,酒仙桥地铁并不方便,所以暂时先不考虑。
啊,学姐好赞! 现在应该比较明确了。
我们来重点考察一下北苑,按照小区来划分(PID是数量,year为小区平均年份,单价为平均单价)
我们将地图缩放到北苑,每个小区有多少套合适的房子,便可一目了然。
学姐说,这价格差别还是挺大的,从2.7W到3.9W都有。为什么区别这么大呢?
我说,这可能和房子年份有关,越新的小区,房子肯定会越贵,为了证明我的猜测,我做了如下的线性回归曲线:
经过计算,皮尔逊相关系数在0.63左右,可见,对于比较新的非学区房来说,建造年份和价格强相关。
为什么天怡家园和茉藜园只有一条秋实街相隔,二手房可选择性(天怡家园6套,茉藜园51套)却差别这么大呢?仔细对比了两个小区的基本信息,可能原因有两个,茉藜园(3559户)比天怡家园(690户)的规模大了很多,而且天怡家园是部委联合建房,所以相对来说多一些。整体交易活跃度不高。
选择具有性价比的房子
学姐说,现在硬性条件都满足了,怎么来选择最有性价比的房子呢?
先说价格,学姐突然问我,成交价就是中介网上标明的价格吗? 我偷笑了一下,心想,“看来学姐是完全不懂啊”。中介当然要收中介费的啊,某著名中介一般是成交价的2.7%。下面是商品普通住宅的额外支出情况:
我接着说道,这是普通商品房的税率,如果是经济适用房,需要交纳10%的综合地价款,如果是公房,还需要交纳土地出让金…
学姐打断我,这个太复杂了!
确实啊,这些政策足够写好几张纸,我自己也不是很清楚。我们先考虑那个表里的情况吧。
修正实际交易价格
其实仔细观察中介的标签就能发现,如果是满五年唯一或满两年唯一,一定会标上。如果不唯一,就什么都不标。从这些特征,能够计算出每套房子的实际成交额,这个步骤可能会出错,。
我回答,这看你怎么定义性价比了。基本上,一分价钱一分货,能从下面几个角度来考虑:
- 户型:仅次于位置的最重要因素
- 采光:即使做不到明厨明卫,也最少做到明室明厅。
- 学区:旁边是否有不算太差的幼儿园和小学
- 升值空间:房子未来是否好出手。
学姐问,90多套房子,这个让我怎么选啊,能让机器帮我选择一下吗?
这可让我犯了难,户型图都可以查到,但让程序去做自动识别,并计算采光,这实在是太难了,只能让学姐自己来选了。
采光也没法自动识别,但能通过中介给出的评论中提取关键词,绘制词图,提高筛房效率。
学区和升值空间相对比较容易,把北苑所有的学校,幼儿园,以及未来地铁的建设情况绘制出来,即可作为直接的参考。
即使在2020年,北苑的地铁线路依旧不够发达,只增加了勇士营一站。勇士营站的位置,靠近来春园和北京青年城,可以认为未来有较好的升值空间。
绘制北苑所有的幼儿园
以学姐的情况,估计以后还会换学区房,我们姑且将附近的幼儿园绘制出来:
(时间所限,笔者没有标注每个幼儿园的情况,之后有专门的学区房专题进行分析)
提取中介点评关键字,做成词云,方便观察
由于中介对每套房子的评价内容特别多,因此一条一条观察会非常浪费时间。我不得不动用自然语言处理技术,对剩余的90多套房子,提取点评关键词。
由于中介对每套房子的评价内容特别多,因此一条一条观察会非常浪费时间。我不得不动用自然语言处理技术,对剩余的90多套房子,提取点评关键词:
综合评价排序表格
为了方便学姐快速地从90套房子中选取自己中意的房子,我生成了这些房子的词图,坐标图和房型图。
另一方面,考虑对这些房源进行排序,但如何评价房子的综合好坏呢?
一般来说,看房的人越多越火,但不排除挂出来很久都没人看上,因此用每月平均看房次数比较合适。另外,更好的房子会有更多的中介小哥对其进行评价,房评热度较高。因此,使用下面的公式来计算房子的评价:
综合评价=(总看房人数/已挂出时间)∗0.2+经纪人评论数量∗0.8
(获取挂出时间的方法请参考附录,公式的权重参数是我瞎编的)
我花了五分钟生成了一个word文档,能非常方便地进行对比,选择恐惧症福音,就像下面这个样子:
我接着说,接下来就靠你和你男朋友对户型进行筛选,选出20-30套觉得不错的房子,综合地铁商场幼儿园地图,制定看房计划,联系中介,最后确定最合适的房子,这样会比较有效率。
学姐看完以后,非常开心,说道,太棒了太棒了,这样我选房就一目了然,你把你生成的这份文档拷到我U盘上吧!
这时,学姐掏出了一个非常精致的爱心优盘,说道“不要随便乱看哦,这里面有我和我男票的爱之皂片”。
心塞啊。。。我把优盘插在电脑上准备拷贝,顺便问学姐,你难道不考虑酒仙桥,清河的房子吗?好像中关村也有符合你要求的房子呢,那里比北苑地理位置好多了。。。
学姐表情一变,啊啊啊啊,是啊,我到底该怎么选啊,你知道我有选择恐惧症。。。你再帮我选一下吧。。。
我:。。。。。。
这时,外面有汽车鸣了两下笛,学姐的电话也响了,应该是她的BAT男友来了。
她一看手机,啊,我男朋友来接我了,学弟今天谢谢你!于是拿起包包转身急匆匆地就出门了。。。
哎,准备回家吧,看看能不能趁双十一回去抢个袜子。正要收拾电脑,
“学姐,你的优盘!”
备注:
本文成文于2015年11月12日,,请联系微信公众号“沙漠之鹰”。所有数据和分析都来自真实数据,但并不保证事件和人物存在,如有雷同,纯属巧合。
1.越新的小区越贵?
为了证明我的猜测,我根据北苑20个小区的价格和年份进行计算,皮尔逊相关系数在0.63左右,可见,对于比较新的非学区房来说,建造年份和价格强相关。
2.计算二手房税费和手续费的方法
中介当然不会傻到真正交多少税写在页面上,但仔细观察页面标签就能发现,如果是满五年唯一或满两年唯一,一定会标上。如果不唯一,就会标“房本满两年”。从这些特征,能够计算出每套房子的实际成交额。
目前北京二手房个人所得税的计算只要能核实房屋原值,均要按照(出售价— 房屋原值 — 合理费用)× 20%的方法计算,不能核实原值的,个税以本次房屋交易价格按核定征收率1%计算。但由于本次计算不能知道房屋原值,因此按1%处理。
税费因政策更新已经修改多次,因此网络上说法不一,异常复杂,表格中的数据,是我按照330新政的信息校对过的。
可笑的是,同一套房,不同中介代理标注的信息都不一样:
3.为什么要自己选好大致的区域
每个中介的门店只负责特定的范围。因此虽然中介能提供一个小区里的详细信息,但很难也通常不会帮你介绍其他位置的房型。因此按照需求明确自己所需的区域,再去选择当地的门店,是非常重要的。
4. 获取房屋在中介登记的时间
信息中并没有明确提到登记时间,这对我们计算房子综合评价很重要。怎么办呢?
笨蛋!当然是获取第一个房评人的评论时间啊,他是登记这个信息的人!
沙漠之鹰:以程序员的视角,分析数据,解构模式,发现洞见,欢迎关注微信公共号:
作者:热情的沙漠
出处:http://www.cnblogs.com/buptzym/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。