php大数据量文件处理 - 随笔分类 - 一束光

PHP读取超大日志文件

摘要：打开一个17G的日志文件，都不吃力，除了占cpu之外，内存占用不多，如果直接fopen根本打不开注：它是逐行读取的foreach( glob( ngx_log. "/*.log" ) as $file ) { $log = new SplFileObject($file); foreach( $lo... 阅读全文

posted @ 2016-01-11 13:27 一束光阅读(1214) 评论(0) 推荐(0) 编辑

大数据量下MySQL插入方法的性能比较

摘要：不管是日常业务数据处理中，还是数据库的导入导出，都可能遇到需要处理大量数据的插入。插入的方式和数据库引擎都会对插入速度造成影响，这篇文章旨在从理论和实践上对各种方法进行分析和比较，方便以后应用中插入方法的选择。插入分析MySQL中插入一个记录需要的时间由下列因素组成，其中的数字表示大约比例：连接：（... 阅读全文

posted @ 2015-05-07 14:26 一束光阅读(12086) 评论(0) 推荐(3) 编辑

社会化海量数据采集爬虫框架搭建

摘要：随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？1、打开浏... 阅读全文

posted @ 2015-04-21 13:31 一束光阅读(562) 评论(0) 推荐(0) 编辑

海量数据处理：十道面试题与十个海量数据处理方法总结

摘要：第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小... 阅读全文

posted @ 2015-04-21 09:24 一束光阅读(538) 评论(0) 推荐(0) 编辑

PHP：计算文件或数组中单词出现频率

摘要：一：如果是小文件，可以一次性读入到数组中，使用方便的数组计数函数进行词频统计（假设文件中内容都是空格隔开的单词）： <?php $str = file_get_contents("/path/to/file.txt"); //get string from file pre... 阅读全文

posted @ 2015-04-21 08:38 一束光阅读(881) 评论(0) 推荐(0) 编辑

[获取行数]php读取大文件提供性能的方法，PHP的stream_get_line函数读取大文件获取文件的行数的方...

摘要：背景：下面是获取文件的行数的方法: 一个文件如果知道有几行的话，就可以控制获取一定的行数的数据，然后放入数据库。这样不管的读取大文件的性能，还是写入数据库的性能，都能得到很大的提高了。下面是获取文件的行数的方法 $temp_file = 'error.log';$fp =... 阅读全文

posted @ 2015-04-08 18:18 一束光阅读(1496) 评论(0) 推荐(0) 编辑

大数据处理的一些思想

摘要：一：大数组转存到文件里，可以考虑逐行写入，并配合多进程来写入/* * 参数：$file 字符串文件名 * $key 字符串数组键名 * $value 字符串数组键值 * $step 字符串当前程序步骤，只有三个值：初始化init/执行中doing/完成done * ... 阅读全文

posted @ 2014-11-26 14:12 一束光阅读(732) 评论(0) 推荐(0) 编辑

Bitmap 多语言实现及应用

摘要：http://blog.studygolang.com/2014/09/bitmap_multi_language/ 阅读全文

posted @ 2014-09-17 16:09 一束光阅读(164) 评论(0) 推荐(0) 编辑

教你如何迅速秒杀掉：99%的海量数据处理面试题（转）

摘要：教你如何迅速秒杀掉：99%的海量数据处理面试题作者：July出处：结构之法算法之道blog前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名，:-)，同时，此文可以看做是对... 阅读全文

posted @ 2014-08-31 13:26 一束光阅读(478) 评论(0) 推荐(0) 编辑

PHP对大文件的处理思路

摘要：需求：现有一个1G左右的日志文件，大约有500多万行，用php返回最后几行的内容。在php中，对于文件的读取时，最快捷的方式莫过于使用一些诸如file、file_get_contents之类的函数，简简单单的几行代码就能很漂亮的完成我们所需要的功能。但当所操作的文件是一个比较大的文件时，这些函... 阅读全文

posted @ 2014-08-31 13:22 一束光阅读(2796) 评论(2) 推荐(0) 编辑

十道海量数据处理面试题与十个方法大总结

摘要：第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小... 阅读全文

posted @ 2014-08-31 13:11 一束光阅读(928) 评论(0) 推荐(0) 编辑

一束光

生活除了代码，还有诗歌! 我要陶冶情操

随笔分类 - php大数据量文件处理

公告

友情链接

一束光

#blogTitle .tip {padding-left:10px;} #blogTitle a.red {font-size:24px; color:red} #blogTitle a.red:hover{color:red} 生活除了代码，还有诗歌! 我要陶冶情操

随笔分类 - php大数据量文件处理

公告

友情链接

生活除了代码，还有诗歌! 我要陶冶情操