Fork me on GitHub

随笔分类 -  大数据

摘要:Elasticsearch 从 2022 年 2 月发布的 8.0 版本开始,提供了基于向量的搜索和自然语言处理(NLP)功能。 下图清楚地展示了向量搜索引擎的工作原理。它涉及以下几个步骤: 将原始实体(如歌曲、图像或文本)转换为数字表示(向量 Embedding); 使用距离度量来表示向量之间的相 阅读全文
posted @ 2023-07-11 16:36 stardsd 阅读(322) 评论(0) 推荐(0) 编辑
摘要:并行智能是现实与虚拟现实之间的交互。这是一个复杂的概念,已被应用于许多领域,包括智能交通、艺术创作、计算机视觉和智能传感器。 并行智能最早由王飞跃于2004年提出,用于构建可用于验证社会政策、经济战略和军事行动的人工系统。 论文地址: https://ieeexplore.ieee.org/docu 阅读全文
posted @ 2023-06-12 14:26 stardsd 阅读(83) 评论(0) 推荐(0) 编辑
摘要:1998年,国家统计局将工业统计范围划分为规模以上和规模以下两部分。“规模以上工业企业”,1998-2006年,是指全部国有和年主营业务收入500万元及以上的非国有工业法人单位;2007-2010年,统计范围调整为年主营业务收入500万元及以上的工业法人单位;2011年开始至今,统计范围为年主营业务 阅读全文
posted @ 2023-05-16 10:35 stardsd 阅读(314) 评论(0) 推荐(0) 编辑
摘要:随着研究和行业转向能够执行大量下游任务的大规模模型,理解赋予模型细微差别的多模态数据集的复杂性迅速增加。对数据集的起源、发展、意图、伦理考虑和演变的清晰和透彻的理解成为负责任和知情部署模型的必要步骤,尤其是那些在面向人的环境和高风险领域中的模型。然而,这种理解的负担往往落在文档的可理解性、简洁性和全 阅读全文
posted @ 2023-04-21 15:31 stardsd 阅读(211) 评论(0) 推荐(0) 编辑
摘要:2023 年 4 月 19 日,星期三 高级研究员 Lauren Wilcox 代表技术、人工智能、社会和文化团队发布 Google 将AI 视为一项基础和变革性技术,最近在生成 AI 技术方面取得了进展,例如LaMDA、PaLM、Imagen、Parti、MusicLM和类似的机器学习 (ML) 阅读全文
posted @ 2023-04-21 15:03 stardsd 阅读(143) 评论(0) 推荐(0) 编辑
摘要:Numpy: Boolean Indexing import numpy as np A = np.array([4, 7, 3, 4, 2, 8]) print(A == 4) [ True False False True False False] Every element of the Ar 阅读全文
posted @ 2021-03-11 17:44 stardsd 阅读(693) 评论(0) 推荐(0) 编辑
摘要:什么是社会技术系统 社会技术系统是一种关于组织的系统观点。它是由英国塔维斯特克人际关系研究所的特里斯特(Trist,E.L.)通过对英国达勒姆煤矿采煤现场的作业组织进行研究后提出的。 该理论认为,组织是由社会系统和技术系统相互作用而形成的社会技术系统,即由包括正式组织、非正式组织、技术系统、成员的素 阅读全文
posted @ 2020-02-08 13:16 stardsd 阅读(5114) 评论(0) 推荐(0) 编辑
摘要:原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and data engineering, 2013, 26(1): 97-107. 使用大数据进行数据挖掘 Xi 阅读全文
posted @ 2019-12-21 15:11 stardsd 阅读(1930) 评论(0) 推荐(0) 编辑
摘要:大数据的傲慢与偏见— 读后心得 数据模型研究者必看的书 原文链接: https://medium.com/@iven00000000/%E5%A4%A7%E6%95%B8%E6%93%9A%E7%9A%84%E5%82%B2%E6%85%A2%E8%88%87%E5%81%8F%E8%A6%8B-% 阅读全文
posted @ 2019-12-06 14:53 stardsd 阅读(819) 评论(0) 推荐(0) 编辑
摘要:Kafka分布式的单位是partition,同一个partition用一个write ahead log组织,所以可以保证FIFO的顺序。不同partition之间不能保证顺序。 但是绝大多数用户都可以通过message key来定义,因为同一个key的message可以保证只发送到同一个parti 阅读全文
posted @ 2019-08-12 16:19 stardsd 阅读(6558) 评论(1) 推荐(1) 编辑
摘要:Golden Image or Foil Ball? The essential basis of running services in “the cloud” is that they run in virtual machines, which come with their own idio 阅读全文
posted @ 2019-06-16 15:48 stardsd 阅读(633) 评论(0) 推荐(0) 编辑
摘要:import pandas pandas.read_json("mobilenet_tech_0.11_predict.log").to_csv("mobilenet_tech_0.11_predict.log.csv") # to_excel()可以转excel 阅读全文
posted @ 2019-01-29 11:16 stardsd 阅读(613) 评论(0) 推荐(0) 编辑
摘要:2017 will see a host of informed predictions, lower costs, and even business-centric gains, courtesy of the global adoption of Big Data and associated 阅读全文
posted @ 2017-03-03 19:36 stardsd 阅读(350) 评论(0) 推荐(1) 编辑
摘要:注:oschina已失效 Maven 远程仓库 说明: SBT 修改SBT的远程仓库地址有很多办法,这里采用直接修改sbt-lauch.jar/sbt/sbt.boot.properties的方式 说明: ___________________________________________ ——— 阅读全文
posted @ 2017-02-07 21:06 stardsd 阅读(1460) 评论(0) 推荐(0) 编辑
摘要:“忽如一夜春风来,千树万树梨花开”,似乎在一夜之间,大数据就红遍了南北半球,,大数据被神化得无处不在,无所不包,无所不能。这里面有认识上的原因,也有故意忽悠的成份。笔者以为,越是在热得发烫的时候,越是需要有人在旁边吹吹冷风。在这里谈大数据的十大局限性,并非要否定其价值。相反,只有我们充分认识了大数据 阅读全文
posted @ 2017-01-31 21:48 stardsd 阅读(808) 评论(0) 推荐(0) 编辑
摘要:Santosh Srinivas on 07 Nov 2016, tagged on Apache Spark, Analytics, Data Minin I've finally got to a long pending to-do-item to play with Apache Spark 阅读全文
posted @ 2017-01-12 00:09 stardsd 阅读(885) 评论(0) 推荐(0) 编辑
摘要:内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措。首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用。 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来 阅读全文
posted @ 2017-01-04 21:04 stardsd 阅读(3629) 评论(0) 推荐(0) 编辑
摘要:资源描述框架(Resource Description Framework),一种用于描述Web资源的标记语言。RDF是一个处理元数据的XML(标准通用标记语言的子集)应用,所谓元数据,就是“描述数据的数据”或者“描述信息的信息”。也许这样解释元数据有些令人难以理解,举个简单的例子,书的内容是书的数 阅读全文
posted @ 2016-12-15 15:02 stardsd 阅读(3070) 评论(0) 推荐(0) 编辑
摘要:编者:本文来自携程酒店研发部研发经理崔广宇在第三期【携程技术微分享】上的分享,以下为整理的内容概要。墙裂建议点击视频回放,“现场”围观段子手攻城狮大崔,如何高智商&高情商地完美碾压爬虫。。。关注携程技术中心微信公号ctriptech,可第一时间获知微分享信息~ 你被爬虫侵扰过么?当你看到“爬虫”两个 阅读全文
posted @ 2016-12-12 23:39 stardsd 阅读(1027) 评论(0) 推荐(0) 编辑