第1章 大数据概论
1.信息技术的核心:计算机技术
2.大数据概念:大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。 3.大数据的主要特征“4V”
①Volume:表示大数据的数据体量巨大
②Velocity:表示大数据的数据产生、处理和分析的速度在持续加快 ③Variety:表示大数据的数据类型繁多 ④Value:表示大数据的数据价值密度低 4.大数据的战略含义。
①在资源的角度,数据被视为“未来的石油”,被作为战略性资产进行管理。
②在国家治理角度,大数据被用来提升治理效率,重构治理模式,破解治理难题,它将掀起一场国家治理。
③在经济增长角度,大数据是全球经济低迷环境下的产业亮点,是战略新兴产业的最活跃部分。
④在角度,全球数据空间没有国界边疆,大数据能力成为大国之间博弈和较量的利器。
总之,国家竞争焦点将从资本、土地、人口、资源转向数据空间,全球竞争版图将分成新的两大阵营:数据强国与数据弱国。 5.大数据时代的10个重大变化
①对研究范式的新认识:从第三范式到第四范式 ②对数据重要性的新认识:从数据资源到数据资产
③对方的新认识:从基于认识到基于数据 ④对数据分析的新认识:从统计学到数据科学 ⑤对计算智能的新认识:从复杂算法到简单算法 ⑥对管理目标的新认识:从业务数据化到数据业务化 ⑦对决策方式的新认识:从目标驱动型到数据驱动型
⑧对产业竞合关系的新认识:从以战略为中心到以数据为中心 ⑨对数据复杂性的新认识:从不接受到接受数据的复杂性 ⑩对数据处理模式的新认识:从小众参与到大众协同 6.大数据的作用
①对大数据的处理分析正成为新一代信息技术融合应用的结点。 ②大数据是信息产业持续高速增长的新引擎。 ③大数据利用将成为提高核心竞争力的关键因素。 ④大数据时代,科学研究的方法手段将发生重大改变。 7.数据抽取与集成方式
从数据集成模型来看,现有的数据抽取与集成方式可以大致分为四种类型:基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。 8.大数据处理流程的核心:数据分析 9.大数据时代的数据分析技术面临的挑战
①数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多。
②大数据时代的算法需要进行调整。
③数据结果的衡量标准。对大数据进行分析比较困难,但是对大数据分析结果好坏的衡量却是大数据时代数据分析面临的更大挑战。大数据时代的数据量大,类型混杂,产生速度快,进行分析的时候,往往对整个数据的分布特点掌握的不太清楚,从而会导致在设计衡量的方法和指标的时候,遇到许多困难。
10.大数据采集技术概念:大数据采集技术是指通过RFID数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得各种类型的结构化、半结构化,、非结构化的海量数据。
11.大数据的数据源:运营数据库、社交网络和感知设备
12. 数据预处理包含的部分:数据清理、数据集成和变换及数据规约 13. 大数据主要的处理模式:流处理模式和批处理模式 第2章 大数据与云计算、物联网、人工智能 1.云计算的服务模式
SaaS:从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型。由于是计量服务,SaaS 允许出租一个应用程序,并计时收费(应用层—最终客户)
PaaS:类似于laaS但是它包括操作系统和围绕特定应用的必需的服务(平台层—应用开发者)
LaaS:将基础设施(计算资源和存储)作为服务出租(基础设施层—运维人员) 2.物联网概念:就是物物相连的互联网,是互联网的延伸 3.大数据、云计算和物联网之间的关系
①云计算为大数据提供了技术基础,大数据为云计算提供用武之地 ②云计算为物联网提供海量数据存储能力,物联网为云计算技术提供了广阔的应用空间
③物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑 4.人工智能概念:人工智能(AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
①人工智能是一门极富挑战性的科学,属于自然科学和社会科学的交叉学科,涉及哲学和认知科学、数学、神经生理学、心理学、计算机科学、信息论、控制论、控制论、不定性论等
②从事这项工作的人必须懂得计算机知识、心理学和哲学等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作
5. 大数据与人工智能的关系
联系:①人工智能需要数据来建立其智能,特别是机器学习②大数据技术为人工智能提供了强大的存储能力和计算能力。
区别:①人工智能是一种计算形式,而大数据是一种传统计算,他不会根据结果采取行动,只是寻找结果②二者要达成的目标和实现目标的手段不同
第2章 大数据采集技术概述
1. 在传统数据体系和新数据体系中,数据种类。
①业务数据:如消费者数据、客户关系数据、库存数据、账目数据等。 ②行业数据:如车流量数据、能耗数据、PM2.5数据等。
③内容数据:如应用日志、电子文档、机器数据、语音数据、社交媒体数据等。
④线上行为数据:如页面数据、交互数据、表单数据、会话数据、反馈数据等。
⑤线下行为数据:如车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。
2.Flume 概念:是一个高可用、高可靠的分布式的海量日志采集、聚合和传输系统。
3.网络爬虫概念:是按照一定规则,自动的抓取web信息的程序或者脚本。 4. 网络爬虫基本工作原理:网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
5. 深度优先策略和广度优先策略
①深度优先策略是指网络爬虫会从起始页开始,一个链接一个链接的跟踪下去,直到不能再深入为止。
②广度优先策略,按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。
第3章 大数据预处理架构和方法简介
1. 常见的数据质量问题:常见的数据质量问题可以根据数据源的多少和所属层次,(定义层层和实例层)分为四类——单数据源定义层、单数据源实例层、多数据源定义层、多数据源实例层。
2. 噪声数据、不完整数据、不一致数据:①噪声数据是指数据中存在着错误或异常的数据。②不完整数据是指感兴趣的数据没有值③不一致数据则是指数据内涵出现不一致情况。 3.数据清洗概念和处理过程
①数据清洗是指消除数据中存在的噪声以及纠正不一致错误。
②数据清洗的处理过程通常包括填补遗漏的数据值、平滑有噪声数据、识别或除去异常
值、以及解决不一致问题,有问题的数据将会误导数据挖掘的搜索过程 4.数据消减概念和方法
数据消减是指通过删除冗余特征或者聚类消除多余数据。
现有的数据削减方法有:数据聚合、削减纬数、数据压缩、数据块消减。 5. Bin方法:箱均值平滑,箱边界平滑,箱中位数平滑
6. 规格化处理:最大最小规格化方法、零均值规格化方法、十基数变换规格化方法
第4章 大数据处理技术
1. 2003至2004年间,Google发表的技术论文
2003—2004年,Google发表了MapReduce 、GFS (Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。 MapReduce是分布式计算框架,GFS是分布式文件系统,BigTable是基于GFS的数据存储系统,这三大组件组成了Google的分布式计算模型。 2.GFS 的系统架构:GFS的系统架构主要由一个 Master Server(主服务器)和多个Chunk Server(数据块服务器)组成。
①Master Server主要负责维护系统中的名字空间,访问控制信息,从文件到块的映射及块的当前位置等元数据,并与Chunk Server通信。
②Chunk Server负责具体的存储工作。数据以文件的形式存储在Chunk Server上。Client是应用程序访问GFS的接口。
③Master Server的所有信息都存储在内存里,启动时信息从Chunk Server中获取。这样不但提高了Master Server的性能和吞吐量,也有利于Master Server宕机后把后备服务器切换成Master Server。
3.GFS和 MapReduce分别解决的问题:GFS解决了Google海量数据的存储问题,MapReduce则是为了解决如何从这些海量数据中快速计算并获取期望结果的问题。
4. BigTable 概念:BigTable是Google设计的分布式数据存储系统,是用来处理海量数据的一种非关系型数据库。BigTable是一个稀疏的、分布式的、持久化存储的度排序的映射表。 第5章Hadoop 大数据处理框架简介
1.Hadoop概念:Hadoop是一个由Apache基金会开发的大数据分布式系统基础架构。
2.Hadoop的生态系统核心组件:
(1)HDFS。一个提供高可用的获取应用数据的分布式文件系统。 (2) MapReduce。一个并行处理大数据集的编程模型。
(3) HBase。一个可扩展的分布式数据库,支持大表的结构化数据存储;是一个建立在HDFS之上的、面向列的NoSQL数据库,用于快速读/写大量数据。
(4) Hive。一个建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具;可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
Hive定义了简单的类SQL查询语言,称为HQL,它允许不熟悉MapReduce的开发人员也能编写数据查询语句,然后这些语句被翻译为Hadoop上面的MapReduce任务。
(5) Mahout。一个可扩展的机器学习和数据挖掘库。它提供的MapReduce包含很多实现方法,包括聚类算法、回归测试、统计建模。
(6)Pig。一个支持并行计算的高级的数据流语言和执行框架。它是MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(PigLatin)。其编译器将PigLatin翻译成 MapReduce程序序列。
(7) Zookeeper。一个应用于分布式应用的高性能的协调服务。它是一个为分布式应用提供一致性服务的软件,其提供的功能包括配置维护、域名服务、分布式同步、组服务等。
(8)Amban。一个基于Web的工具,用来供应、管理和监测Hadoop集群,包括支持HDFS、MapReduceAHive、HCatalog、HBase、ZooKeeperAOozie、Pig和Sqoop。
3.分布式文件系统概念:HDFS是Hadoop的一个分布式文件系统,是Hadoop应用程序使用的主要分布式存储。HDFS被设计成适合运行在通用硬件上的分布式文件系统。
4.HDFS 体系结构:在HDFS体系结构中有两类结点:一类是NameNode,又叫“名称结点”;另一类是Da-taNode,又叫“数据结点”。
5.NameNode 和DataNode的职责:这两类结点分别承担Master和Worker具体任务的执行。
NameNode负责执行文件系统命名空间的操作,如打开、关闭、重命名文件和目录。NameNode同时也负责将数据块映射到对应的DataNode中。 DataNode负责服务文件系统客户端发出的读/写请求。DataNode同时也负责接收Name-Node的指令来进行数据块的创建、删除和复制。
5.HDFS 的设计理念:①可构建在廉价机器上②高容错性③适合批处理④适合存储大文件
第6章NoSQL 非关系型数据库简介
1.NoSQL的特点:①灵活的可扩展性②大数据量和高性能③灵活的数据模型,可以处理半结构化/非结构化的大数据
2. NoSQL的类型:①键值数据库②图形数据库③列式数据库④文档数据库 第7章Hadoop HBase 数据库简介
1. HBase概念:HBase是一个针对半结构化数据的开源的、多版本的、可伸缩的、高可靠的、高性能的、分布式的和面向列的动态模式数据库。 2.HBase 数据模型概述及基本概念:
数据模型概述:①HBase是一个稀疏、度、有序的映射表。这张表中每个单元是通过由行键、列族、列限定符和时间戳组成的索引来标识的。②每个单元的值是一个未经解释的字符串,没有数据类型。当用户在表中存储数据时,每一行都有一个唯一的行键和任意多的列。③表的每一行由一个或多个列族组成,一个列族中可以包含任意多个列。④在同一个表模式下,每行所包含的列族是相同的,也就是说,列族的个数与名称都是相同的,但是每一行中的每个列族中列的个数可以不同。⑤HBase执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,原有的版本仍然保留。
基本概念:①表(Table)②行 (Row)③列(Column)④列族(ColumnFamily)⑤列限定符(ColumnQualifier)⑥单元(Cell)⑦时间戳(Timestamp) 2.HBase概念视图
第8章 Hadoop MapReduce 简介
1. MapReduce 基本思想:①分而治之②构建抽象模型:Map 函数和 Reduce 函数③上升到架构:并行自动化并隐藏底层细节
2. MapReduce方法的规则:①把这摞牌分配给在座的所有玩家。②让每个玩家数自己手中的牌中有几张是红桃,然后把这个数目汇报上来。③把所有玩家汇报的数字加起来,得到最后的结论。
3. Map函数和Reduce函数:一个Map函数就是对一些元素组成的概念上列表的每一个元素进行指定的操作;Reduce函数的操作指的是对每一个列表的元素进行适当的合并。
第 11章 基于大数据的精准营销 1.大数据精准营销方式: ①实时竞价(RTB)
RTB(RealTime Bidding)实时竞价,是一种利用第三方技术在数以百万计的网站上针对每一个用户展示行为进行评估以及出价的竞价技术。 RTB 智能投放系统的操作过程就是当用户发出浏览网页请求时,该请求信息会在数据库中进行比对,系统通过推测来访者的身份和偏好,将信息发送到后方需求平台,然后由广告商进行竞价,出价最高的企业可以把自己的广告瞬间投放到用户的页面上。 ②交叉销售
交叉销售即借助CRM (客户关系管理),发现现有顾客的多种需求,并通过满足其需求而销售多种相关服务或产品的一种新兴营销方式。
通过对数据的有效分析,企业可以发现客户的其他需求,为客户制定套餐服务,还可以通过互补型产品的促销,为客户提供更多更好的服务 ③点告
当用户注册为点告网的用户时,如果填写自己的职业和爱好等资料,点告网就可以根据用户信息进行数据挖掘分析,然后将相应的题目推荐给用户,继而根据用户的答题情况对用户进行自动分组,进一步精确地区分目标用户。 ④窄告
“窄告”与广告相对立,是一种把商品信息有针对性地投放给企业想要传递到的那些人眼前的广告形式。“窄告”基于精准营销理念,在投放广告时,采用语义分析技术将广告主的关键词及网文进行匹配,从而有针对性地将广告投放到相关文章周围的联盟网站的窄广告位上。 ⑤定向广告推送
社交网络广告商可以对互联网和移动应用中大量的社交媒体个人页面进行搜索,实时查找提到的品牌厂商的信息,并对用户所发布的文字、图片等信息进行判断,帮助广告商投放实时广告,使得投放的广告更加符合消费者的实际需要,因而更加准确有效。
第12章 基于大数据的个性化推荐系统
1.推荐系统概念:推荐系统是自动联系用户和物品的一种工具,他通过研究用户的兴趣爱好,来进行个性化推荐 2.几种推荐机制:
(1)基于人口统计学的推荐:根据系统用户的基本信息发现用户的相关程度。 (2)基于内容的推荐:根据推荐物品或内容的元数据,发现物品或者内容的相关性。
(3)基于协同过滤的推荐:根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性。 (4)混合推荐:结合多种推荐算法来提升推荐效果 第13章 大数据预测
1.大数据预测概念:大数据预测是基于大数据和预测模型去预测未来某件事情的概率。
2.大数据预测的思维改变:①实样而非抽样②效率而非精确③相关性而非因果关系
3.相关性概念:相关性是指两个或两个以上变量的取值之间存在某种规律性
4.谷歌流感案例:就是具有代表性的互联网疾病预测服务,其基本原理是:流行病的发生和传播有一定的规律性,与气温变化、环境指数、人口流动等因素密切相关,每天网民在百度搜索大量流行病相关信息,汇聚起来就有了统计规律,经过一段时间的积累,可以形成一个个预测模型,预测未来疾病的活跃指数。
因此,流行病学领域研究人员认为,可以尝试利用通信大数据防止埃博拉病毒的快速传播。当用户使用移动电话进行通话时,电信运营商网络会生成一个呼叫数据记录,包含主叫方和接收方、呼叫时间和处理这次呼叫的基站(能够粗略指示移动设备的位置)。通过对电信运营商提供的海量用户呼叫数据记录进行分析,就可以分析得到当地人口流动模式,疾病防控工作人员就可以提前判断下一个可能的疫区,从而把有限的医疗资源和相关物资进行有针对性的投放
第14章 大数据在金融行业的应用
1. 证券行业的大数据应用大致方向:股价预测、客户关系管理和投资景气指数预测。
2. 保险行业的大数据应用可以分为三大方面:
①客户细分及精细化营销:客户细分和差异化服务、潜在客户挖掘及客户流失预测、客户关联销售、客户精准营销
②欺诈行为分析:医疗保险欺诈与滥用分析、车险欺诈分析 ③精细化运营:产品优化、运营分析、保险销售人员甄选 第15章 大数据在互联网行业的应用 1. 互联网企业的商业价值。
以阿里巴巴为例,它不仅在不断加强个性化推荐、“千人千面”这种面向消费者的大数据应用,并且还在尝试利用大数据进行智能客户服务,这种应用场景会逐渐从内部应用延展到外部很多企业的呼叫中心之中。 在面向商家的大数据应用中,以“生意参谋”为例,超过600万商家在利用“生意参谋”提升自己的电商店面运营水平。除了面向自己的生态之外,阿里巴巴数据业务化也在不断加速,“芝麻信用”这种基于收集的个人数据进行个人信用评估的应用获得了长足发展,应用场景从阿里巴巴的内部延展到越来越多的外部场景,如租车、酒店、签证等。
因为客户的所有行为都会在互联网平台上留下痕迹,所以互联网企业可以方便地获取大量的客户行为信息。由互联网商务平台产生的信息一般具有真实性和确定性,通过运用大数据技术对这些数据进行分析,可以帮助企业制定出具有针对性的服务策略,从而获取更大的效益。近年来的实践证明,合理地运用大数据技术能够将电子商务的营业效率提高60%以上。 2.“三只松鼠”案例
“三只松鼠”品牌近几年的快速发展,一方面是依靠品牌推广,另一方面是在数据分析的基础上不断完善细节,包括个性化的称呼、三只松鼠的卡通形象、赠品的差别化、不同的顾客标签分类以及用户体验等。三只松鼠通过ERP系统能够了解所有顾客在商城的购买记录,通过CRM系统能够准确抓取用户的评价,一些不经意的留言和评级会反映出他们的需求。
通过分析顾客过去在商城的购买习惯,用户的购买评价,来判断哪种口味的产品在哪个地区卖得最好,哪种产品是消费者最乐于接受的,从而进行更有针对性的产品首页推荐。同时,他们会对顾客进行个性化、人性化的标签分类和细化分析,从而根据这些分类,推送不同的产品类型。例如,疼爱妻子型顾客购买的产品主要是以老婆食用为主的,三只松鼠会在包裹里放上书信,以“松鼠”的口吻代替顾客给妻子写一封信。 第16章 大数据在物流行业的应用
1. 物流大数据概念:物流大数据就是通过海量的物流数据,即运输、仓储、搬运装卸、包装及流通加工等物流环节中涉及的数据、信息等,挖掘出新的增值价值,通过大数据分析可以提高运输与配送效率,减少物流成本,更有效地满足客户服务要求。
2. 物流大数据的作用:①提高物流的智能化水平②降低物流成本③提高用户服务水平
3. 美国 UPs 公司案例:运输路线优化
通过运用大数据,物流运输效率将得到大幅提高,大数据为物流企业间搭建起沟通的桥梁,物流车辆行车路径也将被最短化、最优化定制。美国UPS 公司使用大数据优化送货路线,配送人员不需要自己思考配送路径是否最优。UPS采用大数据系统可实时分析20万种可能路线,3秒找出最佳路径。UPS通过大数据分析,规定卡车不能左转,所以,UPS的司机会宁愿绕个圈,也不往左转。根据往年的数据显示,因为执行尽量避免左转的,UPS货车在行驶路程减少 2.04 亿的前提下,多送出了350000件包裹。
4. 物流大数据应用的主要体现:针对物流行业的特性,大数据应用主要体现在车货匹配、运输路线优化、库存预测、设备修理预测、供应链协同管理等方面。 第17章 大数据治理 1. 大数据治理的意义 ①大数据时代凸显数据重要性 ②数据治理是大数据的基础 ③信息孤岛现象严重
④数据应用未得到有效管理 ⑤数据安全问题日益严峻
2. 对大数据治理的理解:对大数据治理有两种理解,一种理解是数据在使用过程中如何进行治理;另一种理解是如何用数据来提升服务、治理,或用数据实现新的业态、新的商业模式。第一种可以归结为数据应用的乱象问题,如数据杀熟、隐私泄露、数据黑产交易等问题;第二种是数据应用的难点问题,比如数据孤岛、大数据应用场景等问题。 3. 元数据概念及重要性
元数据是描述数据的数据,对数据及信息资源的描述性信息 元数据是一个组织内的数据地图,它是数据治理的核心和基础
4. 主数据概念:主数据(MD Master Data)指系统间的共享数据(如客户、供应商、账户和组织部门相关数据) 5. 数据资产定义及特征
数据资产定义为由企业拥有或控制的、能够为企业带来未来经济利益的、以物理或者电子方式记录的数据资源,如文件资料、电子数据等。 特征(1)企业拥有或控制。这个特征指明了数据是有其主体的,同时也说明数据资源可能来源于企业内部的信息系统或者日常经营活动的沉淀,同时也有可能是企业通过外部的交换、购买等手段获取到的。
(2)能带来未来经济利益。这个特征清楚地表明了在企业中并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
(3)数据资源。这个特征表明了数据资产的存在形态,是以物理或者电子方式记录下来的数据。
6. 大数据治理的核心要素:元数据管理
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- bangwoyixia.com 版权所有 湘ICP备2023022004号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务