美团R语言数据运营实战

发布时间：2018-08-15 22:21:14 所属栏目：教程来源：喻灿

导读：技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战一、引言近年来，随着分布式数据处理技术的不断革新，Hive、Spark、Kylin、Impala、Presto 等工具不断推陈出新，对大数据集合的计算和存储成为现实，数据仓库/商业分析部门日益成

副标题[/!--empirenews.page--] 技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战

一、引言

近年来，随着分布式数据处理技术的不断革新，Hive、Spark、Kylin、Impala、Presto 等工具不断推陈出新，对大数据集合的计算和存储成为现实，数据仓库/商业分析部门日益成为各类企业和机构的标配。在这种背景下，是否能探索和挖掘数据价值，具备精细化数据运营的能力，就成为判定一个数据团队成功与否的关键。

在数据从后台走向前台的过程中，数据展示是最后一步关键环节。与冰冷的表格展示相比，将数据转化成图表并进行适当的内容组织，往往能更快速、更直观的传递信息，进而更好的提供决策支持。从结构化数据到最终的展示，需要通过一系列的探索和分析过程去完成产品思路的沉淀，这个过程也伴随着大量的数据二次处理。

上述这些场合 R 语言有着独特的优势。本文将基于美团到店餐饮技术部的精细化数据运营实践，介绍 R 在数据分析与可视化方面的工程能力，希望能够抛砖引玉，也欢迎业界同行给我们提供更多的建议。

二、数据运营产品分类与 R 的优势

2.1 数据运营产品分类

在企业数据运营过程中，考虑使用场景、产品特点、实施角色以及可利用的工具，大致可以将数据运营需求分为四类，如下表所示：

美团R语言数据运营实战

2.2 R 在数据运营上的优势

如上节所述，在精细化数据运营过程中，经常需要使用高度定制的数据处理、可视化、分析等手段，这些过程 Excel、Tableau、企业级报表工具都无法面面俱到，而恰好是 R 的强项。一般来说，R 具备的如下特征，让其有了“数据分析领域的瑞士军刀”的名号：

免费、开源、可扩展：截至到 2018-08-02，“ The CRAN package repository features 12858 available packages. ”，CRAN 上的软件包涉及贝叶斯分析、运筹学、金融、基因分析、遗传学等方方面面，并在持续新增和迭代。
可编程：R 本身是一门解释型语言，可以通过代码控制执行过程，并能通过 rPython、rJava 等软件包实现和 Python、Java 语言的互相调用。

强大的数据操控能力：

数据源接入：通过 RMySQL、SparkR、elastic 等软件包，可以实现从 MySQL、Spark、Elasticsearch 等外部数据引擎获取数据。
数据处理：内置 vector、list、matrix、data.frame 等数据结构，并能通过 sqldf、tidyr、dplyr、reshape2 等软件包实现对数据的二次加工。
数据可视化：ggplot2、plotly、dygraph 等可视化包可以实现高度定制化的图表渲染。
数据分析与挖掘：R 本身是一门由统计学家发起的面向统计分析的语言，通过自行编程实现或者第三方软件包调用，可以轻松实现线性回归、方差分析、主成分分析等分析与挖掘功能。

初具雏形的服务框架：

Web 编程框架：例如不精通前端和系统开发的同学，通过 shiny 软件包开发自己的数据应用。
服务化能力：例如通过 rserve 包，可以实现 R 和其他语言通信的 C/S 架构服务。

对于以数据为中心的应用来说，Python 和 R 都是不错的选择，两门语言在发展过程中也互有借鉴。“越接近统计研究与数据分析，越倾向 R;越接近工程开发工程环境的人，越倾向 Python”，Python 是一个全能型“运动员”，R 则更像是一个统计分析领域的“剑客”，“Python 并未建立起一个能与 CRAN 媲美的巨大的代码库，R 在这方面具有绝对领先优势。统计学并不是 Python 的核心使命”。各技术网站上有大量“Python VS R ”的讨论，感兴趣的读者可以自行了解和作出选择。

三、R 的数据处理、可视化、可重复性数据分析能力

对于具备编程能力的分析师或者具备分析能力的开发人员来说，在进行一系列长期的数据分析工程时，使用 R 既可以满足“一次开发，终身受用”，又可以满足“调整灵活，图形丰富”的要求。下文将分别介绍 R 的数据处理能力、可视化能力和可重复性数据分析能力。

3.1 数据处理

在企业级数据系统中，数据清洗、计算和整合工作会通过数据仓库、Hive、Spark、Kylin 等工具完成。对于数据运营项目，虽然 R 操作的是结果数据集，但也不能避免需要在查询层进行二次数据处理。

在数据查询层，R 生态现成就存在众多的组件支持，例如可以通过 RMySQL 包进行 MySQL 库表的查询，可以使用 Elastic 包对 Elasticsearch 索引文档进行搜索。对于 Kylin 等新技术，在 R 生态的组件支持没有跟上时，可以通过使用 Python、Java 等系统语言进行查询接口封装，在 R 内部使用 rPython、rJava 组件进行第三方查询接口调用。通过查询组件获取的数据一般以 data.frame、list 等类型对象存在。

另外 R 本身也拥有比较完备的二次数据处理能力。例如可以通过 sqldf 使用 sql 对 data.frame 对象进行数据处理，可以使用 reshape2 进行宽格式和窄格式的转化，可以使用 stringr 完成各种字符串处理，其他如排序、分组处理、缺失值填充等功能，也都具备完善的语言本身和生态的支持。

3.2 数据可视化

数据可视化是数据探索过程和结果呈现的关键环节，而 “ R is a free software environment for statistical computing and graphics. ”，绘图(可视化)系统也是 R 的最大优势之一。

目前 R 主流支持的有三套可视化系统：

内置系统：包括有 base、grid 和 lattice 三个内置发行包，支持以相对比较朴素的方式完成图形绘制。
ggplot2：由 RStudio 的首席科学家 Hadley Wickham 开发，ggplot2 通过一套图形语法支持，支持通过图层叠加以组合的方式支持高度定制的可视化。这一理念也逐步影响了包括 Plotly、阿里 AntV 等国内外数据可视化解决方案。截至到 2018-08-02，CRAN 已经落地了 40 个 ggplot2 扩展包，参考链接。
htmlwidgets for R：这一系统是在 RStudio 支持下于 2016 年开始逐步发展壮大，提供基于 JavaScript 可视化的 R 接口。htmlwidgets for R 作为前端可视化(for 前端工程师)和数据分析可视化(for 数据工程师)的桥梁，发挥了两套技术领域之间的组合优势。截至到 2018-08-02，经过两年多的发展，目前 CRAN 上已经有 101 个基于 htmlwidgets 开发的第三方包，参考链接。

（编辑：帝国网站管理系统）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/7

尾页

电脑死机,教您如何处理	360无法卸载,教您360不
怎么查看隐藏文件,教您	Apowersoft视频转换王