0%

声明 (Disclaimer)

The Chinese version of the Databricks Scala Guide is contributed and maintained by community member Hawstein. We do not guarantee that it will always be kept up-to-date.

本文档翻译自 Databricks Scala Guide,目前由 Hawstein 进行维护。由于是利用业余时间进行翻译并维护,因此该中文文档并不保证总是与原文档一样处于最新版本,不过我会尽可能及时地去更新它。

前言

Spark 有超过 1000 位贡献者,就我们所知,应该是目前大数据领域里最大的开源项目且是最活跃的 Scala 项目。这份指南是在我们指导,或是与 Spark 贡献者及 Databricks 工程团队一起工作时总结出来的。

代码由作者 一次编写 ,然后由大量工程师 多次阅读并修改 。事实上,大部分的 bug 来源于后人对代码的修改,因此我们需要长期去优化我们的代码,提升代码的可读性和可维护性。达到这个目标最好的方式就是编写简单易懂的代码。

Scala 是一种强大到令人难以置信的多范式编程语言。我们总结出了以下指南,它可以很好地应用在一个高速发展的项目。当然,这个指南并非绝对,根据团队需求的不同,可以有不同的标准。

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Read more »

concat对于字符串进行拼接

1
2
3
4
concat(str1, str2, ..., strN) - Returns the concatenation of str1, str2, ..., strN.

Examples:`> SELECT concat('Spark', 'SQL');  
SparkSQL

concat_ws在拼接的字符串中间添加某种格式

1
2
3
4
concat_ws(sep, [str | array(str)]+) - Returns the concatenation of the strings separated by `sep`.

Examples:`> SELECT concat_ws(' ', 'Spark', 'SQL');  
Spark SQL
Read more »

简介

这里写一些zeppelin的简介。

安装问题

Jar包冲突

问题描述

主要问题:Zeppelin中的Jar包与Spark中的Jar包版本不一致。

解决方法

将Zeppelin中的冲突Jar包删除,拷贝Spark中的对应Jar包。

  • netty
  • jackson
  • lib (libfb303,libthrift。。)
Read more »

参考

1
2
https://github.com/yaooqinn/spark-authorizer
http://dl.bintray.com/spark-packages/maven/yaooqinn/spark-authorizer

部署Jar

将下面的包添加到$SPARK_HOME/jar中,切记千万要注意ranger-jars版本,最好是按照下图中的版本:

Read more »

安装

按照ambari的操作一直点

需要注意的是:选择ranger admin和ranger user服务的时候,需要安装在同一个节点,并且需要安装在ranger元数据的节点上。

先创建ranger的数据库

不要用utf8,会报错,用root用户:

1
2
3
4
create database ranger CHARACTER SET = latin1; 
CREATE USER 'ranger'@'%'IDENTIFIED BY 'Ranger-2019';
GRANT ALL PRIVILEGES ON *.* TO 'ranger'@'%';
FLUSH PRIVILEGES;
Read more »

序言

Scala是Twitter使用的主要应用编程语言之一。很多我们的基础架构都是用scala写的,我们也有一些大的库支持我们使用。虽然非常有效, Scala也是一门大的语言,经验教会我们在实践中要非常小心。 它有什么陷阱?哪些特性我们应该拥抱,哪些应该避开?我们什么时候采用“纯函数式风格”,什么时候应该避免?换句话说:哪些是我们发现的,可以高效地使用这门语言的地方?本指南试图把我们的经验提炼成短文,提供一系列最佳实践。我们使用scala主要创建一些大容量分布式系统服务——我们的建议也偏向于此——但这里的大多建议也应该自然的适用其他系统。这不是定律,但不当的使用应该被调整。

Read more »

数仓概述

数据仓库的建设是一个过程,而不是一个项目。在这个过程中我们需要形成自己的规范,以方便管理和维护。在数据仓库的建设过程中,不仅会面临着公司业务迅速发展,业务系统迭代变更,需要对业务系统数据进行相应
的整合,形成公司完整的统一数据视图;而且基于数据仓库的应用也是多样化的,比如支撑自己企业的数据可视化平台、即席查询、对策略提供数据支持等。

Read more »