Databricks-Scala 编程风格指南

Posted on 2020-05-13 In scala

声明 (Disclaimer)

The Chinese version of the Databricks Scala Guide is contributed and maintained by community member Hawstein. We do not guarantee that it will always be kept up-to-date.

本文档翻译自 Databricks Scala Guide，目前由 Hawstein 进行维护。由于是利用业余时间进行翻译并维护，因此该中文文档并不保证总是与原文档一样处于最新版本，不过我会尽可能及时地去更新它。

前言

Spark 有超过 1000 位贡献者，就我们所知，应该是目前大数据领域里最大的开源项目且是最活跃的 Scala 项目。这份指南是在我们指导，或是与 Spark 贡献者及 Databricks 工程团队一起工作时总结出来的。

代码由作者 一次编写 ，然后由大量工程师 多次阅读并修改 。事实上，大部分的 bug 来源于后人对代码的修改，因此我们需要长期去优化我们的代码，提升代码的可读性和可维护性。达到这个目标最好的方式就是编写简单易懂的代码。

Scala 是一种强大到令人难以置信的多范式编程语言。我们总结出了以下指南，它可以很好地应用在一个高速发展的项目。当然，这个指南并非绝对，根据团队需求的不同，可以有不同的标准。

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Mac移除浏览器劫持AnySearch

Posted on 2020-04-26 In mac

操作

删除infosearch相关的文件。

1 2	cd ~/Library/ApplicationSupport find ./ -iname "infosearch*"

SPARK-SQL内置函数之字符串函数

Posted on 2020-03-24 In spark

concat对于字符串进行拼接

concat(str1, str2, ..., strN) - Returns the concatenation of str1, str2, ..., strN.

Examples:`> SELECT concat('Spark', 'SQL');　　
SparkSQL

concat_ws在拼接的字符串中间添加某种格式

concat_ws(sep, [str | array(str)]+) - Returns the concatenation of the strings separated by `sep`.

Examples:`> SELECT concat_ws(' ', 'Spark', 'SQL');　　
Spark SQL

zeppelin文档

Posted on 2020-03-19 In zeppelin

简介

这里写一些zeppelin的简介。

安装问题

Jar包冲突

问题描述

主要问题：Zeppelin中的Jar包与Spark中的Jar包版本不一致。

解决方法

将Zeppelin中的冲突Jar包删除，拷贝Spark中的对应Jar包。

netty
jackson
lib （libfb303，libthrift。。）

Hexo Next主题图标显示为方块的解决方法

Posted on 2020-03-19 In blog

现象

所有的图标都无法正常展示，都显示为方块。

ranger-spark插件部署

Posted on 2020-03-17 In ambari

参考

1 2	https://github.com/yaooqinn/spark-authorizer http://dl.bintray.com/spark-packages/maven/yaooqinn/spark-authorizer

部署Jar

将下面的包添加到$SPARK_HOME/jar中，切记千万要注意ranger-jars版本，最好是按照下图中的版本：

ambari-ranger安装

Posted on 2020-03-17 In ambari

安装

按照ambari的操作一直点

需要注意的是：选择ranger admin和ranger user服务的时候，需要安装在同一个节点，并且需要安装在ranger元数据的节点上。

先创建ranger的数据库

不要用utf8，会报错，用root用户：

create database ranger CHARACTER SET = latin1; 
CREATE USER 'ranger'@'%'IDENTIFIED BY 'Ranger-2019';
GRANT ALL PRIVILEGES ON *.* TO 'ranger'@'%';
FLUSH PRIVILEGES;

scala代码格式化配置

Posted on 2020-03-16 In scala

IDEA配置

X-01 在IDEA中配置code formatter 为`scalafmt`

X-02 编辑scalafmt.conf

在项目的根目录下，新建.scalafmt.conf 文件，将格式化的相关配置写入文件中。比如：

1 2	align = more // For pretty alignment. maxColumn = 130 // For my wide 30" display.

scala代码规范

Posted on 2020-03-04 In scala

序言

Scala是Twitter使用的主要应用编程语言之一。很多我们的基础架构都是用scala写的，我们也有一些大的库支持我们使用。虽然非常有效, Scala也是一门大的语言,经验教会我们在实践中要非常小心。它有什么陷阱？哪些特性我们应该拥抱，哪些应该避开？我们什么时候采用“纯函数式风格”，什么时候应该避免？换句话说：哪些是我们发现的，可以高效地使用这门语言的地方？本指南试图把我们的经验提炼成短文，提供一系列最佳实践。我们使用scala主要创建一些大容量分布式系统服务——我们的建议也偏向于此——但这里的大多建议也应该自然的适用其他系统。这不是定律，但不当的使用应该被调整。

数据仓库分层设计

Posted on 2020-02-26 In warehouse

数仓概述

数据仓库的建设是一个过程，而不是一个项目。在这个过程中我们需要形成自己的规范，以方便管理和维护。在数据仓库的建设过程中，不仅会面临着公司业务迅速发展，业务系统迭代变更，需要对业务系统数据进行相应
的整合，形成公司完整的统一数据视图；而且基于数据仓库的应用也是多样化的，比如支撑自己企业的数据可视化平台、即席查询、对策略提供数据支持等。

声明 (Disclaimer)

前言

操作

concat对于字符串进行拼接

concat_ws在拼接的字符串中间添加某种格式

简介

安装问题

Jar包冲突

问题描述

解决方法

现象

参考

部署Jar

安装

按照ambari的操作一直点

先创建ranger的数据库

IDEA配置

X-01 在IDEA中配置code formatter 为scalafmt

X-02 编辑scalafmt.conf

序言

数仓概述

X-01 在IDEA中配置code formatter 为`scalafmt`