自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(467)
  • 资源 (15)
  • 论坛 (1)
  • 收藏
  • 关注

原创 clickhouse 之windows function

Window Functions 在clickhouse的需求和呼声很高,早期的版本需要借助array函数,在21.1版本进行了开窗函数的初步支持。Initial support in version 21.1,Already supported:OVER (PARTITION BY ... ORDER BY ...);aggregate functions over windows;WINDOW clause;upcoming:non-aggregate window functio...

2021-02-08 02:24:01 263

原创 Clickhouse CTE 语句的支持(功能完整)

在clickhouse早期的版本上 不支持CTE语句,在一些版本上CTE语句支持度不完整。至少从clickhouse 21.1版本开始对CTE语句的支持就日趋完善了,已经支持递归查询。node01.example.com :) select version();SELECT version()Query id: b7e99b50-20d0-4695-a75e-5408230a9c1f┌─version()─┐│ 21.1.3.32 │└───────────┘-- 递归查询:

2021-02-08 01:35:24 141 1

原创 windows 安装部署influxdb

下载软件:https://dl.influxdata.com/influxdb/releases/influxdb-1.8.4_windows_amd64.zip2.0版本的暂时么有windows版本解压到相应的文件设置环境变量:C:\dev\influxdb-1.8.4-1C:\dev\influxdb-1.8.4-1>influxd.exe 8888888 .d888 888 8888888b. 888888b..

2021-02-05 11:20:22 92

原创 InfluxDB 概述

什么是时序数据库按照时间顺序,设备状态的变化数据依时间顺序记录的数据库。Time series DB比如CPU的利用率,某一时间的环境温度等,时序数据是以时间作为主要的查询维度,通常会将连续的多个时序数据绘制成线,制作基于时间的多维度报表,用于揭示数据背后的趋势,规律和异常,进行实时在线的预测和预警。时序数据普遍存储在IT,devops,物联网,车联网等系统。时序数据具有以下三个特点:数据是随着时间追加的,无更新数据数据通常按照时间顺序抵达时间是一个主要的坐标轴...

2021-02-05 11:00:41 106

原创 pip 报错: Read timed out

报错信息: pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.原因:默认的超时时间较短,还有就是默认读取的pypi的网址,在国内的网络速度较慢。解决办法: pip install beautifulsoup4 --default-timeout=100 -i http://py

2021-01-15 12:17:39 60

原创 numpy报错

报错信息:RuntimeError: The current Numpy installation ('C:\\soft\\Python\\Python38\\lib\\site-packages\\numpy\\__init__.py') fails to pass a sanity check due to a bug in the windows runtime. See this issue for more information: https://tinyurl.com/y3dm3h86

2020-12-17 12:51:39 219

原创 Jupyter Notebook 在Windows下的安装和使用

Jupyter Notebook支持两种安装方式,支持conda 和pip,而pip 则更加通用和常见。pip的安装:C:\>pip install jupyterlab notebook voila -i http://pypi.douban.com/simple --trusted-host pypi.douban.com由于在国内需要去官方网站下载资源,网速较慢可以使用国内的镜像网站的资源。pip install jupyterlab notebook voila -i htt

2020-12-17 11:25:30 277

原创 Impala 设计指导

物理硬件schema:impala-shell -i localhost --quiet参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_schema_design.html

2020-12-09 16:29:54 34

原创 Cloudera CDP 7 版本以及软件依赖

目录版本概述:Cloudera 7.1.4版本的软件版本:各个软件的依赖关系如下:版本差异:版本概述:在进入到CDH 7版本之后 Cloudera发布了两个发型包,一个用于运行在云上的(CDP public cloud),一个是客户自己安装的(CDP Data Center)。在2020年9月24日 之后CDP Data Center 改名为CDP Private CloudWith the recent launch of CDP Private Cloud f...

2020-11-23 21:17:34 1096

原创 Cloudera CDP 7 中不支持的Hive 3 的功能

Cloudera 7中的Hive不支持的接口和功能:Unsupported InterfacesDruidHcat CLIHive CLI (replaced by Beeline)Hive ViewLLAP (available in CDP Public Cloud only)MapReduce execution engine (replaced by Tez)PigS3 (available in CDP Public Cloud only)Spark executi...

2020-11-23 12:13:16 208

原创 Impala HA

Impala的高可用:1.Haproxy2.nginx参考:http://impala.apache.org/docs/build/html/topics/impala_proxy.htmlhttps://blog.csdn.net/abyslll/article/details/88019310https://blog.csdn.net/lvtula/article/details/89886157

2020-11-23 12:04:59 67

原创 Impala 端口列表

Scope / Role Startup Flag Default Port CommentImpala Daemon --beeswax_port 21000 Port on which Beeswax client requests are served by Impala Daemons.Impala Daemon --hs2_port 21050 Port on which HiveServer2 client requests are served by Impala Daemons.Im.

2020-11-23 11:39:42 88

原创 Impala JOIN语句

支持的JOIN列表:Self-joinsInner joinsOuter joinsEquijoins and Non-EquijoinsSemi-joins:Anti-joins不支持的JOIN:不支持的JOIN:Natural joins原因: Impala不支持自然连接运算符,这是为了避免不一致或庞大的结果集。自然连接去掉了ON和USING子句,而是自动连接左表和右表中具有相同名称的所有列。对于快速发展的数据结构(如Hadoop中通常使用的数据结构),不建

2020-11-23 11:31:30 251

原创 Impala 3.2 版本以来的新特性

impala 和CDH的版本:CDH 6.3.2 impala 3.2CDP 7.1.x Impala 3.4impala 3.4 将适Impala 3版本的最后一个版本,此后社区的重点将是Impala 4 版本Impala 4 新特性:1.删除对过时操作系统(Centos6、Ubuntu14等)的支持、删除对Sentry的支持、删除对lzo的支持2.执行实例支持多线程计算Impala在IO层是多线程的,每个executor(impalad)多线程地从多个磁盘以及网络读取数据..

2020-11-23 10:47:28 566

原创 Cloudera CDH 常见的版本

    7.1.4 7.1.3 7.1.2 7.1.1 7.0.3 6.3.2 5.16.2   2020/10/14 2020/8/10 2020/6/4 2019/11/24 2019/11/12 2019/6/18   Component Version Version Version Version Version Version Ve...

2020-11-20 22:39:09 1048 3

原创 Impala 性能调优和设计

优化思路:Impala中,提供了10大类优化思路和方法:1.分区2.连接查询性能考虑3.表和列信息统计4.Impala性能测试:5.基准Impala查询:6. 控制Impala的资源使用情况:7.使用Impala查询Amazon S3的文件系统。8.HDFS缓存9.执行计划和查询概况10. 数据块倾斜表分区:基于不同列值进行查询,避免大量无效信息过滤,和常规数据库分区理念一致。连接查询性能考虑:连接查询的主要类,你可以在SQL级,相对于变化的物理因素如文件格式或硬件配置。有

2020-11-19 19:40:04 251

原创 Impala 和 Hive 之间的SQL 差异

基于impala 3.2版本:概述:impala 遵循SQL-92标准,但是在内置函数上有了不少自己的扩展。由于impala和hive共享相同的metastore数据库,并且它们的表经常互换使用。impala 不支持的Hive的功能:1.函数:ovar_pop, covar_samp, corr, percentile, percentile_approx, histogram_numeric, collect_setXML 函数2.数据类型:DATE 类型和binary类

2020-11-19 19:09:41 412

原创 Impala SQL的迁移

基于 impala 3.2 版本从其他的数据库系统中迁移需要考虑如下几个方面:1.DDL和DML语句的迁移2.数据类型的适配3.SQL语句的适配4.SQL结构的双检5.SQL语句和语法的验证参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_porting.htmlhttp://impala.apache.org/docs/build3x/html/topics/..

2020-11-19 17:47:35 265

原创 Impala 数值函数

1.求绝对值 ,正值,负值:ABS(numeric_type a)POSITIVE(numeric_type a)NEGATIVE(numeric_type a)NEGATIVE 等同于 -abs(a)POSITIVE 等同于 abs()2.求余数,求商:QUOTIENT(BIGINT numerator, BIGINT denominator), QUOTIENT(DOUBLE numerator, DOUBLE denominator)FMOD(DOUBLE a, DOUBL

2020-11-19 17:13:04 422

原创 Impala 聚合函数和分析函数

版本:impala 3.2impala 支持的聚合函数如下:APPX_MEDIANAVGCOUNTSUMGROUP_CONCATMAXMINNDVSTDDEV, STDDEV_SAMP, STDDEV_POPVARIANCE, VARIANCE_SAMP, VARIANCE_POP, VAR_SAMP, VAR_POPimpala支持的分析函数:Analytic functions (also known as window functions)over语句的语法:.

2020-11-19 16:29:47 734

原创 Impala 转换函数和其他函数

基于impala 3.2版本1.转换函数:CAST(expr AS type)2.数据类型判断:TYPEOF(type value)3.UUID函数select uuid() UUID;2e2e4db5-6fe3-436d-92a8-bdecc40f1ddd4.数据库的辅助信息函数:4.1 查询登录的数据库:CURREN_DATABASE()4.2.查询登录的用户:user() ,EFFECTIVE_USER() ,LOGGED_IN_USER()4.3查询版本.

2020-11-19 15:44:21 278

原创 大数据性能测试介绍

大数据性能测试的目的1.大数据组件的性能回归,在版本升级的时候,进行新旧版本的性能比对2.在新版本/新的生产环境 发布之后获取性能基线,建立可度量的参考标准,为其他测试场景或者调优过程提供对比参考3.在众多的发行版本中进行测试比对,为PoC测试提供参考数据4.支持POC测试,得出结论,到时候可以根据业务模型和需求,或者根据客户需求 选择不同的方案。5.在客户方进行性能测试,达到客户要求的性能标准满足客户使用的需求。性能测试的时机:1.上线新版本2.上线新的环境/新的主机3.开

2020-11-19 10:11:59 346 3

原创 Impala 条件函数

支持的条件函数列表:CASECASE2COALESCEDECODEIFIFNULLISFALSEISNOTFALSEISNOTTRUEISNULLISTRUENONNULLVALUENULLIFNULLIFZERONULLVALUENVLNVL2ZEROIFNULL1.条件判断2.NULL处理3.TRUE FALSE 处理4.NULL ZERO处理参考:http://impala.apache.org/docs/build/html/topic.

2020-11-19 00:40:06 247

原创 Impala JSON函数

在impala 6.3 版本中加入JSON解析函数,此前的版本则没有提供JSON解析函数需要自己编译安装。The following characters are supported in the selector JSON path:$ : Denotes the root object. : Denotes the child operator[] : Denotes the subscript operator for array* : Denotes the wildcard for

2020-11-19 00:30:41 601

原创 Impala 字符串函数详解

impala 3.2版本参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_string_functions.htmlhttp://impala.apache.org/docs/build/html/topics/impala_string_functions.html#string_functions__ascii

2020-11-19 00:17:42 1252

原创 Impala 日期时间函数详解

基于impala 3.2 版本时间的基本单元 time_unityear 年month 月week 周day 日hour 小时minute 分钟 秒 second毫秒 Millisecond (us) 0.0001 s 1/10^3 s微妙 Microsecond (μs) 0.000001 s 1/10^6 s纳秒 Nanosecond (ns) 0.000000001 s 1/10^9 s 此外还有一些时间单元季度 qu.

2020-11-18 22:31:13 1093

原创 Clickhouse 生成日历表

clickhouse的 date和datetime的时间范围目前只支持[1970-01-01 00:00:00, 2105-12-31 23:59:59].创建表calender ,一个字段用于存储日期即可。create table calender(date_dt datetime) engine=Log;CREATE TABLE default.calender_details( `date_dt` DateTime COMMENT '日期 2016-01-01 00:00..

2020-11-07 00:52:19 407 2

原创 Clickhouse CTE 支持

从clickhouse 20.3.30版本开始支持标准SQL的部分with语句的写法 即支持CTE(common table expressionn)SELECT version()┌─version()──┐│ 20.10.3.30 │└────────────┘-- 子查询CDP01.example.com :) with a as (select number from system.numbers limit 10) select * from a;WITH a AS

2020-11-07 00:44:03 241

原创 Clickhouse MaterializeMySQL 数据库引擎

在Clickhouse 20.8.2.3 版本中新增一个数据库引擎,将clickhouse模拟为MySQL的从库,可以通过mysql的binlog实时的接收来自mysql的数据并在clickhouse物化,极大提升了数仓的查询性能和数据同步的时效性。同时增加了获取mysql数据的方式,除了mysql协议和mysql函数和mysql表引擎,clickhouse可以作为mysql的从库。ClickHouse can work as MySQL replica - it is implemented by

2020-09-27 17:13:06 1271 1

原创 VMware Workstation 与 Device/Credential Guard 不兼容。在禁用 Device/Credential Guard 后,可以运行 VMware Workstati

vmware 15.5版本之前运行提示的信息:VMware Workstation 与 Device/Credential Guard 不兼容。在禁用 Device/Credential Guard 后,可以运行 VMware Workstation。运行环境:vmware workstation pro 15.0cmd>systeminfoOS 名称: Microsoft Windows 10 专业版OS 版本: 10.0.18362 暂缺

2020-09-27 09:56:57 392

原创 windows快速搭建Flink官方练习环境

运行环境:windows 10git 2.2x 版本docker-desktopjava 8IDEA 注意:需要开启windows系统的hyper-vgit windows 下载:https://git-scm.com/或者https://git-scm.com/download/winhttps://www.docker.com/products/docker-desktopdocker下载:docker desktop 比较大有374M之...

2020-09-14 18:01:26 495

原创 kafka 2.4 源码环境搭建

可以查看需要依赖的环境信息:https://github.com/apache/kafka/blob/2.4/gradle/dependencies.gradle// Add Scala versiondef defaultScala211Version = '2.11.12'def defaultScala212Version = '2.12.10'def defaultScala213Version = '2.13.1' gradle: "5.6.2", gradleVersio

2020-09-13 01:28:08 75

原创 Impala 日期操作相关

获取指定日期的周初和周末:select date_sub(now(),dayofweek(now())-1-1) weekstart,date_sub(now(),dayofweek(now())-1-7) weekend;-- 时间戳取整Impala 2.11 之前的取整当前时间的写法:select trunc(now(), 'YEAR') --取整到年份, 得到当年 1 月 1 日 0 点 0 分select trunc(now(), 'MONTH') --取整到月份, 得到当月 1

2020-09-08 17:54:09 205

原创 Kafka 2.4 集群搭建及常用操作

运行环境:CentOS 7.6Java 8 https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.htmlZookeeper 3.5.8 http://mirrors.ustc.edu.cn/apache/zookeeper/zookeeper-3.5.8/apache-zookeeper-3.5.8-bin.tar.gz kafka 2.4.1 http://mirrors.ustc

2020-09-03 17:47:16 65

原创 Kafka 发布版本和发布历史

Kafka的发展历史:Kafka早期是由LinkedIn公司内部开发的,并于2011年早期开源,2012-10-23 日从apache incubator 毕业。Kafka的名字来自于创始人Jay Kreps喜欢的奥地利小说Franz Kafka。创始人于年离开linkedIn公司创建了confluence 公司Kafka的发行版本:Kafka的版本号:scala 2.11 表示的scala的版本号。前面的版本号是编译 Kafka 源代码的 Scal...

2020-09-03 17:22:33 364

原创 apache Kafka 概述

Apache KafkaApache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-criticalapplications.Kafka 最初是由LinkedIn公司采用Scala语言

2020-09-03 10:19:56 71

原创 Clickhouse的 MySQL ELT和interval 功能等同实现 roundDown

在MySQL和Clickhouse中分别创建表:mysql> create table scores(id int not null auto_increment primary key,user_id bigint,scores decimal(10,2));Clickhouse> create table scores(user_id bigint,scores decimal(10,2)) engine=Memory;insert into scores(user_id,s

2020-09-01 17:59:50 207 1

原创 Clickhouse JSON函数

JSON函数主要有关键字JSON和visitClickhouse> select * from system.functions where name like '%JSON%' union all select * from system.functions where name like '%visit%' FORMAT PrettyCompactMonoBlock;SELECT *FROM system.functionsWHERE name LIKE '%JSON%'UNION

2020-08-31 17:31:18 1067

原创 Clickhouse 数学函数

数学函数列表:示例:参考:https://clickhouse.tech/docs/en/sql-reference/functions/math-functions/https://clickhouse.tech/docs/en/sql-reference/functions/rounding-functions/

2020-08-31 17:25:21 165

原创 Clickhouse 转换函数

Clickhouse的提供基本的数据类型:整型浮点型日期时间对应的转换函数:判断函数的类型:参考:https://clickhouse.tech/docs/en/sql-reference/functions/type-conversion-functions/

2020-08-31 17:16:32 986

kubernetes in the enterprise

kubernetes in the enterprise 1. An Introduction to Containers and Kubernetes 2. Fundamental Kubernetes Topics 3. Advanced Kubernetes Topics 4. Introducing Our Production Application 5. Continuous Delivery 6. Enterprise Application Operations 7. Cluster Operations and Hybrid Cloud 8. Contributor Experience 9. The Future of Kubernetes

2018-10-15

Oracle SQL Revealed

Apress Oracle SQL Revealed,Executing Business Logic in the Database Engine。

2018-08-07

MongoDB in Action, 2nd Edition

MongoDB in Action, 2nd Edition MongoDB 实战 第二版 英文版 包含最新的MongoDB3.0

2016-04-06

DTCC 2018 PPT 合集

2018 数据库中国技术大会 PPT,讨论的话题大数据和数据库。涉及的Hadoop、Flink、MySQL、oracle等共22个专场主题

2018-05-16

Tricks every ClickHouse designer should know.pdf

Tricks every ClickHouse designer should know,压缩,自动删除,物化视图,备份,维度变化,多表join等

2020-08-05

DTCC2019 PPT合集.txt

DTCC 2019年PPT合集,包含所有公开的PPT,含新近公开的第九专场。由于2019的文件较大,全部文件压缩之后也近600M,而上传文件有限制,放置一个超链接,请谅解!

2019-05-23

Pro MySQL NDB Cluster

详细描述MySQL NDB CLUSTER的安装部署应用!国际上唯一的专注书籍!

2017-11-08

CCNP ROUTE 642-902 Quick Reference.pdf

CCNP_ROUTE_642-902_Quick_Reference

2010-05-19

DB2数据库实践基础教程PDF

DB2数据库实践基础教程 PDF 学习辅导资料

2011-09-22

RHCE253 红帽认证教材

RHCE253 红帽认证教材 系统服务配置部分

2010-04-06

RHCE033 红帽认证教材

RHCE033 红帽认证教材 红帽认证基础部分

2010-04-06

RHCE 133 红帽认证教材

RHCE 133 红帽认证教材 系统管理部分

2010-04-06

Hadoop权威指南(第2版)

Hadoop权威指南(第2版) hadoop

2011-06-20

CCNP_TSHOOT_642-832_Quick_Reference.pdf

CCNP_TSHOOT_642-832_Quick_Reference.pdf

2010-05-19

Professional VMware Server.pdf

Professional VMware Server.pdf 英文版

2011-09-06

vkingnew的留言板

发表于 2020-01-02 最后回复 2020-04-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除