- 博客(467)
- 资源 (15)
- 论坛 (1)
- 收藏
- 关注
原创 clickhouse 之windows function
Window Functions 在clickhouse的需求和呼声很高,早期的版本需要借助array函数,在21.1版本进行了开窗函数的初步支持。Initial support in version 21.1,Already supported:OVER (PARTITION BY ... ORDER BY ...);aggregate functions over windows;WINDOW clause;upcoming:non-aggregate window functio...
2021-02-08 02:24:01
263
原创 Clickhouse CTE 语句的支持(功能完整)
在clickhouse早期的版本上 不支持CTE语句,在一些版本上CTE语句支持度不完整。至少从clickhouse 21.1版本开始对CTE语句的支持就日趋完善了,已经支持递归查询。node01.example.com :) select version();SELECT version()Query id: b7e99b50-20d0-4695-a75e-5408230a9c1f┌─version()─┐│ 21.1.3.32 │└───────────┘-- 递归查询:
2021-02-08 01:35:24
141
1
原创 windows 安装部署influxdb
下载软件:https://dl.influxdata.com/influxdb/releases/influxdb-1.8.4_windows_amd64.zip2.0版本的暂时么有windows版本解压到相应的文件设置环境变量:C:\dev\influxdb-1.8.4-1C:\dev\influxdb-1.8.4-1>influxd.exe 8888888 .d888 888 8888888b. 888888b..
2021-02-05 11:20:22
92
原创 InfluxDB 概述
什么是时序数据库按照时间顺序,设备状态的变化数据依时间顺序记录的数据库。Time series DB比如CPU的利用率,某一时间的环境温度等,时序数据是以时间作为主要的查询维度,通常会将连续的多个时序数据绘制成线,制作基于时间的多维度报表,用于揭示数据背后的趋势,规律和异常,进行实时在线的预测和预警。时序数据普遍存储在IT,devops,物联网,车联网等系统。时序数据具有以下三个特点:数据是随着时间追加的,无更新数据数据通常按照时间顺序抵达时间是一个主要的坐标轴...
2021-02-05 11:00:41
106
原创 pip 报错: Read timed out
报错信息: pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.原因:默认的超时时间较短,还有就是默认读取的pypi的网址,在国内的网络速度较慢。解决办法: pip install beautifulsoup4 --default-timeout=100 -i http://py
2021-01-15 12:17:39
60
原创 numpy报错
报错信息:RuntimeError: The current Numpy installation ('C:\\soft\\Python\\Python38\\lib\\site-packages\\numpy\\__init__.py') fails to pass a sanity check due to a bug in the windows runtime. See this issue for more information: https://tinyurl.com/y3dm3h86
2020-12-17 12:51:39
219
原创 Jupyter Notebook 在Windows下的安装和使用
Jupyter Notebook支持两种安装方式,支持conda 和pip,而pip 则更加通用和常见。pip的安装:C:\>pip install jupyterlab notebook voila -i http://pypi.douban.com/simple --trusted-host pypi.douban.com由于在国内需要去官方网站下载资源,网速较慢可以使用国内的镜像网站的资源。pip install jupyterlab notebook voila -i htt
2020-12-17 11:25:30
277
原创 Impala 设计指导
物理硬件schema:impala-shell -i localhost --quiet参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_schema_design.html
2020-12-09 16:29:54
34
原创 Cloudera CDP 7 版本以及软件依赖
目录版本概述:Cloudera 7.1.4版本的软件版本:各个软件的依赖关系如下:版本差异:版本概述:在进入到CDH 7版本之后 Cloudera发布了两个发型包,一个用于运行在云上的(CDP public cloud),一个是客户自己安装的(CDP Data Center)。在2020年9月24日 之后CDP Data Center 改名为CDP Private CloudWith the recent launch of CDP Private Cloud f...
2020-11-23 21:17:34
1096
原创 Cloudera CDP 7 中不支持的Hive 3 的功能
Cloudera 7中的Hive不支持的接口和功能:Unsupported InterfacesDruidHcat CLIHive CLI (replaced by Beeline)Hive ViewLLAP (available in CDP Public Cloud only)MapReduce execution engine (replaced by Tez)PigS3 (available in CDP Public Cloud only)Spark executi...
2020-11-23 12:13:16
208
原创 Impala HA
Impala的高可用:1.Haproxy2.nginx参考:http://impala.apache.org/docs/build/html/topics/impala_proxy.htmlhttps://blog.csdn.net/abyslll/article/details/88019310https://blog.csdn.net/lvtula/article/details/89886157
2020-11-23 12:04:59
67
原创 Impala 端口列表
Scope / Role Startup Flag Default Port CommentImpala Daemon --beeswax_port 21000 Port on which Beeswax client requests are served by Impala Daemons.Impala Daemon --hs2_port 21050 Port on which HiveServer2 client requests are served by Impala Daemons.Im.
2020-11-23 11:39:42
88
原创 Impala JOIN语句
支持的JOIN列表:Self-joinsInner joinsOuter joinsEquijoins and Non-EquijoinsSemi-joins:Anti-joins不支持的JOIN:不支持的JOIN:Natural joins原因: Impala不支持自然连接运算符,这是为了避免不一致或庞大的结果集。自然连接去掉了ON和USING子句,而是自动连接左表和右表中具有相同名称的所有列。对于快速发展的数据结构(如Hadoop中通常使用的数据结构),不建
2020-11-23 11:31:30
251
原创 Impala 3.2 版本以来的新特性
impala 和CDH的版本:CDH 6.3.2 impala 3.2CDP 7.1.x Impala 3.4impala 3.4 将适Impala 3版本的最后一个版本,此后社区的重点将是Impala 4 版本Impala 4 新特性:1.删除对过时操作系统(Centos6、Ubuntu14等)的支持、删除对Sentry的支持、删除对lzo的支持2.执行实例支持多线程计算Impala在IO层是多线程的,每个executor(impalad)多线程地从多个磁盘以及网络读取数据..
2020-11-23 10:47:28
566
原创 Cloudera CDH 常见的版本
7.1.4 7.1.3 7.1.2 7.1.1 7.0.3 6.3.2 5.16.2 2020/10/14 2020/8/10 2020/6/4 2019/11/24 2019/11/12 2019/6/18 Component Version Version Version Version Version Version Ve...
2020-11-20 22:39:09
1048
3
原创 Impala 性能调优和设计
优化思路:Impala中,提供了10大类优化思路和方法:1.分区2.连接查询性能考虑3.表和列信息统计4.Impala性能测试:5.基准Impala查询:6. 控制Impala的资源使用情况:7.使用Impala查询Amazon S3的文件系统。8.HDFS缓存9.执行计划和查询概况10. 数据块倾斜表分区:基于不同列值进行查询,避免大量无效信息过滤,和常规数据库分区理念一致。连接查询性能考虑:连接查询的主要类,你可以在SQL级,相对于变化的物理因素如文件格式或硬件配置。有
2020-11-19 19:40:04
251
原创 Impala 和 Hive 之间的SQL 差异
基于impala 3.2版本:概述:impala 遵循SQL-92标准,但是在内置函数上有了不少自己的扩展。由于impala和hive共享相同的metastore数据库,并且它们的表经常互换使用。impala 不支持的Hive的功能:1.函数:ovar_pop, covar_samp, corr, percentile, percentile_approx, histogram_numeric, collect_setXML 函数2.数据类型:DATE 类型和binary类
2020-11-19 19:09:41
412
原创 Impala SQL的迁移
基于 impala 3.2 版本从其他的数据库系统中迁移需要考虑如下几个方面:1.DDL和DML语句的迁移2.数据类型的适配3.SQL语句的适配4.SQL结构的双检5.SQL语句和语法的验证参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_porting.htmlhttp://impala.apache.org/docs/build3x/html/topics/..
2020-11-19 17:47:35
265
原创 Impala 数值函数
1.求绝对值 ,正值,负值:ABS(numeric_type a)POSITIVE(numeric_type a)NEGATIVE(numeric_type a)NEGATIVE 等同于 -abs(a)POSITIVE 等同于 abs()2.求余数,求商:QUOTIENT(BIGINT numerator, BIGINT denominator), QUOTIENT(DOUBLE numerator, DOUBLE denominator)FMOD(DOUBLE a, DOUBL
2020-11-19 17:13:04
422
原创 Impala 聚合函数和分析函数
版本:impala 3.2impala 支持的聚合函数如下:APPX_MEDIANAVGCOUNTSUMGROUP_CONCATMAXMINNDVSTDDEV, STDDEV_SAMP, STDDEV_POPVARIANCE, VARIANCE_SAMP, VARIANCE_POP, VAR_SAMP, VAR_POPimpala支持的分析函数:Analytic functions (also known as window functions)over语句的语法:.
2020-11-19 16:29:47
734
原创 Impala 转换函数和其他函数
基于impala 3.2版本1.转换函数:CAST(expr AS type)2.数据类型判断:TYPEOF(type value)3.UUID函数select uuid() UUID;2e2e4db5-6fe3-436d-92a8-bdecc40f1ddd4.数据库的辅助信息函数:4.1 查询登录的数据库:CURREN_DATABASE()4.2.查询登录的用户:user() ,EFFECTIVE_USER() ,LOGGED_IN_USER()4.3查询版本.
2020-11-19 15:44:21
278
原创 大数据性能测试介绍
大数据性能测试的目的1.大数据组件的性能回归,在版本升级的时候,进行新旧版本的性能比对2.在新版本/新的生产环境 发布之后获取性能基线,建立可度量的参考标准,为其他测试场景或者调优过程提供对比参考3.在众多的发行版本中进行测试比对,为PoC测试提供参考数据4.支持POC测试,得出结论,到时候可以根据业务模型和需求,或者根据客户需求 选择不同的方案。5.在客户方进行性能测试,达到客户要求的性能标准满足客户使用的需求。性能测试的时机:1.上线新版本2.上线新的环境/新的主机3.开
2020-11-19 10:11:59
346
3
原创 Impala 条件函数
支持的条件函数列表:CASECASE2COALESCEDECODEIFIFNULLISFALSEISNOTFALSEISNOTTRUEISNULLISTRUENONNULLVALUENULLIFNULLIFZERONULLVALUENVLNVL2ZEROIFNULL1.条件判断2.NULL处理3.TRUE FALSE 处理4.NULL ZERO处理参考:http://impala.apache.org/docs/build/html/topic.
2020-11-19 00:40:06
247
原创 Impala JSON函数
在impala 6.3 版本中加入JSON解析函数,此前的版本则没有提供JSON解析函数需要自己编译安装。The following characters are supported in the selector JSON path:$ : Denotes the root object. : Denotes the child operator[] : Denotes the subscript operator for array* : Denotes the wildcard for
2020-11-19 00:30:41
601
原创 Impala 字符串函数详解
impala 3.2版本参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_string_functions.htmlhttp://impala.apache.org/docs/build/html/topics/impala_string_functions.html#string_functions__ascii
2020-11-19 00:17:42
1252
原创 Impala 日期时间函数详解
基于impala 3.2 版本时间的基本单元 time_unityear 年month 月week 周day 日hour 小时minute 分钟 秒 second毫秒 Millisecond (us) 0.0001 s 1/10^3 s微妙 Microsecond (μs) 0.000001 s 1/10^6 s纳秒 Nanosecond (ns) 0.000000001 s 1/10^9 s 此外还有一些时间单元季度 qu.
2020-11-18 22:31:13
1093
原创 Clickhouse 生成日历表
clickhouse的 date和datetime的时间范围目前只支持[1970-01-01 00:00:00, 2105-12-31 23:59:59].创建表calender ,一个字段用于存储日期即可。create table calender(date_dt datetime) engine=Log;CREATE TABLE default.calender_details( `date_dt` DateTime COMMENT '日期 2016-01-01 00:00..
2020-11-07 00:52:19
407
2
原创 Clickhouse CTE 支持
从clickhouse 20.3.30版本开始支持标准SQL的部分with语句的写法 即支持CTE(common table expressionn)SELECT version()┌─version()──┐│ 20.10.3.30 │└────────────┘-- 子查询CDP01.example.com :) with a as (select number from system.numbers limit 10) select * from a;WITH a AS
2020-11-07 00:44:03
241
原创 Clickhouse MaterializeMySQL 数据库引擎
在Clickhouse 20.8.2.3 版本中新增一个数据库引擎,将clickhouse模拟为MySQL的从库,可以通过mysql的binlog实时的接收来自mysql的数据并在clickhouse物化,极大提升了数仓的查询性能和数据同步的时效性。同时增加了获取mysql数据的方式,除了mysql协议和mysql函数和mysql表引擎,clickhouse可以作为mysql的从库。ClickHouse can work as MySQL replica - it is implemented by
2020-09-27 17:13:06
1271
1
原创 VMware Workstation 与 Device/Credential Guard 不兼容。在禁用 Device/Credential Guard 后,可以运行 VMware Workstati
vmware 15.5版本之前运行提示的信息:VMware Workstation 与 Device/Credential Guard 不兼容。在禁用 Device/Credential Guard 后,可以运行 VMware Workstation。运行环境:vmware workstation pro 15.0cmd>systeminfoOS 名称: Microsoft Windows 10 专业版OS 版本: 10.0.18362 暂缺
2020-09-27 09:56:57
392
原创 windows快速搭建Flink官方练习环境
运行环境:windows 10git 2.2x 版本docker-desktopjava 8IDEA 注意:需要开启windows系统的hyper-vgit windows 下载:https://git-scm.com/或者https://git-scm.com/download/winhttps://www.docker.com/products/docker-desktopdocker下载:docker desktop 比较大有374M之...
2020-09-14 18:01:26
495
原创 kafka 2.4 源码环境搭建
可以查看需要依赖的环境信息:https://github.com/apache/kafka/blob/2.4/gradle/dependencies.gradle// Add Scala versiondef defaultScala211Version = '2.11.12'def defaultScala212Version = '2.12.10'def defaultScala213Version = '2.13.1' gradle: "5.6.2", gradleVersio
2020-09-13 01:28:08
75
原创 Impala 日期操作相关
获取指定日期的周初和周末:select date_sub(now(),dayofweek(now())-1-1) weekstart,date_sub(now(),dayofweek(now())-1-7) weekend;-- 时间戳取整Impala 2.11 之前的取整当前时间的写法:select trunc(now(), 'YEAR') --取整到年份, 得到当年 1 月 1 日 0 点 0 分select trunc(now(), 'MONTH') --取整到月份, 得到当月 1
2020-09-08 17:54:09
205
原创 Kafka 2.4 集群搭建及常用操作
运行环境:CentOS 7.6Java 8 https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.htmlZookeeper 3.5.8 http://mirrors.ustc.edu.cn/apache/zookeeper/zookeeper-3.5.8/apache-zookeeper-3.5.8-bin.tar.gz kafka 2.4.1 http://mirrors.ustc
2020-09-03 17:47:16
65
原创 Kafka 发布版本和发布历史
Kafka的发展历史:Kafka早期是由LinkedIn公司内部开发的,并于2011年早期开源,2012-10-23 日从apache incubator 毕业。Kafka的名字来自于创始人Jay Kreps喜欢的奥地利小说Franz Kafka。创始人于年离开linkedIn公司创建了confluence 公司Kafka的发行版本:Kafka的版本号:scala 2.11 表示的scala的版本号。前面的版本号是编译 Kafka 源代码的 Scal...
2020-09-03 17:22:33
364
原创 apache Kafka 概述
Apache KafkaApache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-criticalapplications.Kafka 最初是由LinkedIn公司采用Scala语言
2020-09-03 10:19:56
71
原创 Clickhouse的 MySQL ELT和interval 功能等同实现 roundDown
在MySQL和Clickhouse中分别创建表:mysql> create table scores(id int not null auto_increment primary key,user_id bigint,scores decimal(10,2));Clickhouse> create table scores(user_id bigint,scores decimal(10,2)) engine=Memory;insert into scores(user_id,s
2020-09-01 17:59:50
207
1
原创 Clickhouse JSON函数
JSON函数主要有关键字JSON和visitClickhouse> select * from system.functions where name like '%JSON%' union all select * from system.functions where name like '%visit%' FORMAT PrettyCompactMonoBlock;SELECT *FROM system.functionsWHERE name LIKE '%JSON%'UNION
2020-08-31 17:31:18
1067
原创 Clickhouse 数学函数
数学函数列表:示例:参考:https://clickhouse.tech/docs/en/sql-reference/functions/math-functions/https://clickhouse.tech/docs/en/sql-reference/functions/rounding-functions/
2020-08-31 17:25:21
165
原创 Clickhouse 转换函数
Clickhouse的提供基本的数据类型:整型浮点型日期时间对应的转换函数:判断函数的类型:参考:https://clickhouse.tech/docs/en/sql-reference/functions/type-conversion-functions/
2020-08-31 17:16:32
986
kubernetes in the enterprise
2018-10-15
Oracle SQL Revealed
2018-08-07
MongoDB in Action, 2nd Edition
2016-04-06
Tricks every ClickHouse designer should know.pdf
2020-08-05
DTCC2019 PPT合集.txt
2019-05-23
vkingnew的留言板
发表于 2020-01-02 最后回复 2020-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝