翼度科技»论坛 编程开发 python 查看内容

Python工具箱系列(三十三)

5

主题

5

帖子

15

积分

新手上路

Rank: 1

积分
15
Timescaledb
在物联网时代,出现了大量以时间为中心海量产生的传感器数据,称为时序数据。这类数据的特点是:

  • 数据记录总有一个时间戳。
  • 数据几乎总是追加,不更新也不删除。
  • 大量使用近期的数据。很少更新或者回填时间间隔的缺失数据。
  • 与时间间隔频率关系不大。但累积的数据量大,可能会有峰值。
  • 对这类数据有多种聚合查询的需求,并且越快越好。例如,截止到目前为止,最大值/最小值/平均值是多少,数据流速是多少等。
为此,IT界兴起了时序数据库。TimeScaleDB是其中的佼佼者,截止到2022年7月,它的排名在第5名,值得使用。由于TimeScaleDB是postgresql的一个插件,因此非常便于安装与使用。同时,它也是一个开源的时间序列数据库,为快速获取和复杂查询进行了优化。此外,它也是多模型设计,在体现与时序数据相关的特性外,它执行的是“完整的SQL”,程序员很容易使用与管理它。
它的安装不复杂。使用以下命令在ubuntu bionic下安装单机版本。
  1. apt install -y gnupg postgresql-common apt-transport-https lsb-release wget
  2. /usr/share/postgresql-common/pgdg/apt.postgresql.org.sh
  3. echo "deb https://packagecloud.io/timescale/timescaledb/ubuntu/ $(lsb_release -c -s) main" > /etc/apt/sources.list.d/timescaledb.list
  4. wget --quiet -O - https://packagecloud.io/timescale/timescaledb/gpgkey | apt-key add -
  5. apt update
  6. apt install -y timescaledb-2-postgresql-14
  7. # 做一个调整
  8. timescaledb-tune --quiet --yes
  9. # 重新启动数据库服务
  10. systemctl restart postgresql
  11. # 以postgres用户启动命令行
  12. su postgres -c psql
  13. # 在psql命令行环境中。输入以下命令,从而关联到timescaledb这个扩展上。
  14. CREATE database sensordb;
  15. \c sensordb
  16. CREATE EXTENSION IF NOT EXISTS timescaledb;
  17. \q
  18. # 再次连接
  19. su postgres -c 'psql -d sensordb'
  20. # 显示扩展列表(extensions)
  21. \dx
复制代码
一、创建时序相关得表
在sensordb下创建测试用的表,这个创建的过程有些特殊。相关命令如下:
 
  1. # 传感器表,传统的表
  2. CREATE TABLE sensors(
  3.   id SERIAL PRIMARY KEY,
  4.   type VARCHAR(50),
  5.   location VARCHAR(50)
  6. );
  7. # 传感器数据库,这个将转换成为超表
  8. CREATE TABLE sensor_data (
  9.   time TIMESTAMP NOT NULL,
  10.   sensor_id INTEGER,
  11.   pm25 DOUBLE PRECISION,
  12.   temperature DOUBLE PRECISION,
  13.   FOREIGN KEY (sensor_id) REFERENCES sensors (id)
  14. );
  15. # CREATE EXTENSION IF NOT EXISTS timescaledb;
  16. # 转换为超表
  17. SELECT create_hypertable('sensor_data', 'time');
  18. # 生成4个传感器
  19. INSERT INTO sensors (type, location) VALUES
  20. ('a','地板'),
  21. ('a', '天花板'),
  22. ('b','地板'),
  23. ('b', '天花板');
  24. # 测试一下。
  25. select * from sensors;
复制代码
 
接下来,使用python连接时序数据库,并且模拟相关的数据插入到表中。
二、使用Python模拟数据
 
  1. import psycopg2
  2. import random
  3. import datetime
  4. # 事先创建后数据库demodb
  5. demodb = psycopg2.connect(database="sensordb", user="postgres",
  6.                           password="88488848", host="172.17.2.151", port="5432")
  7. democur = demodb.cursor()
  8. currenttime = datetime.datetime.now()
  9. # 插入模拟出来的数据。
  10. for _ in range(100000):
  11.     currenttime = currenttime+datetime.timedelta(seconds=1)
  12.     for id in range(1,5,1):
  13.         pm25 = random.uniform(0, 300)
  14.         temp = random.uniform(0, 40)
  15.         insertsql = f'''insert into sensor_data(sensor_id,pm25,temperature,time) values({id},{pm25},{temp},'{currenttime}')'''
  16.         democur.execute(insertsql)
  17.     demodb.commit()
  18. democur.close()
  19. demodb.close()
复制代码
 
这里插入10万秒的数据,相当于100000/86400=1.15(天)的数据。在插入数据的同时,就可以同时在数据库中进行按30分钟的分桶查询,这是时序数据库的一个特殊功能。
  1. # su postgres -c 'psql -d sensordb'
  2. SELECT
  3.   time_bucket('30 minutes', time) AS period,
  4.   AVG(temperature) AS avg_temp,
  5.   last(temperature, time) AS last_temp,
  6.   AVG(pm25) AS avg_pm25
  7. FROM sensor_data
  8. GROUP BY period;
  9. SELECT
  10.   time_bucket('60 minutes', time) AS period,
  11.   AVG(temperature) AS avg_temp,
  12.   last(temperature, time) AS last_temp,
  13.   AVG(pm25) AS avg_pm25
  14. FROM sensor_data
  15. GROUP BY period;
复制代码
此时,按30分钟时间窗口聚会的数据查询效果如下图所示:

可以看出,TimeScaleDB已经将数据按30分钟来聚合分析。当然,改成任意时间也是可以的,例如,可以改成5秒分析一次也可以,生成结果的时间也非常快。
 

来源:https://www.cnblogs.com/shanxihualu/p/17434151.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具