体系课-大数据工程师2022|完结无秘( 二 )
文章图片

文章图片
2、数据治理层及治理策略

文章图片
政府信息化发展大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理式系统建设三个大的阶段 , 可以说是一个先建设后治理的过程 。 数据治理内容包括:组织体系、标准体系、流程体系、评价体系、技术体系、元数据管理、数据标准管理、主数据管理、数据质量管理、数据安全管理等 。

文章图片

文章图片
3、数据预处理(ETL)及处理策略

文章图片
数据预处理包含对资源库的结构化、非结构化、半结构化数据进行处理等 , 数据处理方式包括数据的抽取、清洗转换、加载到数据主题库、专题库的自动或半自动过程 , 目的是将资源库中分散、零乱、标准不统一的数据整合到一起 , 为数据分析平台的决策提供分析依据和数据资产 。 包括多表拼接、新增列及格式化数据等处理功能 。

文章图片
4、面向业务的数据仓库(结合纪委监委或检察院业务特点)

文章图片
能够敏捷式管理数据组织中的原始库、资源库、主题库、专题库、知识库和个人库等 。 原始库:数据在原始库中形成数据缓存层 , 以支持数据加工 。 同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理 。 原始库对外提供了查询、比对、推送、订阅等服务 。 同时为后续的数据血缘追踪提供溯源支持 。 资源库:是对原始库数据进行清洗标准化及轻度整合 , 形成全量数据的持久化层 。 资源库对外支持数据的分类检索、轨迹碰撞 , 及明细数据的统计、分析、比对、推送、订阅等服务 。 主题库:通过归并及建模 , 形成全息视图 , 并且通过实体间的关系构成了关系类知识图谱和事理图谱 。 对外在各中心共享了实体间的关系 , 并完成实体标签、数据分析、统计、比对等服务 。 专题库:为特定的分析模型业务活动提供基础数据、临时数据、分析统计类数据、挖掘类数据等 , 并记录业务过程中总结及发现的相关知识 。 知识库:资源库、主题库和业务库均有可能用到知识库 , 通过对资源库、主题库和业务库进行挖掘 , 可反哺和进一步完善知识库 。

文章图片
5、快速的数据建模(GI)及模型输出

文章图片
达爱GI是旨在帮助政府的数据分析人员充分了解和利用他们的数据 , 利用内置的可视化数据预处理工具 , 不需要代码就可以对多个数据表进行交并差联等多表进行处理 , 内置对单表数字、字符、时间、布尔等类型的常规算法 , 用户只需通过简单的拖拉拽等操作方式 , 便能对多种数据进行常用的数据碰撞、互斥、求和、排序、频率频数、中位数、标准差、方差、平均值、时间序数(以时间为单位的各种上述运算)制作出丰富多样的数据可视化信息 , 数据报表输出 , 实现自由地对数据进行分析和探索 。

- 买七彩虹RTX30显卡、整机送大礼了!CF限定礼包快抢来自买七彩虹的消息|买七彩虹rtx30显卡、整机送大礼了!cf限定礼包快抢
- 2022年12月6-7日|领军·杰出|锦江之星品牌白玉兰品牌再度斩获行业大奖
- 短了5厘米照样强大迷你SSD硬盘雄起速度冲向5GB/sM.|短了5厘米照样强大迷你ssd硬盘雄起速度冲向5gb/s
- 小米|仅巴掌大小的桌面神器!小米迷你主机图赏
- 本文转自:央广网央广网兰州12月13日消息(记者邸文炯)记者从兰州大学获悉|第四届中国研究生人工智能创新大赛圆满落幕
- “通信行程卡”12月13日下线!中国信通院、三大运营商同步删除用户数据
- CPU处理器|正面刚x86 第三大CPU架构RISC-V冲击高性能:5nm 192核
- 我们成年了! 每日经济新闻创刊18周年,线上发布五大创新项目
- 华为|华为遗憾出局?全球芯片市场大洗牌,麒麟芯片快要“归零”
- 大学生|大学生故意买金箔酒:起诉10倍赔偿
