4006-998-758
3000+课程任你选择
数据分析方法论培训
研发学院 数据分析
黄佳

入行20余年。参与过政府部门、银行、电商、能源等多领域大型项目,积累了极为丰富的人工智能和大数据项目实战经验。近年主攻方向为 NLP 预训练大模型应用、FinTech 应用、持续学习。目前正与 PlatoX.AI展开富有前景的技术合作。

曾出版《GPT图解 大模型是怎样构建的》《数据分析咖哥十话》《零基础学机器学习》《SAP 程序设计》等多本畅销书,即将出版的书籍还有《GPT实战Agent是怎样实现的》。同时,在极客时间开设专栏《零基础实战机器学习》《LangChain 实战课》,在深蓝学院开设视频课程《生成式预训练语言模型:理论与实战》。

近期出版的新书《大模型应用开发动手做 AI Agent》上市一周,在京东,当当位居IT图书榜第一名。


查看老师详情
课程内容


课程大纲


第一部分 数据分析方法论和实战

1数据分析与工具概览

了解数据分析流程与必备工具

数据分析流程

Python、Jupyter、库选型

2 数据获取与治理

掌握常见数据源与清洗前准备

CSV/Excel/数据库读取

数据规范化、缺失值与异常值检测

3 数据清洗实战

深入掌握清洗技巧与自动化方法

重复值、格式转换、数据映射

批量化处理与函数式清洗

4 数据可视化基础

掌握静态与交互图表制作

Matplotlib 基本绘图

Seaborn 风格化展示

5 用户画像与描述性分析

学会基于行为数据刻画用户特征

分组统计、透视表、交叉分析

可视化报告撰写

6 RFM 模型与用户细分

理解 RFM 原理并实现客户分层

RFM 指标计算

K-Means/层次聚类实战

7 生命周期价值(LTV)预测

掌握回归分析框架与模型评估

数据建模流程

线性回归/树模型训练与验证

8 渠道归因与马尔可夫链

学会多渠道贡献度评估

用户路径构建

马尔可夫链归因算法实现

9 转化漏斗与 A/B 测试

掌握漏斗分析与实验设计方法

漏斗图与关键指标

假设检验与样本量计算

10 裂变增长与案例汇总

运用增长模型实现裂变方案评估

增长黑客思维

实战案例+XGBoost 用户分类

 

第二部分 大模型时代的数据分析

生成式大模型(Generative AI, GenAI)的快速发展正在重新定义数据分析的范式。这些模型以其强大的自然语言理解、多模态处理能力以及动态生成能力,帮助用户突破传统数据分析工具的局限,使数据洞察更加直观、高效。

 

Topic #1 基于生成式大模型(GenAI)的数据分析

GenAI为多样化的数据分析场景提供了灵活且强大的支持,集成了代码执行能力的工具(如OpenAI Code Interpreter)和AI编程助手(如Cursor)进一步降低了数据分析的技术门槛,让数据分析人员更加高效地利用AI进行数据探索和决策。

   Code Interpreter:OpenAI推出的代码执行功能,可以动态分析数据、生成图表并解释结果。

   Cursor:利用AI编程工具自动生成代码,实现特定领域的高级分析,如财务报表解读和金融法律文档、数据分析。

   多模态大模型(如OpenAI DALL·E 3 和 Gemini):支持文本、图像、视频、音频等数据类型的分析和交互。

 

创新应用案例实践

   利用OpenAI Code Interpreter的数据分析功能自动生成数据分析报表和PPT。

   自动生成复杂SQL查询并动态调整分析结果。

   利用多模态大模型直接解析非结构化PDF数据(图文混排、表格、图像)。

 

Topic #2 基于领域知识和RAG的高效数据分析

基于领域知识和检索增强生成(Retrieval-Augmented Generation, RAG)的数据分析是一种结合大语言模型和精准检索技术的高效解决方案。在复杂的数据分析任务中,领域知识的深度融合显著提高了模型的理解力和分析能力,而RAG技术通过将实时检索的外部数据动态注入模型的生成过程,解决了传统生成模型“记忆过时”和“知识有限”的问题。

   动态检索与生成结合:通过嵌入向量搜索技术,将与用户查询相关的上下文文档注入生成模型。

   检索模型:使用如BM25、Dense Passage Retrieval (DPR) 等高效检索方法。

   嵌入存储:基于向量数据库(如Milvus、Pinecone、Weaviate)存储领域知识并快速检索。创新应用案例实践

 

创新应用案例实践

   基于大规模非结构化数据的企业文档系统的构建

   非结构化数据的快速分析与问答。

 

Topic #3无代码与低代码的AI数据分析平台

无代码与低代码平台正在重塑AI数据分析的开发方式,通过降低技术门槛,让更多非技术人员能够高效地构建和部署复杂的数据分析解决方案。这些平台集成了预构建的AI工具和模块化的工作流程,通过简单的拖拽或少量代码实现任务自动化

   LangChain和AutoGen 和 CrewAI:集成多种工具,支持低代码实现数据处理和AI Agent。

   Dify.AI、FastGPT:支持通过拖拽构建复杂分析流程。

 

创新应用案例实践

   企业数据分析流程的快速搭建。

   利用AI Agent完成数据分析

   用无代码平台生成业务报告或仪表盘。


返回上一级