课程大纲
第一部分 数据分析方法论和实战
1数据分析与工具概览
了解数据分析流程与必备工具
数据分析流程
Python、Jupyter、库选型
2 数据获取与治理
掌握常见数据源与清洗前准备
CSV/Excel/数据库读取
数据规范化、缺失值与异常值检测
3 数据清洗实战
深入掌握清洗技巧与自动化方法
重复值、格式转换、数据映射
批量化处理与函数式清洗
4 数据可视化基础
掌握静态与交互图表制作
Matplotlib 基本绘图
Seaborn 风格化展示
5 用户画像与描述性分析
学会基于行为数据刻画用户特征
分组统计、透视表、交叉分析
可视化报告撰写
6 RFM 模型与用户细分
理解 RFM 原理并实现客户分层
RFM 指标计算
K-Means/层次聚类实战
7 生命周期价值(LTV)预测
掌握回归分析框架与模型评估
数据建模流程
线性回归/树模型训练与验证
8 渠道归因与马尔可夫链
学会多渠道贡献度评估
用户路径构建
马尔可夫链归因算法实现
9 转化漏斗与 A/B 测试
掌握漏斗分析与实验设计方法
漏斗图与关键指标
假设检验与样本量计算
10 裂变增长与案例汇总
运用增长模型实现裂变方案评估
增长黑客思维
实战案例+XGBoost 用户分类
第二部分 大模型时代的数据分析
生成式大模型(Generative AI, GenAI)的快速发展正在重新定义数据分析的范式。这些模型以其强大的自然语言理解、多模态处理能力以及动态生成能力,帮助用户突破传统数据分析工具的局限,使数据洞察更加直观、高效。
Topic #1 基于生成式大模型(GenAI)的数据分析
GenAI为多样化的数据分析场景提供了灵活且强大的支持,集成了代码执行能力的工具(如OpenAI Code Interpreter)和AI编程助手(如Cursor)进一步降低了数据分析的技术门槛,让数据分析人员更加高效地利用AI进行数据探索和决策。
Code Interpreter:OpenAI推出的代码执行功能,可以动态分析数据、生成图表并解释结果。
Cursor:利用AI编程工具自动生成代码,实现特定领域的高级分析,如财务报表解读和金融法律文档、数据分析。
多模态大模型(如OpenAI DALL·E 3 和 Gemini):支持文本、图像、视频、音频等数据类型的分析和交互。
创新应用案例实践
利用OpenAI Code Interpreter的数据分析功能自动生成数据分析报表和PPT。
自动生成复杂SQL查询并动态调整分析结果。
利用多模态大模型直接解析非结构化PDF数据(图文混排、表格、图像)。
Topic #2 基于领域知识和RAG的高效数据分析
基于领域知识和检索增强生成(Retrieval-Augmented Generation, RAG)的数据分析是一种结合大语言模型和精准检索技术的高效解决方案。在复杂的数据分析任务中,领域知识的深度融合显著提高了模型的理解力和分析能力,而RAG技术通过将实时检索的外部数据动态注入模型的生成过程,解决了传统生成模型“记忆过时”和“知识有限”的问题。
动态检索与生成结合:通过嵌入向量搜索技术,将与用户查询相关的上下文文档注入生成模型。
检索模型:使用如BM25、Dense Passage Retrieval (DPR) 等高效检索方法。
嵌入存储:基于向量数据库(如Milvus、Pinecone、Weaviate)存储领域知识并快速检索。创新应用案例实践
创新应用案例实践
基于大规模非结构化数据的企业文档系统的构建
非结构化数据的快速分析与问答。
Topic #3无代码与低代码的AI数据分析平台
无代码与低代码平台正在重塑AI数据分析的开发方式,通过降低技术门槛,让更多非技术人员能够高效地构建和部署复杂的数据分析解决方案。这些平台集成了预构建的AI工具和模块化的工作流程,通过简单的拖拽或少量代码实现任务自动化
LangChain和AutoGen 和 CrewAI:集成多种工具,支持低代码实现数据处理和AI Agent。
Dify.AI、FastGPT:支持通过拖拽构建复杂分析流程。
创新应用案例实践
企业数据分析流程的快速搭建。
利用AI Agent完成数据分析
用无代码平台生成业务报告或仪表盘。