登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
【SQL 周周练】爬取短视频发现数据缺失,如何用 SQL 填 ...
【SQL 周周练】爬取短视频发现数据缺失,如何用 SQL 填充
[ 复制链接 ]
返噗掖
2025-6-2 23:27:51
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
大家好,我是“蒋点数分”,多年以来一直从事数据分析工作。从今天开始,与大家持续分享关于数据分析的学习内容。
本文是第 5 篇,也是【SQL 周周练】系列的第 4 篇。该系列是挑选或自创具有一些难度的 SQL 题目,一周至少更新一篇。后续创作的内容,初步规划的方向包括:
后续内容规划
1.利用
Streamlit
实现 Hive 元数据展示、SQL 编辑器、 结合Docker 沙箱实现数据分析 Agent
2.时间序列异常识别、异动归因算法
3.留存率拟合、预测、建模
4.学习 AB 实验、复杂实验设计等
5.自动化机器学习、自动化特征工程
6.因果推断学习
7. ……
欢迎关注
,一起学习。
第 4 期题目
题目来源:自创题目,曾经在工作中遇到过该问题
一、题目介绍
公司市场部找到一些达人在抖音、快手等平台进行短视频营销,需要监测视频的点赞量。公司内有一位专职的爬虫工程师,他的项目也很多。因此很难对该项目爬虫数据提供高质量的维护,会出现一些字段缺失的情况。
我们将问题简化,有一张表记录了爬虫抓取的短视频点赞量数据,其中部分日期的点赞量是缺失的。请你利用 SQL 将这些数据补齐,即“插值”。
列名数据类型注释video_idstring短视频iddtstring日期likes_numint点赞量(用来对比结果,不要直接用)show_likes_numint展示点赞量(用来补全数据)用 SQL 实现几种比较简单的插值方法,复杂的方法可以利用 Hive 中的 transform 函数调用 Python 脚本来实现(后面哪期会根据这个点水一篇文章)
本文实现的简单补全方法有:
1.前向填充,使用前面最近的一个非空值来填充
2.后向填充,使用后面最近的一个非空值来填充
3.相邻的平均数填充,使用前后最近的非空值,取两个数的平均数填充
4.相邻的分位数填充,使用前后最近的非空值,缺失值根据分位数来填充
额外说明:这四种方法都依赖于缺失值邻近的前后非空值,需要存在这样的非空值。
如果该非空值不存在,比如短视频第一天发布就没有爬取到点赞量 —— 这样没有办法,找到它之前的非空点赞量。我本文的处理方法是将它“视为”前一天发布,或者说增加一个前一条点赞量为零的数据(还有其他的处理方法,我这里只提出一种)。
这条增加的数据不需要显式存在,只不过是在数据处理时兜底的逻辑等效于它。而如果短视频缺少的是最后几天的数据,比如某一天开始后面一直缺失数据,这样就将最后一个有数据的点赞量“顺延”下去。这 4 种填充方法,都用这样的逻辑兜底。
二、题目思路
想要答题的同学,可以先思考答案
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
SQL
周周练
爬取
视频
发现
相关帖子
别让你的SQL跑了一整晚,最后只产出一堆"数字垃圾"
MS SQL Server 数据加密与解密实例
【首选】PDF转视频教程:20秒一键将PDF转换为视频软件
3 天从 0 入门 SQL:交易所 Market Surveillance 实战速成
一条SQL在MySQL的执行过程?、MyISAM和InnoDB的区别?
Oracle AI:使用SQL来实现融合检索和整个RAG流程
2025年11月份博文汇总与视频
工作中实战sql命令集合
小说/漫画/听书/视频四合一源码
SQL中的CTE用法初步(Common Table Expression公共表表达式)
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
别让你的SQL跑了一整晚,最后只产出一堆"数字垃圾"
0
966
闻成
2025-11-24
安全
MS SQL Server 数据加密与解密实例
0
821
琶轮
2025-11-25
安全
【首选】PDF转视频教程:20秒一键将PDF转换为视频软件
0
404
靛尊
2025-11-28
业界
3 天从 0 入门 SQL:交易所 Market Surveillance 实战速成
0
964
巩芷琪
2025-11-29
业界
一条SQL在MySQL的执行过程?、MyISAM和InnoDB的区别?
0
959
倡遍竽
2025-11-29
业界
Oracle AI:使用SQL来实现融合检索和整个RAG流程
0
933
缢闸
2025-12-01
科技
2025年11月份博文汇总与视频
1
400
盒礁泅
2025-12-01
安全
工作中实战sql命令集合
0
573
呵桢
2025-12-03
程序
小说/漫画/听书/视频四合一源码
0
27
新程序
2025-12-04
业界
SQL中的CTE用法初步(Common Table Expression公共表表达式)
0
623
尸酒岐
2025-12-05
回复
(7)
史华乐
2025-10-14 01:49:21
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
鼓励转贴优秀软件安全工具和文档!
材部
2025-10-14 17:16:25
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
懂技术并乐意极积无私分享的人越来越少。珍惜
羊舌正清
2025-11-2 17:02:15
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
不错,里面软件多更新就更好了
史穹逊
2025-11-15 07:12:48
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
鼓励转贴优秀软件安全工具和文档!
喳谍
2025-11-20 00:57:46
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
鼓励转贴优秀软件安全工具和文档!
泡市
2025-11-23 16:24:03
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
谢谢分享,辛苦了
左丘纨
昨天 23:12
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
新版吗?好像是停更了吧。
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
科技
签约作者
程序园优秀签约作者
发帖
返噗掖
昨天 23:12
关注
0
粉丝关注
13
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845356
3934307807
991122
4
xiangqian
638210
5
宋子
9984
6
闰咄阅
9991
7
刎唇
9993
8
俞瑛瑶
9998
9
蓬森莉
9951
10
匝抽
9986
查看更多