一、背景
我们经常在逛购物网站或者刷抖音、听网易云音乐的时候,会有猜你喜欢或者为你推荐这样一个功能,而这依赖的就是用户画像的偏好类标签:比如说明星偏好(喜欢某个明星或者歌手的作品)、类型偏好(比如说:喜欢美妆类、喜欢美食类)
二、偏好标签加工的核心逻辑
(资料图片仅供参考)
偏好类标签一般都是以用户的行为日志进行加工。
比如说:视频类软件(观影日志、评论日志、点赞日志、收藏日志)——内容偏好、类型偏好、明星偏好,电商类(订单日志、浏览日志、收藏日志、加购物日志)——商品偏好、价格偏好、品牌偏好
下面我们以视频类软件为例来详细讲解下偏好类标签的加工逻辑
1.偏好类事实型:主要是根据用户观影数据来计算用户在某个内容或者类型下的观影总时长和最后一次观影时间
上面是一张播放行为表,涵盖了基本的播放行为数据,和一张为tag维表(一个电视剧或者电影会打上非常多的标签,表中只是罗列了3个)
根据上述两张表可以生成如下用户观影tag表,能看到一个电视剧或者电影能很明显的
根据上述表进行计算得到每个用户在每个标签下的观影总时长,该标签下最后一次观影时间
select userid,content_tag,sum(play_time) as total_time,max(last_play_time) as last_play_time from dws_user_play_info_tag group by userid,content_tag
这样每个用户的内容偏好标签即可计算完成
注:当我们想看用户最近半年的观影偏好时,就用用户最近半年的观影数据来进行计算即可,这样就能动态产出用户观影偏好
细心的读者发现打在某个tag上有观影总时长和最后一次观影时间,观影总时长能看出这个用户对于这种tag的内容非常感兴趣,而最后一次观影时间说明最近用户在观看这部分内容。
相当于总时长代表的是一个长期兴趣,而最后一次观影代表的是用户的一个短期兴趣。比如说:用户男性经常观看古装或者美女,但是最近有一个毕竟火的热点视频,该用户也在观看,但这种只能代表用户最近一段时间的兴趣偏好,当过了这段时间就应该选用长期兴趣标签了。
2.偏好类权重型:主要是根据用户观影数据来计算用户在某个内容或者类型下的观影权重,比如说权重越高说明用户对于某个内容更感兴
用户观影权重表
INSERT OVERWRITE TABLE dws_user_play_weight_info PARTITION(dt="${current_date}")select userid, id, sum(feature_value) as feature_valuefrom (selectuserid, --用户idid, --电视剧或者电影idexp(-1 * cast(datediff("${current_date}", dt) / 7 as int) * 7 / (28 * 3 / 2.0))* 1.0 / ( 1.0 + exp(-0.01 * ( playtime - 400 ))) as weightfrom dwd_user_play_infowhere dt between "${current_date-28}" and "${current_date}" ---28天一个周期union all-- 4周之前select userid, id,exp(-1 * 28 / (28 * 3 / 2.0))* weight as weight --衰减from dws_user_play_weight_infowhere dt="${current_date-29}")T2group by userid, idhaving sum(weight) > 0.001distribute by userid;
注:权重公式系数非常有讲究,主要看是关注最后一次观影时间还是更加关注播放时长,如果更关注时长则时长权重更大,如果更加关注最后一次观音时间则此处系数应该更大。
归一化:直接按照视频id打上标签然后相加权重值明显会超过1,因此需要归一化处理
select userid, tag, weightfrom (select userid, id, weight, row_number() over(partition by userid order by weight desc) as rnfrom (selectuserid,id,2 / ( 1 + exp(-0.5 * (sum(s1) + sum(s2)) )) - 1 as weightfrom (-- 2. 近期观影selectA.account_id,B.tag,0 as s1,A.weight * B.weight as s2,1 as s3from (select id, tag, weight ---weight都为1,后续可给标签加上权重代表该标签重要性较强from dim_content_tag_info ---内容标签打平之后的表)Binner join (select * from dws_user_play_weight_info ---用户观影权重表where dt="${current_date}") Aon B.id =A.id)T1group by userid, tag)T2)T3where rn <= 50 and weight > 0.01;
三、总结
至此即完成了偏好类标签的处理和加工,应用的话,可以在广告、推荐等多个场景进行应用。比如说:某个用户经常看搞笑视频可以给它推荐搞笑的玩具或者视频等等
标签:
精彩推荐
2022年12月30日,工银1-3年国开债指数(007122)发布公告,增聘汪湛为基金经理,任职日期自2022年12月30...
是的。可能温度过高。烤箱调到发酵档,应该是40度的样子,烤箱门开1cm的口,可以找个小东西做门挡,便于...
非全日制本科生可以申请长沙租房补贴吗?答:不可以。长沙租房补贴申请条件:35周岁(含)以下毕业两年内...
临近年底,美国信心满满地把50位非洲领导人请到华盛顿召开“美非峰会”,以展现美国对非洲“不变的承诺...
佛山各区退烧药免费领取门店查询南海区禅城区顺德区高明区三水区拓展材料:立即指导企业科学进行配药派...
岁末年初交替之际,欧系货币目前呈现出整体弱势但阶段性偏强走势,主要是美元贬值侧重导致欧系货币将偏...
22H2面板行业整体处于底部复苏阶段,静待行业需求回暖及中国大陆厂商产能市占率进一步提升。中长期而言...
非常甜蜜的句子精选45句1 爱是牵挂,爱是奉献,是思念的痛,是回忆的甜,是难舍难分,是晨昏心颤的期盼...
乐居财经兰兰12月28日,索克服务(832816 NQ)发布关于公司拟申请银行授信的公告。据公告,索克服务拟向...
河化股份12月28日公告,公司股东王进文、王翠莲收到深交所监管函。二人是公司原合计持股5%以上股东且为...
犯抢夺罪符合取保条件的可以取保。我国《刑事诉讼法》规定,人民法院、人民检察院和公安机关对有下列情...
国家法定产假休息98天,符合地方条例规定的可延长产假三个月。
大数据文摘出品作者:Caleb12月19日,卡塔尔世界杯落幕,总决赛可以说是让观众一直紧绷神经。梅西带领的...
新竹一名5宝爸婚后偷吃小三,2人不仅甜蜜自拍、互传暧昧讯息、还相约看夜景,人夫更在睡前要求要看小...
国联股份(603613)12月27日在投资者关系平台上答复了投资者关心的问题。投资者:尊敬的领导,上午好!看...
北京时间12月26日,CBA常规赛继续进行,青岛男篮凭借着第三节的攻击波轻松带走比赛,最终以121-78大胜宁...
2022年12月27日公告发布
12月26日盘中消息,10点9分科士达(002518)触及涨停板。目前价格51 38,上涨10 0%。其所属行业其他电...
禾木村位于有“中国雪都”之称的新疆阿勒泰,冬季雪量大、雪期长。禾木吉克普林国际滑雪度假区共有103条...
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天...
资讯News
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
06-01
聚焦Policy
当好农民工的“护薪人” 近日,罗某等7名农民工在收到被拖欠的工资后,纷纷打电话向江西省南昌市...
“通讯录里所有人都知道我欠钱了” □ 本报记者 韩丹东 □ 本报见习记者 张守坤 ...
大连宝马车撞人案肇事司机被判死刑 本报讯 记者韩宇 10月29日,辽宁省大连市中级人民法院一审...
医院财务迷上网络赌博输光5000万元公款 □ 本报记者 马维博 □ 本报通讯员 汪宇堂 曹...
辊环车削 雕琢毫厘(工匠绝活) 【绝活看点】 23年来,雷虎始终扎根一线,改进钢材轧制工艺...
交警严查超标电动自行车挪用“白牌” 截至昨晚6时,处罚电动自行车违法行为共计6585笔;下一步将...
明起寒潮来袭 北方气温普降10℃以上 中央气象台预计,本周日北京平原地区最低气温降至-4℃左右...
多种蔬菜价格降幅达五成 包括菠菜、蒿子秆等 预计本月中旬蔬菜恢复供需平衡 本报讯(记者...
北京周日最低气温或达-4℃ 本报讯(记者 赵婷婷)北京青年报记者昨天从中央气象台获悉,新一股...
昌平一家四口确诊新冠肺炎 天通北苑第二社区升级为中风险地区 朝阳两涉疫校区及16所学校停课 ...