精选汽车资讯网

您现在的位置是: 首页 > 新能源

文章内容

abtest框架_aest机制

tamoadmin 2024-09-06
1.干货分享 | AI研发工程师成长指南2.android mvvm 角色分别有哪些担任3.大数据挖掘工程师应具备哪些技能?4.有赞搜索引擎实践(算法篇)5.《

1.干货分享 | AI研发工程师成长指南

2.android mvvm 角色分别有哪些担任

3.大数据挖掘工程师应具备哪些技能?

4.有赞搜索引擎实践(算法篇)

5.《三节课策略产品经理》课程笔记

abtest框架_aest机制

动态创意优化(DCO)竞品分析

动态创意优化(Dynamic Creative Optimization,简称DCO),即将广告创意素材的产品信息、文案、LOGO、背景、活动等元素任意调整、组合之后,在 同样的广告位 上进行投放时, 根据触达到的用户的特定属性及用户行为而动态展示出不同的内容和效果,是一种依托大数据的广告精准投放动态优化技术,这种技术能够使广告创意更具针对性和精确性,可以显著增强广告的个性化展现效果。

?

好处:

1.提高效率

投放广告时要依据广告位尺寸、素材格式等的不同制作数量繁多的创意素材。投放需求较大的广告主,尤其是产品类别较多、且需要经常举办促销活动的电商广告主需要话费大量人力物力制作。DCO可以根据初始的创意素材自动组合出不同版本、尺寸的效果图,提高工作效率。

2.提升用户体验,提高转化率

DSP能做到:在对的时间对的场景下将对的广告呈现给对的人。而DCO 技术在此基础上还会针对用户个体的差异化特征、喜好等推送不同的创意组合。如售卖乐器的广告商根据用户喜爱的音乐类型推送不同的乐器;某医院在百度搜索结果中的广告文案会根据用户搜索词改变:电商类广告中的商品内容根据用户以往的购物数据改变。

3.动态优化

根据不同创意画面在特定人群或特定环境下的投放效果,DCO系统实时调整素材组合,自动优化创意画面投放配比,提升曝光、互动效果,真正做到按照消费者偏好来筛选出最受欢迎的创意,汰劣留良。

竞品1-阿里妈妈智钻

创意排行榜、创意大讲堂、创意试验室,三大板块,帮助客户解决广告内容和广告表现的问题

服务目标:淘宝开店商家/个人

一.投放原理

钻展的定向就是,每个访问淘宝的访客,都会形成搜索、浏览、收藏、购买等各种行为,平台会根据这些行为给这些访客打上各种标签。如一个人在淘宝上经常购买美白面膜,那么在她的身上就会带上“美白面膜”、“女性”等标签。

在设置定向时,平台可以通过钻展系统来圈定这些已打上标签的人群,从而实现只把平台的广告创意展现给这部分访客。因此每个行为不同的人,在同一时间打开钻展的广告位,看到的广告都是不一样的。通过合理定向,把你的广告展现给你想要的人群,获得精准流量和好的广告效果。以下是两个投放流程:

店铺推广

宝贝推广

二.产品

创意排行榜

平台将历史投放数据,基于不同的位置和人群定向方式,以排行榜的形式把数据展现给大家,整理成相同类目优秀创意、相同营销场景优秀创意、风格相似店铺创意。它可以帮助商家直观的了解到钻展的广告环境,更加清楚自己周围的同行,甚至竞争对手的创意。

创意大讲坛

平台将通过对历史投放数据的挖掘,同时结合眼动仪测试、图像识别技术、买家行为研究、专业文献资料研究和ABtest的比对,按相同类目和相同营销场景,整理成创意设计方法、创意趋势分析以及消费者洞察。以知识的方式呈现给商家,帮助商家更好的设计创意

创意实验室:

主要解决商家在创意制作上的两大问题:

1.创意千人千面,程序化广告的进化,使得广告位背后的每一个消费者变的清晰可辨,基于精准定向的广告投放,转换率也得到了大幅度的提升。用一个广告和所有消费者沟通的方式,已经开始转变为,和成千上万的消费者,进行1对1的沟通。这就催生出商家,对于创意制作的量级需求大增。

2.释放制作成本,就是平台希望通过工具化,直接帮助商家多,快,好,省,批量生成创意,让商家不再为缺少专业的设计操心。

三.优势

1.?[endif]素材丰富,支持常用类目,不同营销场景.

2. 支持全尺寸联动和个性化编辑

3. 模板不断优化,保证套用的模板有效果,主要基于以下四种技术:

·? 智能模板库

平台将通过对历史投放数据挖掘、眼动仪测试和aest的比对。以分层打散的格式,沉淀出模版的本框架。再基于创意大讲堂沉淀的专业知识,按不同营销场景、不同类目、不同风格开发模板款式,录入模版库

·? 智能文案库

从历史投放数据中挖掘出,对创意效果影响明显的文案。按照主标题、副标题、利益点,以不同营销场景,进行分类提取,录入文案库。

·? 智能库:

它的素材升级主要有3大来源:?1.对商家自身历史投放素材的抓取;2.对商家店铺详情页面的商品图抓取;3.商家自主上传的素材。全部汇总到创意库。

· 智能色彩库:

包括两块内容:1.主色调的自动抓取,它将解决对复杂的主色识别,目前平台已开放完成。2.是对不同风格的配色模型进行开发,收入配色库中,用于自动配色。

四.解读

阿里妈妈智钻服务于淘宝(天猫)开店的客户,为其提供推广店铺和推广宝贝两种服务。投放位有移动端、PC端的淘宝、天猫,门户网站,网站,各垂直行业等。一旦选择了投放位则需要制作相应尺寸的创意图,为此智钻给客户提供了专业的编辑器,根据营销场景、风格、优秀模板、尺寸、构图经验来简易制作创意。此DCO围绕着购物的目的进行优化,着眼于模板,利用大数据不断筛选出最优质模板让商家直接套用。对于想要持续学习优化投放的商家,智钻提供了创意大讲坛,即以论坛文章的形式总结投放经验、创意制作技巧等,供商家学习。

借鉴意义:

1.多尺寸编辑器,实时调整创意,所见即所得效果可以降低制作成本和门槛。

2.以套用模板的方式直接制作创意,基于大数据技术还能不断优化模板,保证点击效果。

?

竞品2-百度霓裳

霓裳创意工具是霓裳平台旗下一款物料制作工具,无设计基础或者有快速编辑需求的用户可以通过该工具快速完成PC、移动端的物料制作。

一.功能

1.物料制作

基于创意模板替换素材,简单编辑即可制作多种尺寸。另外模板也能自定义制作。

2. H5营销页面制作工具

移动端营销页面及模板制作

3.程序化创意工具

基于营销卖法、创意设计、用户需求等标签体系,产出多卖法、多组合的广告创意,根据广告展示环境及用户需求展示不同创意;利用标签体系,提供前后体验一致的广告前链创意及创意落地页组合,提升广告效果。

二. 解读

基于设计好的创意模板,大量版权,通过尺寸分组联动批量完成物料的制作,制作的物料尺寸可选,但一般是百度系产品下的尺寸,如网盟、凤巢、信息流推广等。

霓裳下有关于霓裳的操作指南、常见问题解答、创意教程、物料审核的条件、创意教程等内容,可见霓裳的定位是为每一个有推广需求的客户提供的物料制作工具。百度商业服务市场有大量自营或第三方公司提供的囊括推广管理、创意制作、营销转化等内容的工具、服务、教程,是一个关于商业营销的生态,满足中小企业的推广需求。

借鉴意义:营销推广由原来的专业服务逐渐变成广告主自建,中小企业通过百度霓裳和百度商业服务两个平台可以把握广告创意、广告预算、广告效果。

?

竞品3-筷子科技

筷子科技的使命是利用大数据帮助广告主们更好地生成和推送广告,

一.产品简介

1.制作管理工具

云制作工具实现多尺寸广告在线制作,自动生成多种规格广告创意;管理平台中的模板库、素材库支持一键制作创意素材,并包含素材审核、投放。

2. 优化工具

根据悬停、点击、转化评判广告效果。每一个元素的效果都能够被分析,如文案、背景、插图等元素。其中优化分为 创意优化 和 创意生产 :对于一次投放活动,从不断的试错过程中得出个别性的优化结果;而创意生产是指从每一次的投放活动效果总结经验,如标签大小、位置、文案与比例、背景纯度、数量等。

二.合作模式

1. 对接DSP,优化投放效果

案例: 与宇汇(Bridgewell)合作,打造电商橱窗

问题 :宇汇知识是台湾互联网广告业最大的DSP服务商,专注于电商产品的个人推荐以及重定向技术,拥有上百家台湾本土电商客户。传统电商重定向趋于同质化的展现方式,只是不断地把受众搜索过的,看过的产品进行展现,效果有一定提升但很快到达瓶颈,甚至在多重曝光情况下给受众带来反感,产生视觉疲劳。

解决方案 :筷销橱窗解决现有重定向难题。提供受众关注的商品,也同样保证商品在不同地方,不同时间和场景有不同风格的展现。

?

2. 对接广告主,为其设计创意图并优化效果

案例①:帮助玛氏巧克力优化其在淘宝的投放

玛氏巧克力通过与天猫大数据合作,充分利用电商数据做人群细分,找准目标受众,淘伙伴淘通能够有针对性地设计多样化、高质量的沟通元素,实现“千人千面”。但是多样化的内容需要高效的创意制作配合。筷子KuaiPlay云创意制作平台可以将导入的创意元素快速组合和拓展,同时适配多种尺寸

案例②:广发SEM落地页优化

问题: 随着搜索词的不断调整优化,竞价机制愈发成熟,越来越多的企业在SEM优化之余,开始注重增加落地页的信息丰富度,或者精准匹配搜索词,以期提高落地页的转化效果。但落地页优化一直是非常困难的一块。每一次页面制作、页面审核、页面优化,都意味着花费更多的预算和精力,为成千上万个关键词都分别设计一个页面更是不可能。这点在银行业尤其明显。

解决: 筷子科技在了解了广发对核心词落地页搜索优化的需求后,将落地页内容和核心关键词进行绑定,设计出几十种同的创意组合,匹配广发的关键搜索词,通过客户的悬停、点击等反馈,实时决策创意内容,省去测试、审核时间,转化率增长超过10%,从落地页点击到开卡的比例也明显提升。而且系统后台能实时收集不同创意组合的点击率,自动决策和优化,提高点击率高的创意组合,降低点击率低的创意组合。

三.解读:

筷子公司专注于得到广告请求之后的推送优化:如何保障推送的广告的效果,即在解决“说什么”的问题。要保障广告效果需要注意两个点:1.如何得到用户数据并优化算法来得到更精准的用户画像;2.如何保障推送的广告形式被用户喜欢。对于第二点,筷子科技的做法是提供便捷的创意制作工具一键生成大量广告创意,并且在广告点击效果中收集数据,打造创意DMP,将创意因子解构,利用图像识别进行创意分类和人工智能大数据运算,获得创意设计服务的洞察。核心价值在于这个过程中积累的不同的生活者对不同创意的反应的数据。如何将这部分价值最大化,用技术的手段去归纳每一个人对创意的不同偏好,是筷子科技在这个层次的技术要解决的核心问题。对于舜飞公司,因为已有DSP系统,DPM系统,对于用户数据和用户画像有一定优势,下一阶段可以着眼于对于同一个广告位推送做更精准的细分,制作多个创意效果来匹配不同的用户,即使暂时没有做到筷子科技“元素”级别的优化,也可以做到精准营销。

相关资料

阿里妈妈

产品介绍:

://mux.alimama/posts/1469

s://alimama.bbs.taobao/detail.html?postId=6883874

案例:

s://alimama.bbs.taobao/detail.html?postId=69958

s://alimama.bbs.taobao/detail.html?spm=a210m.8146745.0.0.1ef2936c2OLQ1Q&postId=6895432

智钻介绍:

://mux.alimama/zuanzhan/zncy_pc.html#block10

s://alimama.bbs.taobao/detail.html?spm=a2e1t.8741133.12244557.5.2b5c6de8BtLHoN&postId=69957

s://alimama.bbs.taobao/detail.html?postId=6894168

s://help.alimama/?spm=a2e1t.8741133.12244557.2.2b5c6de8Lr3udR#!/zuanshi/faq/list?id=8306468

百度霓裳

服务市场

s://fuwu.baidu/index.html?_t=1516868853931#/home

霓裳介绍

s://yingxiao.baidu/new/home/product/details/id/468

://pro.baidu/product/vadd/270.html

://nichang.baidu/helpCenter/helpCenter.html

霓裳平台

://nichang.baidu/home/home.html

筷子科技

筷子科技网站

s://.kuaizi.co/index.html

Dco介绍

://.360doc/content/17/0913/08/45657950_686679505.shtml

://.meihua.info/a/65192

://.360doc/content/16/1020/19/19671602_600036881.shtml

干货分享 | AI研发工程师成长指南

大数据工程师做什么?需要具备什么能力?

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。

这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人。而数据科学家这个职位目前也已经在美国传统的电信、零售、金融、制造、物流、医疗、教育等行业里开始创造价值。

不过在国内,大数据的应用才刚刚萌芽,人才市场还不那么成熟,“你很难期望有一个全才来完成整个链条上的所有环节。更多公司会根据自己已有的和短板,招聘能和现有团队互补的人才。”领英(LinkedIn)中国商务分析及战略总监王昱尧对《第一财经周刊》说。

于是每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为“大数据工程师”。

王昱尧认为,在一个成熟的数据驱动型公司,“大数据工程师”往往是一个团队,它意味着从数据的收集、整理展现、分析和商业洞察、以至于市场转化的全过程。这个团队中可能包括数据工程师、分析师、产品专员、市场专员和商业决策者等角色,共同完成从原始数据到商业价值的转换—概括来讲,这是一个支持企业做出商业决策、发掘商业模式的重要群体。

由于国内的大数据工作还处在一个有待开发的阶段,因此能从其中挖掘出多少价值完全取决于工程师的个人能力。已经身处这个行业的专家给出了一些人才需求的大体框架,包括要有计算机编码能力、数学及统计学相关背景,当然如果能对一些特定领域或行业有比较深入的了解,对于其快速判断并抓准关键因素则更有帮助。

虽然对于一些大公司来说,拥有硕博学历的公司人是比较好的选择,不过阿里巴巴集团研究员薛贵荣强调,学历并不是最主要的因素,能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。

除此之外,一个优秀的大数据工程师要具备一定的逻辑分析能力,并能迅速定位某个商业问题的关键属性和决定因素。“他得知道什么是相关的,哪个是重要的,使用什么样的数据是最有价值的,如何快速找到每个业务最核心的需求。”联合国百度大数据联合实验室数据科学家沈志勇说。学习能力能帮助大数据工程师快速适应不同的项目,并在短时间内成为这个领域的数据专家;沟通能力则能让他们的工作开展地更顺利,因为大数据工程师的工作主要分为两种方式:由市场部驱动和由数据分析部门驱动,前者需要常常向产品经理了解开发需求,后者则需要找运营部了解数据模型实际转化的情况。

你可以将以上这些要求看做是成为大数据工程师的努力方向,因为根据万宝瑞华管理合伙人颜莉萍的观察,这是一个很大的人才缺口。目前国内的大数据应用多集中在互联网领域,有超过56%的企业在筹备发展大数据研究,“未来5年,94%的公司都会需要数据科学家。”颜莉萍说。因此她也建议一些原本从事与数据工作相关的公司人可以考虑转型。

本期《第一财经周刊》访了BAT这3家国内互联网公司,以及相关领域的人力专家,他们从职场角度为我们解读如何成为大数据工程师以及这类岗位的职场现状。

A 大数据工程师做什么?

用阿里巴巴集团研究员薛贵荣的话来说,大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。

沈志勇认为如果把大数据想象成一座不停累积的矿山,那么大数据工程师的工作就是,“第一步,定位并抽取信息所在的数据集,相当于探矿和矿。第二步,把它变成直接可以做判断的信息,相当于冶炼。最后是应用,把数据可视化等。”

因此分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。

找出过去的特征

大数据工程师一个很重要的工作,就是通过分析数据来找出过去的特征。比如,腾讯的数据团队正在搭建一个数据仓库,把公司所有网络平台上数量庞大、不规整的数据信息进行梳理,总结出可供查询的特征,来支持公司各类业务对数据的需求,包括广告投放、游戏开发、社交网络等。

找出过去的特征,最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹,就能够了解这个人,并预测他的行为。“你可以知道他是什么样的人、他的年纪、兴趣爱好,是不是互联网付费用户、喜欢玩什么类型的游戏,平常喜欢在网上做什么事情。”腾讯云计算有限公司北京研发中心总经理郑立峰对《第一财经周刊》说。下一步到了业务层面,就可以针对各类人群推荐相关服务,比如手游,或是基于不同特征和需求衍生出新的业务模式,比如微信的**票业务。

预测未来可能发生的事情

通过引入关键因素,大数据工程师可以预测未来的消费趋势。在阿里妈妈的营销平台上,工程师正试图通过引入气象数据来帮助淘宝卖家做生意。“比如今年夏天不热,很可能某些产品就没有去年畅销,除了空调、电扇,背心、游泳衣等都可能会受其影响。那么我们就会建立气象数据和销售数据之间的关系,找到与之相关的品类,提前警示卖家周转库存。”薛贵荣说。

在百度,沈志勇支持“百度预测”部分产品的模型研发,试图用大数据为更广泛的人群服务。已经上线的包括世界杯预测、高考预测、景点预测等。以百度景点预测为例,大数据工程师需要收集所有可能影响一段时间内景点人流量的关键因素进行预测,并为全国各个景点未来的拥挤度分级—在接下来的若干天时间里,它究竟是畅通、拥挤,还是一般拥挤?

找出最优化的结果

根据不同企业的业务性质,大数据工程师可以通过数据分析来达到不同的目的。

以腾讯来说,郑立峰认为能反映大数据工程师工作的最简单直接的例子就是选项测试(AB Test),即帮助产品经理在A、B两个备选方案中做出选择。在过去,决策者只能依据经验进行判断,但如今大数据工程师可以通过大范围地实时测试—比如,在社交网络产品的例子中,让一半用户看到A界面,另一半使用B界面,观察统计一段时间内的点击率和转化率,以此帮助市场部做出最终选择。

作为电商的阿里巴巴,则希望通过大数据锁定精准的人群,帮助卖家做更好的营销。“我们更期待的是你能找到这样一批人,比起现有的用户,这些人对产品更感兴趣。”薛贵荣说。一个淘宝的实例是,某人参卖家原来推广的目标人群是产妇,但工程师通过挖掘数据之间的关联性后发现,针对孕妇群体投放的营销转化率更高。

B 需要具备的能力

数学及统计学相关的背景

就我们访过的BAT三家互联网大公司来说,对于大数据工程师的要求都是希望是统计学和数学背景的硕士或博士学历。沈志勇认为,缺乏理论背景的数据工作者,更容易进入一个技能上的危险区域(Danger Zone)—一堆数字,按照不同的数据模型和算法总能捯饬出一些结果来,但如果你不知道那代表什么,就并不是真正有意义的结果,并且那样的结果还容易误导你。“只有具备一定的理论知识,才能理解模型、复用模型甚至创新模型,来解决实际问题。”沈志勇说。

计算机编码能力

实际开发能力和大规模的数据处理能力是作为大数据工程师的一些必备要素。“因为许多数据的价值来自于挖掘的过程,你必须亲自动手才能发现金子的价值。”郑立峰说。

举例来说,现在人们在社交网络上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的文字、语音、图像甚至中攫取有意义的信息就需要大数据工程师亲自挖掘。即使在某些团队中,大数据工程师的职责以商业分析为主,但也要熟悉计算机处理大数据的方式。

对特定应用领域或行业的知识

在颜莉萍看来,大数据工程师这个角色很重要的一点是,不能脱离市场,因为大数据只有和特定领域的应用结合起来才能产生价值。所以,在某个或多个垂直行业的经历能为应聘者积累对行业的认知,对于之后成为大数据工程师有很大帮助,因此这也是应聘这个岗位时较有说服力的加分项。

“他不能只是懂得数据,还要有商业头脑,不论对零售、医药、游戏还是旅游等行业,能就其中某些领域有一定的理解,最好还是与公司的业务方向一致的,”就此薛贵荣还打了个比方,“过去我们说一些奢侈品店员势利,看人一眼就知道买得起买不起,但这群人恰恰是有敏锐度的,我们认为他们是这个行业的专家。又比如对医疗行业了解的人,他在考虑医疗保险业务时,不仅会和人们医院看病的记录相关,也会考虑饮食数据,这些都是基于对该领域的了解。”

C 大数据工程师的职业发展

如何成为大数据工程师

由于目前大数据人才匮乏,对于公司来说,很难招聘到合适的人才—既要有高学历,同时最好还有大规模数据处理经验。因此很多企业会通过内部挖掘。

今年8月,阿里巴巴举办了一个大数据竞赛,把天猫平台上的数据拿出来,去除敏感问题后,放到云计算平台上交予7000多支队伍进行比赛,比赛分为内部赛和外部赛。“通过这个方式来激励内部员工,同时也发现外部人才,让各行业的大数据工程师涌现出来。”

颜莉萍建议,目前长期从事数据库管理、挖掘、编程工作的人,包括传统的量化分析师、Hadoop方面的工程师,以及任何在工作中需要通过数据来进行判断决策的管理者,比如某些领域的运营经理等,都可以尝试该职位,而各个领域的达人只要学会运用数据,也可以成为大数据工程师。

薪酬待遇

作为IT类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。根据颜莉萍的观察,国内IT、通讯、行业招聘中,有10%都是和大数据相关的,且比例还在上升。颜莉萍表示,“大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。”在美国,大数据工程师平均每年薪酬高达17.5万美元,而据了解,在国内顶尖互联网类公司,同一个级别大数据工程师的薪酬可能要比其他职位高20%至30%,且颇受企业重视。

职业发展路径

由于大数据人才数量较少,因此大多数公司的数据部门一般都是扁平化的层级模式,大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队,而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。“这个职位的大部分人会往研究方向发展,成为重要数据战略人才。”颜莉萍说。另一方面,大数据工程师对商业和产品的理解,并不亚于业务部门员工,因此也可转向产品部或市场部,乃至上升为公司的高级管理层。

android mvvm 角色分别有哪些担任

作者 | Japson

来源 | 木东居士

0x00 前言

首先,《AI研发工程师成长指南》这个题目其实有些标题党了,准确地来说,本文内容应该是:“要想成为一名AI研发工程师,需要具备哪些技能”。

其次,本文对“AI研发工程师”这个title的定义,也并不是大家第一印象中的“算法工程师”、“数据科学家”。

再次,本文实际上作者结合现阶段行业发展、技术趋势以及自身工作性质做出的关于自身定位、职业技能、发展方向的思考。就像魔兽世界中的“职业攻略”,当我们在游戏中新建一个角色时,会先去了解这个职业的特点、天赋、技能树等信息,这样才会在“练级”的过程中少走些弯路。

最后,作者不是从一个很高的角度来对整个成长体系进行一个全面地阐述。而是站在道路的地点,不断摸索、不断前进、不断地调整自己的规划。因此本文不算是Best Practices,勉强算是Beta version,也希望能和大家不断交流,不断“发版”。

0x01 关于AI行业的思考

算法工程师的门槛

AI算法工程师年薪百万,应届毕业生年薪都有80w… 去年AI人才缺口就已经过百万,今年将达500w… 加入《XXX训练营》,XX天打造AI算法工程师…

在网络上充斥着各种类似上面那样的吸引眼球的文章标题,向你诉说着人工智能这一火的不能再火的领域美好的前景。仿佛我们看了两遍西瓜书、处理了MNIST和几朵鸢尾花、在自己的笔记本电脑上掉了几个包、得到了和教程上一样的结果,打了几场比赛,我们就已经拿到了AI领域的通行证、成功转型算法工程师、接大厂offer到手软了一样。

但实际,现在AI算法工程师的就业难度和准入门槛,远比我们想象的要高。

上一张网络上流传的“诸神黄昏”吧

可以说一点不夸张,现在很多大厂的校招算法岗,门槛就是海外名校/985工科院校的博士/硕士。除了拥有与学历匹配的学术能力以外,工程基础也要非常扎实。

有人说:“我看网上说,AI人才缺口非常大,我不去大厂不就行了?其他的公司要求没那么高吧?”

要求高不高我不知道,但是有一下两点:

绝大多数公司,是不需要雇佣AI算法工程师,即没有相关的业务需求,也负担不起算法团队的开销 2019年研究生报考人数290万人,预计招生70万人,其中计算机是热门专业,并且其中多数人的研究方向都是: 机器学习、数据挖掘之类。

此间竞争之激烈,诸如此类,虽未得其皮毛,也略见一斑。

AI企业痛点

当然,我说这些不是为了打击大家的信心,而是要指出现在行业内的痛点:AI工程化。

人工智能发展到现阶段,已经从实验室中的算法走向了工程化应用的阶段。但是算法落地并没有想象中的顺利,开始有越来越多诸如场景碎片化、应用成本高、实验室场景到实际应用场景效果差距较大等问题被暴露出来,而这些也成为当前阶段AI落地应用过程中新的痛点。

领域内高水平的paper都是公开发表的,除了少数的核心算法,人才济济的AI企业很难在算法性能上与友商拉开距离。那么AI企业想要商业化,想要创收,行业细分领域纵深成了决定成败的重要因素。需要下沉到业务领域,真刀真枪地进行拼杀。

在技术突破-商业化-产品化-工程化的阶段路线中,除了技术强,接下来还有很多路要走。谁能够更好更快地把算法从实验室中拿出来、卖出去;更好更快地将模型交付到业务场景,真正产生实际的价值,让客户满意,谁才能活得更久。

对于Scientist/Researcher而言,技术可以是一篇论文、一项 ImageNet 竞赛的冠军、也可以是一个重要数值(比如人脸识别准确率)的突破;但在商务侧来说,论文与冠军并不实用,如果技术无法融进安防、汽车、金融等行业,变成切切实实的产品,客户与合作伙伴就会拒绝买单。

对于AI企业来说,能否深入了解各行业的业务流程、业务规则、知识经验,进而将技术能力转化为业务解决方案创造价值,是发展的保障。

那么对于我们个人来说,应该如何发展呢?

0x02 AI研发

AI工程化

在《ML/DL科普向:从sklearn到tensorflow》一文中,我们谈到:

…… 那么对于我们这些非算法岗位的人来说,就没有办法涉及这一领域了么?其实我认为,对于企业来说,对于AI人才的需求分为两种:一种是学术界的牛人,发过大paper,有学术界比赛的结果的。公司需要他们去做算法研究,保持技术的领先性,在业内赢得口碑,这样才能在领域内保持头部领域。另一方面,人工智能早已不是一个概念了,企业需要把业务部门的算法落地的人,能够快速、稳定、高效地把实验室中的算法落实到生产环境中,解决实际问题的人。这就需要那些工程底子扎实、能够实打实地写代码,并且对算法模型理解深刻,能够快速将AI项目工程化、落地有产出的复合型人才。

还是基于这个观点,我决定将自身的技能树偏向企业需要的第二种人,也就是标题所提出的“AI研发工程师”。从实际的工程应用角度出来,focus人工智能项目落地的全流程以及解决方法,提高自己的AI工程化能力,以此作为个人核心竞争力。

AI项目全流程

网络上很多文章描述的所谓“机器学习项目全流程”,例如:数据收集处理、特征工程、训练模型、模型测试等等。这套流程对不对?对。但是远远不能满足企业的需求。

AI项目是团队创造出的具有商业价值的产品、服务以及交付产物。有着明确的需求、、周期、成本、交付流程以及验收标准。

以下以toB业务为例,对AI项目全流程进行简单梳理。toC业务大体如此,只是将客户替换成公司业务方即可。

初步需求沟通确认 该环节主要是由销售、售前完成。了解客户的基本情况,客户根据自身业务挖掘AI应用场景。根据实际的业务需求、数据质量、硬件、期望产物来评估具体的方案以及建模思路。 POC阶段 Proof of Concept。在完成初步的评估之后,团队需要针对客户具体应用进行验证性测试,包括确定业务场景边界、业务评判指标、数据调研、需求、硬件/平台部署等。 场景方案确认 该环节需要售前、科学家、工程师等多角色与客户进行细致的场景沟通,明确需求、确定验收标准、评估工作量。因为该阶段结束后即输出SOW方案,因此需要反复沟通商榷。 建模开发阶段 4.1?项目详细规划 项目经理根据前期资料提供详细的方案设计、功能清单、投入、里程碑安排等内容,召开项目启动会,明确项目内容及分工职责。 4.2?数据处理 科学家在明确业务场景及需求后,对数据处理。其内容包括:数据质量检查、ETL处理(工作量较大)。还要对清洗后的数据进行探索性数据分析(Exploratory Data Analysis)以及可视化展示。EDA能够帮助我们在探索阶段初步了解数据的结构及特征,甚至发现一些模式和模型 4.3?特征工程 根据探索性分析得到的输出,结合对具体业务的理解,对分散的数据拼表并进行特征工程。 4.4?建模 形成初版建模,并对根据业务需求评估标准进行效果验证。后续需要不断进行模型迭代,直到满足需求,并做模型效果汇报。 4.5?系统研发 将训练好的模型发布服务、部署上线,开发对接系统以及部分定制化功能的开发。输出可运行的系统。 测试上线 对系统进行流程测试、性能测试,满足需求后对项目进行交付&验收。 0x03 核心竞争力&技能树

核心竞争力

通过对AI项目全流程的介绍,我们将目光瞄准到“建模开发阶段”的“系统研发”部分。虽然在上面只是一句话带过,但是其中的工作量和技术含量不小。

提起机器学习,尤其是深度学习,大家可能会对诸如Tensorflow,Pytorch,Caffee的工具耳熟能详。但其实在实际的机器学习的生命周期中,训练模型(上述工具主要解决的问题)只是整个机器学习生命周期的很小一部分。

数据如何准备?如何保证线上线下一致性?模型训练好了如何分布式部署?如何构建HA?需要批量处理还是实时处理?实时数据如何拼接?如何对模型服务进行监控、告警?做成PaaS还是MLaaS?

机器学习具有天然的Pipline特性,在企业需求中,大大小小的业务场景有众多的模型,这些模型如何进行打包、处理、发布?离线训练、批量预估、实施预估、自学习等任务类型交错,不同建模工具Sklearn、Tensorflow,Pytorch构造的模型如何进行整合?开发框架Spark ML、Flink ML等如何协同、对接。生产环境如何进行扩展和伸缩?如何支持AB Test?

为了解决这些问题,新生的开源框架层出不穷:Google自研的对接Kubernets和Tensorflow的开源平台Kubeflow;Spark团队打造的ML pipelines工具MLflow;雅虎提供的机器学习及服务平台BigML;阿里巴巴推出的分布式机器学习平台SQLflow等等。众多厂商纷纷发力,目的就是解决AI工程化应用的痛点。

这些工作都是需要一大批工程师去完成。因此,我认为了解AI工程化场景、解决方案;熟悉AI项目流程、机器学习Pipline;掌握AI系统研发、服务部署上线能力的工程师将会逐渐成为AI团队的中坚力量。

技能树

之前铺垫了那么多,既是梳理思路,也是为接下来的系列做一个开篇。按照我的初步,技能树大概包括(不分先后):

工程能力: 身为工程师首先要有工程能力,springboot/Netty/Thrift/等相关工具框架一定要掌握,微服务是机器学习平台的基础。 Spark SQL、Spark ML等更是大数据工程师用来做机器学习的利器,不但要掌握、更要从中抽象出流程和处理方法。 容器化: docker和k8s现在几乎是机器学习部署的必备技能,也是众多平台的基础。 是重要的前置技能。 机器学习&深度学习: 不要求能够手推算法、模型优化,但要能够了解含义、上手使用,起码要成为一名优秀的调包侠(也便于吹水)。 开源框架: 其实我最近打算学习kubeflow,并输出学习笔记及总结实践。 本文其实是这个系列的开篇。 当然,后续还有有调整。 0xFF 后记

其实这种类型的文章,比单纯的学习笔记、技术文章难写多了。一方面,拖延症迫使我把难写的文章放在后面写,另一方面,强迫症又迫使我一定要在系列前出一个开篇。其实写到最后,总觉得核心部分还差点儿意思,没有搔到痒处,这是因为目前我还没有能力站在一个全局的角度对职业技术体系进行划分,只能梳理出目前的规划和看法。后续要还需和朋友们进行交流。

有些事情是一定要做的,纵观一些大牛前辈,无一不是在正确的时候做了正确的事。明确自己的目标,在前进的道路上不断微调自己的方向,这样才能在这个竞争激烈的职业中生存下去。

接下来会有系列的技术学习笔记,考虑到学习的连贯性,前期可能是一些基础的docker/k8s等系列,后期会研究一些开源框架。技术文章可能会枯燥乏味,知识点也缺乏新意,但是经过自己的整理和实践,再加上自身的理解感悟,相信会不断完善自己的知识体系。

大数据挖掘工程师应具备哪些技能?

MVVM的目标和思想MVP类似,利用数据绑定(Data Binding)、依赖属性(Dependency Property)、命令(Command)、路由(Routed Event)等新特性,打造了一个更加灵活高效的架构。

数据驱动

在MVVM中,以前开发模式中必须先处理业务数据,然后根据的数据变化,去获取UI的引用然后更新UI,通过也是通过UI来获取用户输入,而在MVVM中,数据和业务逻辑处于一个独立的View Model中,ViewModel只要关注数据和业务逻辑,不需要和UI或者控件打交道。由数据自动去驱动UI去自动更新UI,UI的改变又同时自动反馈到数据,数据成为主导因素,这样使得在业务逻辑处理只要关心数据,方便而且简单很多。

低耦合度

MVVM模式中,数据是独立于UI的,ViewModel只负责处理和提供数据,UI想怎么处理数据都由UI自己决定,ViewModel 不涉及任何和UI相关的事也不持有UI控件的引用,即使控件改变(TextView 换成 EditText)ViewModel 几乎不需要更改任何代码,专注自己的数据处理就可以了,如果是MVP遇到UI更改,就可能需要改变获取UI的方式,改变更新UI的接口,改变从UI上获取输入的代码,可能还需要更改访问UI对象的属性代码等等。

更新 UI

在MVVM中,我们可以在工作线程中直接修改View Model的数据(只要数据是线程安全的),剩下的数据绑定框架帮你搞定,很多事情都不需要你去关心。

团队协作

MVVM的分工是非常明显的,由于View和View Model之间是松散耦合的。一个是处理业务和数据,一个是专门的UI处理。完全有两个人分工来做,一个做UI(xml 和 Activity)一个写ViewModel,效率更高。

可复用性

一个View Model复用到多个View中,同样的一份数据,用不同的UI去做展示,对于版本迭代频繁的UI改动,只要更换View层就行,对于如果想在UI上的做AbTest 更是方便的多。

单元测试

View Model里面是数据和业务逻辑,View中关注的是UI,这样的做测试是很方便的,完全没有彼此的依赖,不管是UI的单元测试还是业务逻辑的单元测试,都是低耦合的。

有赞搜索引擎实践(算法篇)

首先,我们可以从数据获取、数据存取、数据清洗、数据挖掘分析、数据可视化、数据报告等几个方面入手。

具体涵盖以下技能:

1、Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、 防火墙、Shell编程等。

2、Ja 开发,掌握多线程、掌握并发包下的队列、掌握JVM技术、掌握反射和动态代理、了解JMS。

3、Zookeeper分布式协调服务、Zookeeper集群的安装部署、Zookeeper数据结构、命令。

4、Hadoop 、Hive、HBase、Scala、Spark 、Sqoop、Flume、Oozie、Hue等大数据生态系统知识和技能。

6、Excel、Mysql、Python等数据集,数据存取分析挖掘工具和技术。

7、Tableau、FineBI、Qlikview等可视化应用能力。

关于大数据挖掘工程师应具备哪些技能,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

《三节课策略产品经理》课程笔记

注:转自于 有赞

在上篇文章(工程篇)中, 我们介绍了有赞搜索引擎的基本框架. 搜索引擎主要3个部件构成. 第一, hadoop集群, 用于生成大规模搜索和实时索引; 第二, ElasticSearch集群, 提供分布式搜索方案; 第三, 高级搜索集群, 用于提供商业搜索的特殊功能.

商业电商搜索由于搜索的特殊性, 独立的ElasticSearch集群是无法满足多样的算法需求的, 我们在搜索的各个部件上都有相应的算法插件, 用于构建商业电商搜索引擎的算法体系.

创建索引过程从原始数据创建倒排索引的过程. 这个过程中我们对商品(doc)进行分析, 计算商品静态分, 并对商品进行相似度计算. 商品的静态分对于提升搜索引擎质量起到至关重要的作用, 相当于网页搜索的pagerank, 想象一下如果没有pagerank算法, 网页搜索的质量会有多么差. 在电商搜索中, 最常见的问题是相似商品太多, 必须在建立索引过程中就对商品间的相似度进行预计算, 以便在检索过程中进行有效去重.

创建索引的过程如下.

step 1. 计算每个doc的静态分

step 2. 计算两两doc的相似度

step 3. 根据相似度和其他信息对数据进行分库

step 4. 建立ES索引

检索过程是搜索引擎接收用户的query进行一系列处理并返回相关结果的过程. 商业搜索引擎在检索过程中需要考虑2个因素: 1) 相关性 2) 重要性.

相关性是指返回结果和输入query是否相关, 这是搜索引擎基本问题之一, 目前常用的算法有BM25和空间向量模型. 这个两个算法ElasticSearch都支持, 一般商业搜索引擎都用BM25算法. BM25算法会计算每个doc和query的相关性分, 我们使用Dscore表示.

重要性是指商品被信赖的程度, 我们应该吧最被消费之信赖的商品返回给消费者, 而不是让消费之自己鉴别. 尤其是在商品充分竞争的电商搜索, 我们必须赋予商品合理的重要性分数, 才能保证搜索结果的优质. 重要性分, 又叫做静态分, 使用Tscore表示.

搜索引擎最终的排序依据是:

Score = Dscore * Tscore

即综合考虑静态分和动态分, 给用户相关且重要的商品.

检索的过程大致抽象为如下几个步骤.

step 1. 对原始query进行query分析

step 2. 在as中根据query分析结果进行query重写

step 3. 在as中使用重写后的query检索es

step 4. 在es查询过程中根据静态分和动态分综合排序

step 5. 在as中吧es返回的结果进行重排

step 6. 返回结果

下面几章阐述几个重点技术.

在电商搜索引擎里面商品的静态分是有网页搜索里面的pagerank同等的价值和重要性, 他们都是doc固有的和查询query无关的价值度量. pagerank通过doc之间的投票关系进行运算, 相对而言商品的静态分的因素会更多一些. 商品静态计算过程和pagerank一样需要解决如下2个问题: 1. 稳定性. pagerank可以保证一个网站不会因为简单链接堆砌可以线性提升网站的排名. 同样, 商品静态分的计算不可以让商品可以通过增加单一指标线性增加分值(比如刷单对搜索引擎的质量的影响).

2. 区分度. 在保证稳定性的基础上商品静态分要有足够的区分度可以保证同样搜索的条件下, 排在前面的商品的质量比排在后面的商品的质量高.

我们设商品的静态分有3个决定性因素, 1.下单数, 2. 好评率 3. 发货速度

静态分我们使用Tsocre表示, Tscore可以写成如下形式:

Tscore = a * f(下单数) + b * g(好评率) + c * h(发货速度)

a,b,c是权重参数, 用于平衡各个指标的影响程度. f,g,h是代表函数用于把原始的指标转化成合理的度量.

首先, 我们需要寻找合理的代表函数.

z-score 标准化方法

这种方法非常不稳定, 设一个奇异点是第二大的值的1000倍, 会让大部分的值都集中在0~0.01, 同样失去了归一化的目的.

(图三: log-zscore归一化)

最后, 选择合适的权重 经过log-zscore归一化以后, 我们基本上吧f,g,h的表示的代表函数说明清楚. Tscore = a f(下单数) + b g(好评率) + c*h(发货速度), 下一步就是确定a,b,c的参数. 一般有两个方法:

a) 专家法. 根据我们的日常经验动态调整权重参数;

b) 实验法. 首先在专家的帮助下赋一个初始值, 然后改变单一变量的方法根据aest的结果来动态调整参数.

商品标题去重在电商搜索中起到重要作用, 根据数据, 用户通过搜索页购买商品80%选择搜索的前4页. 商品标题的重复会导致重要的页面没有含金量, 极大降低了搜索的购买率.

举个例子:

Title1:美味/香蕉/包邮/广东/高州/香蕉/banana//无/催熟剂/

Title2:美味/香蕉/广东/高州/香蕉//非/粉蕉/包邮/

首先, 进行特征向量化

这里用到 "bag of word" 技术, 将词汇表作为空间向量的维度, 标题的每个term的词频作为这个feature的值. 以这个例子来说. 这个词汇的维度为: 美味(0), 香蕉(1), 包邮(2), 广东(3), 高州(4), banana(5),无(6), 催熟剂(7),非(8),粉蕉(9) 位置: 0,1,2,3,4,5,6,7,8,9

Title1: 1,2,1,1,1,1,1,1,0,0

Title2: 1,2,1,1,1,0,0,0,1,1

这个每个title都用一个固定长度的向量表示.

再次, 计算两两相似度

相似度一般是通过计算两个向量的距离实现的, 不失一般性, 在这里我们使用1-cosine(x,y)来表示两个向量的距离. 这是一个"All Pair Similarity"的问题, 即需要两两比较, 复杂度在O(n^2). 在商品量巨大的时候单机很难处理. 我们给出两种方法用于实现"All Pair Similarity".

方法一: spark的矩阵运算.

方法二: map-reduce 线性方法. 这个方法参考论文"Pairwise Document Similarity in Large Collections with MapReduce". 可以实现几乎线性的时间复杂度. 相对于矩阵运算在大规模(10亿以上)pair similarity 运算上面有优势. 这个方法简单的描述如下: 首先, 按照倒排索引的计算方式计算每个term到doc的映射. 比如3个doc:

转化为倒排格式, 这个需要一次mer reduce

然后, 对于value只有一个元素的过滤掉, 对于value大于2个doc的两两组合:

最后, 对于输出进行聚合,value为重复次数和两个doc乘积开根号的比.

对于2个title1, title2, 如果X(title1, title2) > 0.7 则认为title1和title2相似, 对于相似的两个doc, 静态分大的定义为主doc, 静态分小的定义为辅doc. 主doc和辅doc分别建库.

区别于网页搜索(网页搜索直接将辅doc删除), 我们将主doc和辅doc分别建库. 每一次搜索按比例分别搜主库和辅库, 并将结果融合返回. 这样可以保证结果的多样性.

店铺去重和商品标题去重有点不同. 由于电商特定场景的需要, 不希望搜索结果一家独大, 这样会引发强烈的马太效应. 店铺去重不能使用如上的方法进行. 因为上面的方法的主要依据是文本相似, 在结果都相关的前提下, 进行适当的取舍. 但是店铺去重不是这样的特性.

设想一下, 如果我们根据店铺是否相同, 把同一店铺的商品分到主库和从库中, 如下图所示.

A和B代表不同的店铺.

在搜索香蕉的时候, 的确可以控制A店铺结果的数量, 但是在搜索"梨"的时候就错误的吧B店铺的梨排在前面了(设A:梨比B:梨静态分高).

搜索的过程每个桶平均分摊搜索任务的25%, 并根据静态分合并成一页的结果. 这样同一保证结果的相对顺序, 又达到了店铺去重的目的.

如上图所示, 搜索"香蕉", 虽然A店铺有10个满足需求的结果, 但是每页搜索醉倒只有5个结果可以展示.

上面介绍了几个建立索引过程中几项技术, 检索过程中的关键技术有很多. 其中最著名的是query分析技术. 我们使用的query分析技术主要包括核心词识别, 同义词拓展, 品牌词识别等等. query分析技术大部分都是NLP研究范围, 本文就不详细阐述很多理论知识. 我们重点介绍同义词拓展技术. 这个技术一般都需要根据自己的商品和和用户日志特定训练, 无法像分词技术和品牌词识别一样有标准的库可以适用.

同义词拓展一般是通过分析用户session日志获取. 如果一个用户输入"苹果手机"没有得到想要的结果, 他接着输入"iphone", 我们在"苹果手机"和"iphone"之间创建一个转移关系. 基于统计, 我们可以把用户query创建一个相互联系的权重图.

用户输入query "苹果手机", 根据query分析, "苹果手机"有 "iphone" 0.8, "iphone 6" 0.5 两个同义词. 0.8和0.5分别表示同义的程度. 我们想要"苹果手机", "iphone", "iphone 6" 3个query同时输入, 并且按照同义的程度对不同的query赋予不同的权重. ElasticSearch提供的BoostingQuery可以支持这个需求. 参考: s://.elastic.co/guide/en/elasticsearch/guide/current/ boosting query_clauses.html

原始query:

改写后的Query

其他比如核心词识别, 歧义词纠正等方法差不多, 本文不做详细阐述.

商业电商搜索算法另外两个重要技术, 一个是类目体系建立和应用,另一个是个性化技术. 这个两项技术我们还处在探索阶段. 类目体系我们主要使用机器学习的方法进行训练, 个性化主要通过用户画像进行Query改写来实现. 等我们上线有效果在与大家分享.

搜索算法是一个非常值得一个电商产品持续投入的技术. 一方面我们技术人员要有良好的技术背景, 可以借鉴很多成熟的技术, 避免重复造轮子; 另一方面, 每个产品的搜索都有自身的特点, 需要深入研究产品的特性给出合理的解决方案. 本文给出的案例都具有代表性, 灵活的运用搜索的各方面的技术. 另外, 商业搜索非常看重投入产出比, 我们也需要在众多方案中寻找捷径. 比如我们在做类目体系时候, 没有投入大量的人力用于标注数据, 而是通过爬虫爬取其他电商的数据进行参考, 从而节省了80%的人力. 由于笔者能力有限, 文中的方案不保证是问题的最优解, 如果有指正, 请联系笔者( hongbin@youzan ).

本次课程能学到很多干货和通用方法论,希望之后有机会实践。

以下是策略产品课程的思维导图:

策略无处不在,策略是一种实现目标的手段

例如电商:搜索策略、推荐策略、广告策略、补贴策略、配送策略

策略四要素:待解决问题、输入(影响解决方案的因素)、计算逻辑(将输入转换成输出的规则)、输出(具体解决方案)

策略pm主要关注待解决问题、输入;而策略rd关注计算逻辑,而pm最后要给出结论,效果是否用户想要的。

策略产品经理要努力想象不同人在同一个场景什么样,和适应想不同人不同场景。

策略是 降低成本实现个性化 的手段

1、发现问题:功能: 一个人 相对聚焦的需求;策略: 一群人 更多样和更有统计意义的需求

2、撰写需求:功能:流程和原型表达产品实现效果;策略:逻辑描述和效果示例表达产品实现效果

3、跟进开发评估:功能:更关注结果,验收呈现效果;策略:更多参与过程,多轮评估深入参与开发过程,与策略rd一起发现各要素中的问题

4、上线后效果回归:功能:更快达到理想态;策略:永无止境的产品循环,复杂且受多因素影响

收集用户问题-用户反馈分析-整理撰写需求-落实产品改进

1、收集:自有渠道、外部渠道

2、分析:数据处理-问题整理

数据处理:浏览了解数据内容-删除无效数据-对有效反馈标注理解背后的问题(不是问题、已知问题、未知问题)

局限性:沉默的是大多数,随机、影响面和优先级男判断

小结:每个反馈背后都是一个真实用户的情感表达,以敬畏心态深入分析每个问题。

针对相对稳定的产品,数字性指标收集、观察、字段、实时发现问题的有效手段

搭建:

定义待监控的指标、定义报警规则

1、定义指标

产品框架拆解:白盒效果监控、黑盒策略监控(策略产品、技术监控(功能产品)

2、定义报警(重要程度、波动幅度)

条件:在正常区间外

方式:电话、短信、邮件

#界定波动区间#

数据敏感度:波动是否超越历史波动范围

三西格玛理论:正太分布,u+-3o

#评估指标重要程度#

x=影响程度 y=影响面

效果监控(白盒部分)

搜索案例:用户搜索-看到结果-用户点击/翻页

满足效果

小时级监控:同比上周同期波动>50%短信

天级监控:同比上周同日波动>5%邮件;>20%短信

覆盖情况

小时级监控:同比上周同期波动>5%短信;>20%电话

效果监控(黑盒部分)

*以搜索为例

1、识别策略

理想:覆盖程度、准确程度(机器识别不了)

现实:只能监控「识别到多少」

覆盖率:识别为需求的流量/网页搜索总流量

需求强度分布:强、中、弱需求的比例

*需求=强需求量+中需求量+弱需求量

小时级监控:同比上周同期波动>5%短信;>30%电话

2、检索策略

通过检索结果的质量来衡量

监控指标:相关性打分=每个搜索词对应结果的相关性打分均值

小时级监控:同比上周同期波动>20%短信,50%电话

3、展现策略

监控表现:样式占比、点击率

小时级监控:同比上周同期波动>5%邮件 >20%短信

监控的局限性:

1、精度不高

2、不能直接定位问题

相对人工排查:监控自动、实时、针对效果

使用场景:制定产品接下来的;修正巩固自身方法论

阶段性调研:最能代表产品的全貌,有效指导下阶段

时间节点:

1、接触新产品(方向):接手某个产品方向的时候

2、周期性回顾:每个月/季度/半年固定周期的回顾

3、不定期回顾:其他需要临时回顾整个产品全貌

通用方法论:

定义理想态-拆解未达理想态的情况-提出解决方案-验证是否解决

1、找到理想态:数字化指标或其他明确标准

2、抽样分析:不到理想态的case分析,统计分类,明确不好的原因

3、优先级判断:汇总所有问题,综合影响面、问题严重程度和解决成本确定优先级,作为接下来的项目

第一步:找到理想态(阶段性产品目标)

复杂情况:百度:搜到了需要的信息(无法用单一指标衡量)

简单情况:滴滴:到达了目的地(订单成交率)

搜索:平台当前能够给出的最佳产品方案

推荐:在候选集合中是否是最佳结果,用户行为指标为发现问题手段

小结:

工具属性产品理想态:帮用户解决问题,单一指标

推荐、搜索等理想态:复杂的情况

第二步:抽样分析明确问题原因

样本们称为case

一、基本步骤

确定调研目标!!!-确定抽样对象-选择抽样方法-确定抽样数量-样本分析标注-整理汇总问题

1、确定调研目标(很重要)

2、确定抽样对象

通过一定规则筛选出的待分析的全量集合

筛选规则:核心指标未达到理想态,可以代表全体用户的行为的最小时间窗口(一天)的全量数据

样本类型:用户个体、行为片段(session)、搜索词、订单

分析滴滴成交问题:全国一周内所有未成交订单抽样

分析美团搜索问题:(复杂情况)一天全量用户session抽样,认为进行筛选

3、选择抽样方式

简单随机抽样

4、选择抽样数量(?)

精度和成本的balance,代表某类样本数量有统计意义

经验值:尽量使代表某问题的样本数量 >=5,或者影响面>=3%

5、样本分析标注(与用户反馈收集类似)

6、整理汇总问题

上下层级:总分关系

同层级之间:相互排斥、不重叠、不遗漏

问题框架不唯一:有初版预设、不断调整直至完善

第三步:优先级判断

1、单位成本的收益(ROI)从大到小

2、ROI相同时,绝对收益较高的优先级高(也要看时长,市场瞬息万变)

3、待解决问题的恶劣程度

项目收益=待解决问题的影响面(通过调研得到直接的拥挤数据)x 解决后体验提升程度 (问题导致的「实际数据指标与理想态指标的差距」)x 预期解决比例(研发给出)

项目成本=通常仅指研发成本

一、简单策略

给出策略规则:基于历史数据给出、参照竞品给出

二、复杂策略

1、从0到1:描述理想态、怎样的输入下要达成怎样的输出效果

2、策略迭代的项目:更多描述策略现状,待解决问题是什么,针对这些问题,理想的输出效果是怎样的

自检清单:

结构:逻辑清晰、层次分明

背景:描述清楚,待解决问题

目标:产品理想态或考核指标

示例:通过示例,让问题更明确和清晰

策略需求文档核心是将策略四要素描述清楚

针对复杂策略,可以跳过计算逻辑这个要素,但需要case示例

策略质量评估:用来说明策略本身的质量

输出结论:该策略的召回率(对问题的解决程度)&准确率(有没有带来其他伤害)有矛盾,希望两者越高越好,按照产品阶段,找平衡点

Diff评估:用户直接感受到产品效果变化是怎样的

diff影响面:用户感知发生变化的比例,通常要小于策略影响面

good:same:bad(g:s:b):随机抽样有变化的case,站在用户体验角度评估

策略评估:基于理想态找到问题-汇总和抽象问题,提出解决思路or方向-给出结论

有没有解决问题or达成目标:

1、如果有:有没有进一步优化空间、有没有引入新问题、优化/解决手段是什么

2、如果没有:是为什么,如果要达到目标,接下来要做什么

一、项目启动前

第一步:明确预期:产品目标是什么

第二步:指标体系:该目标可以用哪些数据指标来衡量

建立指标体系:

问题和目标是什么:找到核心指标

解决问题和实现目标的关键路径是什么:找到过程指标

新路径伤害了谁:找到观察指标

二、开发上线

全流量上线:评估效果好,仅与本项目有关(实验期同比上一周期变化x%)

小流量上线:项目效果存在一定不确定性时,aest(实验流量比基线变化x%)

注意:抽样方法是否随机;样本集合是否有天然差异。先进行流量空跑,避免问题

三、上线后

第四步:收集第二步中的指标,看是否达到第一步预期

第五步:分析问题产出结论

符合预期:产品循环暂时中止

不合预期:新的产品循环开始

1.0 基于用户分层的推送(活跃、不活跃、iphone、安卓)

2.0 个性化的内容推送

1、收集用户历史行为,建立用户标签,用于内容推荐

2、收集上架和价格变化,作为待推送内容和活动信息,作为待推送内容集合

3、根据用户标签和俄候选内容,生成基于每个用户兴趣的内容

4、设置推送频率,在允许频率内,当某男用户存在可推内容时,自动进行推送

3.0 基于反馈的推荐系统

1、推荐时间纳入推荐控制

2、丰富推荐使用的标签数据

3、每个人的点击行为作为推荐优化的重要依据,不停迭代

小结:

消息推送的效率本质:给合适的用户在合适的时间点发送合适的消息

「合适」最初由pm定义,最终根据数据反馈确定

功能导向性:关个用户的体验

业务导向型:关注多边平台的利益

「功能导向性」

「业务导向型」

需要考虑多个存在显著需求差异,甚至利益冲突的用户群,策略要在多个利益群直接寻找合适解决路径,使群体利益最大化

*所谓双边/多边市场

1、策略框架-分析每个用户:针对每个角色,都是一个功能导向性的策略框架

2、策略框架-建立多边关系:平衡

1)将阶段性目标拆解为与个用户群利益相关的公式,寻求多方利益的最大化。

2)在此过程中,任何一方的退让以边界值为底线。

商品定价策略

买家:低价买商品

卖家:商品售出最高价

边界值:买家购买价格低于心理价位;售价高于成本

1、分析双方利益关系

双方都希望促进交易,矛盾点是价格高低

2、拆解交易过程

背景定义:设卖家只有一件商品

1)卖家作为定价方,商品成本cost是客观数据

2)买家心理价位price是推测数据

3、定义不同目标下的定价策略

出行策略-从0到1

一、各利益体需求

乘客:希望最近的司机接单(等待时间最短)

司机:希望最挣钱的订单(接驾时间短、距离更长、更不堵车)

二、定义每个利益体的边界值

乘客:最长等待时间最长是x分钟

司机:接受的最远接驾距离是x km

三、寻找平衡公式

1、分析双方利益关系

双方希望促成交易,矛盾是咩个人都渴望最优质的匹配对象

2、定义撮合规则

阶段性目标:成交率最大(更偏向乘客利益),每一时刻订单被最大程度的消化

撮合方案:接近最大,避免宕机

出行策略-从1到N

1、想保证乘客个人的最大价值,但是当一个人打20次车后,就是一个群体,以平台为中心的撮合系统能保护整个群体的利益。

2、机器指派比人更理性,人会因为心情或主观判断导致决策失误没接到单,机器指派整体来说是效果最佳的。

策略在增长中的应用

增长:「更有效率的杠杠」

杠杠:通过额外的投入获得更多的回报(超出自然趋势增长)

效率:更低成本/更快速度/更精准的定向

实现增长的流程:触达-认知-转化

不做精细化策略的原因:

1、数据量不够,对用户了解不够

2、外部因素变化大

3、自身能力不足

策略在风控中的应用

「风控」=最小成本的避免伤害

避免伤害:

1)对平台的伤害:刷补贴、欺诈、损坏单车

2)对用户的伤害(延伸到平台):内容垃圾信息

最小成本:大多数风控策略都会给平台/用户造成额外成本

1)期望给用户增加更多限制

2)在高风险倾向选择更严格的策略

3)任何高召回的策略存在一定概率的误伤

核心思路:

降低「者」的收益:滴滴取消司机的补贴

提高「者」的成本(降低相对利益)

例子:「出行平台司机刷单问题」的反策略进化(提高成本)

抓:区分正常、不正常、异常行为,按照用户使用流程分析

1、定义正常行为

2、定义不正常行为

3、定义异常行为

风控的基础在数据

惩:

1、定义处罚的规则

2、及时止损

在线策略:该异常可以实时召回,偏事前阻止

离线策略:通过需要一定的时间窗口来收集数据,偏事后惩罚

策略在数据上的应用

「应用驱动」

支持核心业务:比如搜索推荐的对象,考虑覆盖率、时效性、可用性等

支持增长:比如用户分层、兴趣标签。考虑覆盖率、准确率等

支持风控:比如行为数据、设备数据。考虑覆盖率、可用性等

数据是一切策略的基础!