时间:2014年6月6日上午
地点:北京国际会议中心
会议:中美创新链接·大数据专题研讨会
主办:中美创新协会,北京市科协

目录:

1. 主办方彭晨发言 (Google/CHAIN)

2. 邬贺铨院士发言(中国工程院)

3. 演讲人张溪梦发言 (LinkedIn)

4. 演讲人李志飞发言 (Mobvoi出门问问)

5. 圆桌讨论:大数据与移动互联网

6. 演讲人苏萌发言(百分点科技)

7. 圆桌讨论:大数据和智能商务

8. 演讲人颜嵘发言 (Square)

9. 圆桌讨论:大数据和金融支付

10. 演讲人吴建平发言  (清华大学)

11. 圆桌讨论:大数据和公共事业

12. 演讲人郭健发言 (哈佛大学)

13. 圆桌讨论:大数据和穿戴设备


开场白

主持人彭晨:尊敬的各位领导、来宾、各位创业家、投资人、企业家,大家上午好,欢迎大家参加由中美创新协会和北京市科协共同举办的中美创新链接·大数据专题研讨会。我叫彭晨,是中美创新协会联合创始人和现任会长,首先我想代表主办方欢迎大家的光临。

首先我想借此机会简单介绍一下我们的中美创新协会,2011年夏天成立于美国硅谷一家非盈利组织。我们宗旨是打造一个跨中美平台,推动创新创业。核心团队成员是来自硅谷各大科技公司一些志愿者,包括我本人就是在谷歌公司从事数据相关的工作。经过三年来发展,中美创新协会现在有八千多名会员,30多家合作机构。

中美创新协会理念是打造一个跨中美、跨区域的人才、技术、和资金资源交流对接的平台。我们有两个目标,一个是想帮助创业者之间、创业者与投资人和其他服务机构之间建立连接,另外一个目标是推动跨中美的创新创业交流和商业沟通。

三年来发展过程当中,我们获得非常多的合作伙伴支持和帮助。例如在中美各种非盈利机构和公司、政府部门和事业单位、孵化器、投资机构、服务机构和媒体等等。我在这里想隆重感谢北京市科协,在北京市科协是我们在中国最最重要的战略合作伙伴,两年多的合作过程当中,北京市科协无论是从资源的对接还是在资金的扶持上都给了我们协会非常大的帮助,我们共同设计和打造一系列的推动中美两地创新创业交流的品牌活动,这里特别感谢一下北京科协的支持。

简单介绍一下中美创新协会业务形式,我们最主要的业务形式我们会举办一系列的围绕创新创业的系列活动,包括针对最热点的技术和商业话题的圆桌讨论,以及帮助创业者提高创业成功率的创业系列讲座。我们和北京市科协共同推出的品牌活动,例如中美的高层项目的视频投资洽谈会,各位参加的中美创新链接年会。中美创新协会还有自己的科技博客和论坛,我们还想更多依托和利用技术手段去打造基于互联网平台的服务于跨中美创新创业的供需对接平台。在座各位如果跟我们志同道合,我们也非常希望跟你们去沟通和联系,看有没有什么合作共赢的机会。

说说今天的会议,这次会议是我们第二次和北京市科协联手举办围绕大数据的研讨会,这次会议我们的参会嘉宾、演讲嘉宾来自中美两地30多家科技公司还有科研机构,阵容非常强大和好话。为什么谈论大数据,大数据是近年来技术和商业热点,也是目前全世界范围内创新创业最为活跃和最为集中的领域之一。大数据概念本身并不新,我所工作的谷歌公司,谷歌在16年前成立的时候就是一家大数据公司,搜索引擎任务就是检索全世界说有的互联网信息,并在信息之间建立起关联,可以想象这个数据量多么庞大。

大数据为什么这两年这么火热,发展这么快,大数据已经走出硅谷的互联网公司,走进形形色色非常多的行业部门,包括传统行业部门如电信、金融、制造、零售、教育、医疗、健康,等等。这种快速增长得益于近年来移动互联网技术,无线传感器网络技术还有云计算技术的日趋成熟。我们这次会议是以大数据为主题,触及数据在五个不同领域的实际应用和价值体现,我们想全面展示当前大数据应用实际状况以及未来行业发展趋势。包括移动互联网-比如我们在移动平台上进行的信息搜索和信息推送,智能商务-个性化的推荐引擎,广告投递,金融支付-怎么利用数据进行诈骗监测还有信用评估。还有医疗、环保、教育,这些都是我们社会非常重要的热点话题。最后一个方面是我们近年来非常热点一个话题就是穿戴设备,考虑在穿戴设备上怎么进行信息的呈现,虚拟和扩展现实以及一些健康指标的追踪。

除此之外我们觉得这次峰会还会有一个特点,我们格外关注创业公司。我们想利用这个舞台给很多创业公司、创业者一个机会,去向大家宣传和介绍他们跟大数据相关的一些产品和服务。我们也从美国邀请很多科技公司的代表,希望利用这个机会探讨一下在大数据的应用的不同之处。

今时今刻是人类诞生之日起第一次可以系统、实时、全方位、永久去获取、处理、分析、存储海量的生活和生产的数据。我认为大数据其实是人类的科技文明和商业文明发展到一定阶段的必然产物,也是我们人类社会发展的必由之路。

我们希望通过今天的会议,大家可以对未来我们的数据社会和智慧社会有一个宏观上的理解和认识。我的简单开场白就到这里。

下面我想介绍光临我们今天会议的重量级的领导和来宾,他们是中国工程院院士、中国互联网协会理事长邬贺铨院士、北京市科协副主席田文先生、中美创新协会的联合创始人施煜先生,欢迎大家。下面让我们掌声有请北京市科协副主席田文为我们大会致开幕词,欢迎。


 

邬院士

演讲人: 邬贺铨,中国工程院院士
演讲题目:大数据的应用与前景

尊敬的中国科协的领导,我们主办单位北京科协和中美创新协会的各位领导、各位专家、各位代表早上好。很高兴有机会在这里跟大家做大数据的应用与前景,跟大家交换一下看法。

现在数据有三个方面,一是网络层面数据,包括自媒体,像社交网络、博客、微博等等。日志数据还有富媒体数据,这些都是网络层面。还有物理层面有传感器数据,还有社会层面有政府、企事业、平面媒体个各样的数据,构成了网络的大数据化。淘宝网现在已经处理的数据超过100PB,微博每秒100万次响应请求。百度一存储1000PB数据,腾讯压缩后数据100PB。服务公司,国家电网累计数据已经存了2P,中国联通每秒记录用户上网情况每秒记录83万条,工商银行积累数据已经超过4.5P,北京市公交一天大概刷卡13万人次,地铁1000万人次。医疗像广州中山大学第一医院所存数据08年130TB,预计15年到DPB这么大。华大基因每天产生的数据超过10TB,预计基因库最终将达1EB。京东商城每秒产生2千元的交易额,累计各种数据达到PB。农夫山泉每天从销售其矿泉水的超市回传10张照片,每月3TB。政府数据更多,北京政府2012年数据到了95P,相对11年增长50%。全球都是类似情况,1998年平均一个网民每个月大概一个MB,08年1G,今年全世界网民每年每月10G。我们在全球IP流达到1EB所需时间,2001年需要一年,现在需要一天,我们大概说很多符号,这些量是很大。含标点是87万字,每汉字占2B,全书为1.74MB,1EB56626亿部,即全球人均100部《红楼梦》现在来看,差不多全世界新产生的数据量每年增长40%,全世界形成量每两年翻一番。! 2011年统计全世界的数据量达到1.8ZB,装到iPod上,可以装575亿个,把iPod当砖用可以叠起两座中国长城。

大数据在宏观经济分析中应用,IBM日本公司的经济指标预测系统,从互联网新闻中计算采购经理人指数PMI。印第安纳大学学者利用谷歌提供的心情分析工具,从用户970万条留言,预测道琼斯工业指数,准确率达到87%。以下这个图蓝色是淘宝网上的推算的CPI的曲线,红色是国家统计局的CPI曲线,淘宝上的曲线比国家统计局更敏感。比如说粮食等等,收入不会下降太多的时候,首先是吃的东西,在这上面反映是很敏感的。淘宝网上大家买的衣服、服装、化妆品等等,收入下降的时候,首先会剩下这部分的钱,淘宝网上反映的CPI比国家统计局更敏感。

他的发动机每时每刻都在搜索数据,GE的每一个引擎装20个传感器,希望收集引擎数据,以便飞机落地的时候及时发现要不要进行更新。马航事件出现之后,他关掉通信,随后总共发了7次传感器数据,经过卫星,每次一小时,所以判断马航后面总共飞了八个小时,相当于从伦敦到纽约的飞行距离,640TB的数据量,GE每天收集这些数据。我们领导看到之后,感触很深。

规格Climate公司从美国政府获得30年的气侯、60年的农作物收成,14TB的土壤数据。还收集250万个地点的气侯数据,向农户提供天气变化、作物、病虫害和灾害、肥料和收获、产量、市场价格等咨询和保险服务,承诺每英亩的玉米利润增加100美元,如预测有误将及时赔付。最近该公司被蒙山都公司以11亿美元的价格收购。

这个大数据的在商业中应用更广泛,大家到超市买东西,出门都会有一个单子,沃尔玛根据这个单子,买A商品的客户同时买B商品的几率有多大,把AB商品放到一块。美国超市哪些顾客是最好的顾客,女性客户,一般是孕妇,孕妇买一些没有刺激性化妆品,关心婴儿的用品,关心不等于买,他现在还没有买,没问题,你去超市里推车,可以装GPS和传感器,只要站在柜台时间长,不买东西,也知道你关注这些东西,因此判断你是孕妇,把相应的广告发到你的手上,本来这个事情进行很顺利。纽约时报登投诉信,一个上初中女孩,这个公司把乱七八糟孕妇和婴儿广告送到我那里去了,第二天在纽约时报登了道歉信,我们有搞错的时候。一个信登在纽约时报上,我错怪这个公司了,我后来发现我的女儿意外的怀孕了。

大家多会使用电子商务,在淘宝上买来东西,淘宝网会把你的IP地址记录下来,他不一定知道你的真实名字,他会把你买化妆品、服装的这些分类个服装公司出钱可以买这些IP地址,你上另外一个网络,跟阿里没有关系,但是这个跟服装公司有关系,一旦知道你的IP地址,跟服装公司有关,就有相应的广告来了,在生产上是有有用的。阿里一直是这样做的,他发现在淘宝网上卖的很好的商家,需要很多的流动资金,他本身没有担保和贷款,怎么办,阿里在网上积累一些数据,判断商家是诚信或者是健康的。因此可以不需要网上申请贷款三分钟搞定,可以支持淘宝网商家的运转。支付宝的钱还可以通过余额宝来通过基金来跟银行取款。我们银行是嫌贫爱富,给散户的利息0.3,给大客户的年化收益率高达657%,阿里用这种办法直接用散户资金,来跟银行来谈大的存款,阿里把大的部分回馈给客户。还有优化的路线还有行车安全都是很好的应用,北京公交一卡通每天有五千万人次分析这个数据优化城市的公交路线。

我们在中国发生的医疗纠纷,不是医生看病看的不对,我们每个人基因不同,同样的治疗对一些病人无效,75%癌症病人,70%的老年痴呆者,50%的关节炎病人,43%的糖尿病,40%的哮喘病,38%的抑郁症。苹果公司总裁乔布斯花费几十万美元获得自身全部DNA,他说我要么是第一个通过这种方式战胜癌症的人,要么是最后一个因为这种方式死于癌症的人,虽然愿望没有实现,但也将他的生命延长几年。应该说大数据对医疗也是很有用处的。

这是一个语音翻译的例子微软研究院院长曾经讲话,他利用上百万网页素材和大数据及深度神经网络技术,我用英文讲话,同时翻译成中文,甚至用他自身的语调讲出中文来。微软准备收购诺基亚推出手机,这个手机上有26种语言翻译,你讲中文,他听英文,你讲英文,他听中文。

大数据在热点检测当中也可以很好的应用,利用短信、微博、微信和搜索引擎可以搜集热点事件与舆论挖掘。在长假之前,很多人在网络上搜索旅游点、旅店、火车与飞机航班信息路线等,由此可知道哪些旅游点和交通路线会拥塞。去年国庆节四天,九寨沟有点不正常,九寨沟也出现拥堵了。还有去年5月昆明市民上街抗议PX五化工项目上马,早在市民集会前一周该项目在百度搜索关注度剧增。有一些省的旅游局跟百度说,你提前告诉我,什么时候什么地方会出现拥堵。

如果有人在网上搜索怎么制造炸弹或者是器材的同时还搜索某一地点,能帮助提前锁定作案的嫌疑人。去年8月份美国《大西洋月刊》报道,纽约一对夫妇在谷歌上面搜索高压锅,和背包被一个由6人组成的联合反恐部队上门盘问是否拿高压锅来做炸弹。前年美国加州大学分析洛杉矶市过去1300多万起案件搜集起来,找到了各小区发案与日期、天气、交通状况及其他相关事件的关系,建立犯罪活动预测平台,当地财产犯罪率和盗窃案件分别下降12%和26%。我们看美国实际上发现拉登就利用大数据,美国队大数据的期待更高,美国国防部目标是分析人员从任意语言文字资料中提取信息的能力提高100倍。美国中情局利用大数据分析搜集的时间是27分钟。数据挖掘本身就这些数据获取、存储、计算、传送与分配、挖掘、呈现、安全等等。然后需要把一些重复的可以说是有偏离很正常值的数据去掉,再把纬度变小,把复杂性降低。然后再按照需要分类,分类之后抽取,然后融合起来。大数据本身很大条件就是他不断进来。大数据时代数据是活的。这是古罗马,有很多建筑,可能是孤立,我们需要通过信息融合把他还原成一个古罗马的状况。还用到形式抽取,这里有好几个人在走路,我关心这个穿黑衣服的人,我会把其他的人屏蔽掉,只突出看这个关注的人,这是信息抽取。大数据需要用到融合与抽取技术等等。

现在大家关心北京的空气PM2.5,有的人去医院做肺部扫描,一张张照片看起来也是很难看的,需要大数据把他们融合在一起还原成一个肺,有没有纤维化,看周边的情况。大数据的最终可以做到虚拟化和可视化,来帮助我们诊断。!

这是篮球长半场,NBA球队经常打球,可以分析出得出一些规律来,个子大的站在这里概率高,投篮命中率高,可以知道三分球哪些是命中率高。美国现在是NBA30支球队有一半已经聘请了大数据分析师,我很期望中国可以聘请大数据分析师。

大数据的经济价值,美国保健的年度潜在价值,相当于西班牙年度医疗保健开支两倍。世界经济论坛,是新财富。谁最能利用数据?09年美国各行业数据存储量对比,第一是制造业企业,第二是政府。首先是政府的数据开放,我们知道建智慧城市,实际上首先是开放政府,首先开放老百姓,才能有利于市民监督,提升公共效率。去年G8会议签署了开放数据宪章,提出开放数据是基本要求。美国联邦政府提出开放数据,开放数据并不等于开放国家机密和个人隐私,他是可以屏蔽掉这些的,按照统计效果来。

美国大数据开发的绽裂,美国前年开始奥巴马政府颁布了大数据研究与发展倡议,每个部门都有他相应的大数据开发的资金和任务。对中国来讲大数据是机会也是挑战,中国人口具世界首位,我们的数据量是日本60%和北美7%,我们有一半没有保护,我们很多部门拥有大数据互不沟通,很难共享,导致信息不完整或者重复投资。在技术方面我们有很大的差距,这是我们没有缺乏相应法律,人才方面也是更大的挑战。!!!!现在我们面临以大数据为特征的大智移云的时代,大数据、智能化、移动互联网、云计算、

下一代互联网,称之为大智移云。1985年依赖于计算机,05年以前只能依赖于移动互联网。

新一轮科技革命和产业变革正在孕育兴起,移动互联网、智能终端、大数据、云计算、高端芯片等新一代信息技术发展带众多产业变革与创新。

最后,宽带化、移动互联网、物联网、云计算等催生了大数据,开启了大智移云时代。大数据的挖掘深化了信息技术的应用,推动了信息化与工业化融合,细化了对市场和用户需求了解,开拓了技术创新和商业模式创新的空间,提升了决策的智能化水平。大数据分析是完善社会管理和改进民生服务能力的强力抓手。美国将大数据分析作为国家战略来推动,政府带头进行数据开放,我们国家也需要有国家的大数据战略和开放数据的措施以及法规。大智移云时代正在经济结构转型和产业变革,我们要以创新驱动大智移云时代带来的挑战,谢谢大家。


 

Keynote -- Simon Zhang

演讲人: 张溪梦,LinkedIn商务分析高级总监
演讲题目:庙算者多胜-大数据发展战略

张溪梦:感谢大家听我做汇报,我希望把我的演讲尽量变的更简短一些。我名字叫张溪梦,在美国大约做工作做了不到十年。主要目的就是做大数据分析.!我以前是脑外科医生,做分析和做医生没有本质性区别,就是通过不同的症状来诊断事物本身的基本的比如说疾病。然后采用不同的方法治愈病人,让病人身体更健康。

Linkedln在世界范围内有3亿用户,中国有500万用户左右,90%的世界千100强公司都在用Linkedln提供的服务,其中大约400万公司主业以及相关服务信息。

讲讲大数据就讲Linkedln的业务模型,商务模型非常简单,主要是三个环节链在一起形成一个很健康管理,第一就是用户增长与体验,用户使用。第二步催生大量的数据,通过这些海量数据,进一步提炼新的产品和服务,为了下一轮用户增长和体验做各种准备。其中涉及到另外一个问题,很多同仁在问我说,你们怎么赚钱?Linkedln的业务基本上来源于四个主要产业,第一个就是人力与猎头,这部分大约产生53%的收益。第二部分是广告和市场推广,我们叫市场解决方案,这块产生20%的收益。第三部分我们叫做高级订阅服务,比如说找工作,想做市场推广的人,然后猎头的人,他们没有必要买企业级的Slution(音译)。第四是销售解决方案。下一步我们准备把这块业务做大,争取超过猎头和人事。

讲讲我们的团队,我们团队大约75人左右,主要支持市场、营销、产品、研发、客服、风控还有最后的运维。运维催生广告运维、销售运维、商业运维,分析支持都在我们团队里边。有几个基本功能,第一是基础设施,第二是商业情报,在我的团队里面,我对BI定义跟传统BI定义不太一样。第三块就是数据科学,还有统计模型,机器挖掘。这三个部门基本是水平的部门,然后剩下的东西,我们有一块非常大的商业分析,这个部门占到我们团队50%左右。他们和每个业务产品线紧密相关来支撑业务端。最后一个部门是软件开发。为什么我们分析团队里面要有软件开发团队,我们真正核心竞争力就是取决于这个团队,把各种分析和数据挖掘全部软件化、规模化、产品化,然后生态系统化。

再讲讲分析大数据,刚才各位同仁讲的非常好,他们涵盖讲的所有内容,不用讲太多。我只需要讲一句话,就是数据本身的意义也许没有大家想象的那么大,但是分析本身的意义非常大。上面一句话就是人以铜为镜,可以正衣冠,以古为镜,可以见兴替,以人为镜,可以知得失。这句话以前是李世民讲的一句话,虽然讲的很简单,就是需要用历史来预测未来,预测完未来之后并没有讲该怎么做。最重要一点做数据分析就是要尽量的改变未来,让未来变得更好,这是我们数据分析的一个核心竞争力。未来变得越好,产生价值越大,这是我们学到基本的道理。

咱们再讲大数据,什么叫大?这个冰川很大,上面东西很大,直接能把泰坦尼克给灭了,下面还有更大的是数据量很大,真正不是冰川,而是冰淇淋,大数据核心是小数据,真正有能力人就是把大的冰川做成小冰淇淋,然后给孩子。

我们讲讲Linkedln现在在硅谷这边有四个步骤做大数据分析。很简单,第一步要打好非常良好的基础,听上去好象很简单,很无聊,但是这一步是最关键的一步。第二步是要规模化进行分析,大规模进行分析。第三步是分析本身产品化,第四是产品的生态化。

讲讲第一阶段,主要因为这个金字塔很重要,任何一个公司想做好分析,我个人认为大家要仔细看看这个金字塔的结构,第一步做分析本身要了解产品,理解市场,明白运维,知道我们的客户需要什么。第二步就是在产生数据之前,一定要认真做好数据标签这个工作。因为做数据,做分析的人他是要分析未来的应用,就把正确的产品要加进去。第三步就是对数据部署和实施的比较深刻的理解,这就包括如何应用。下一步包括了专题分析、商业智能与报告还有深度分析,这些步骤大家都已经看了,不想讲太细,这是传统的商业分析师需要做的工作。再下一步Linkedln里面有核心的概念,做的仅仅有趣是不够的,必须要有可执行性。这个可执行性的目的就是为了要帮助企业内部各个员工做决策,做决策的目的是要产生商业价值。这个商业价值不仅是为了挣钱,同时还为了这些用户产生价值,而不只是为了公司产生钱的价值。

再讲讲第二步就是金字塔的菱形化的问题,以前做的分析需要两个星期到两个月来回答一个问题,但这是一个最核心的大数据的问题就是慢,没有效率。第一年我在Linkedln工作的时候,作为数学科学家,没日没夜干,我们完成了500多个大小项目,今天为止当我们做了一系列的内部软件化以后,今天我们的系统,每天能够回答120091500人分析的问题,每一个人能同时问10912个问题,你可以想象这个系统基本上比我一年之内的工作的效率还高两到三倍。也就是说规模化是非常非常重要。第三阶段就是数据分析的产品化。Linkedln几年以前产生一个产品推介,包括我跟大家分享在社交或者是销售垂直领域,我们做了销售解决方案,这些产品都是数据分析的产品,把他拿出来之后提供给所有客户,让大家使用,这是我们Linkedln第三阶段的战略,就是数据分析的产品化。第四步就是数据产品的生态化。一个数据产品本身能产生的价值假设一百,第二个数据产品产生的价值往往不是两百,往往可能是280或者是300或者是400,因为他们数据本身之间关系和业务本身关联会产生非常大的迭代,迭代过程中就会产生很多附加值。同时做这个新产品的时候,因为没有必要再从头开始,很可能就是举一反三,这是数据产品矩阵化的重要性。

再举个例子,首先就举个销售例子,这是我们做的,好象在座专业人士知道这个东西。销售人员想卖货,在美国他需要问五个问题,第一个问题他需要向哪个公司销售,有那么多公司,不可能给每个公司都打电话。第二是谁是决策人,第三是如何接洽,第四2500个销售员工让谁接洽这个客户第五个问题这个销售人员去了讲什么故事。以往回答这五个问题,说这些话需要一两个月时间把整个流程搞定,因为这里边包括打电话、沟通,包括联系关系,问问客户基本的需求。今天我们把所有五个步骤做成一个按纽,以前一个月到两个月完成的工作,到今天为止一分钟之内就可以完成。因为所有的公司在Linkedln上面都给你分析出来。第二就是可以找到正确的人去接洽,第三我们分析销售人员的网络,对这个决策者有更大的影响力。第五就是指派不是一个销售人员而是团队帮助协助他工作。第五就是把很清晰的故事讲给客户听,自动生成PPT。这个当时我认为是在2011年我们产生了新的解决方案。当时至少增长了1.75倍,我个人认为当时环境还不太稳定,我相信他对运维还有商业效能增加绝对不是一倍两倍的问题,是若干倍的问题。现在我们做的是钮已经去掉了,把信息推给内部销售员工。

举个例子,谷歌假设一个HR离职了,加入百度,我们产生这样的信息给销售人员。第一个这个客户很可能会离开,因为我们的关系已经离开了,第二个会发给下一个销售人员说,他加入百度,我们会把百度这种新的客户,这些东西都是实时的。

技术角度东西就是把大的金字塔一步一步最后转成小的数据的过程,一步一步转为小、简单、快速、有规模这是基本的概念。还有就是内部如何支持产品经理的,内部我们有80个产品经理,有不到一千个开发人员。他们开发大量产品,我这些新的产品好不好,他对自己的产品的KPI的贡献,哪个更好哪个更差,有统计学的意义。第四,它的产品看似很好,是不是对营收或者是用户体验有好的影响,这很深刻的问题。最后一个问题,在这里的话他如何优化这个页面,优化哪个部分。我们当时又做了一个新的核心。以前做一个这样的分析,需要一个月到三个月时间。因为要数据成熟,数据采集质量,反复分析在统计学上的意义。今天做大规模的自动的产品分析。我们有2000个在线的测试,我们可以为每一个测试追踪500个以上的纬度或者是500以上的KPI。第三大约我们能做200万以上的检验,第四我们帮助这些PM来优化他的产品和流量,指出产品哪个部分是增长或者是减低的原因。基本已经全部自动化,不需要分析师参与了。

Linkedln如何做市场推广,我们用户使用行为,用户简历,用户的社交关系,用户独到内容。我们问一个问题,谁在找工作,3亿用户里不可能全部都在找工作,也许15920%人在找工作。第一我们用使用数据把随机分布的这个变成三角型的结构。在尖上是我们的核心目标客户,底下是几率很低的用户。第二步我们用他的简历来分析一下他会不会找工作,一个人刚换工作两个月,他找工作的几率可能只有10%,但是另外一个人在你公司待了四年他差不多要离开了。第三步就是社交网络的数据,迈克认识约翰,这个组里面,老大撤了,剩下这帮兄弟们团队里,他们找工作的几率我相信远远大于另外一个组织,很稳定的组织。所以说利用社交网络数据再一次把金字塔变的更小、更陡峭、更标准化。

Linkedln内部没有用很传统的方法去做,以前我们用传统的方法做,没日没夜做,太多的需求。我们造一个机器人,这个系统本身来说就是他的工作不断的建造新的预测模型,自动在背后建立新的预测模型。每个星期用大量的数据,用不同的数据分析的方法,各种方法来建模型,建立模型之后,他自动模型来比对现在在线的模型,当他发现有Lift(音译)以后,就会自动到线上去。你有没有信心你去做的东西在未来就有Lift。如果把统计分析或者是数据模型做好的话我们有百分之百的信心。这是做的数据好的人和做的随机预测的人的区别。

这里因为数据本身是不断变革,当我们人力做的时候,他会不断的腐烂,这是以前我在管理中心学到的,树本身是会腐败的。搁一千年他不会说还是那么青翠,一定会腐败。反复做新模型是必要,人力无法满足这么多需求。用机器模型做,人要保证在业务上的增长。

在分析角度来说这朵花漂亮吗?漂亮。用数字表达的话这个花到底有多漂亮?他是60%漂亮?还是80%漂亮或者是10%漂亮。很难讲,我们每天改的东西,不会说谁上来就说3456789,大家都是讲文字,没有人讲数字。这里出来一个非结构化,文本数据我们如何从里面提炼可结构化、可衡量标准。比如说客户服务记录,你打电话愤怒了,我的帐户为什么被关。用户讨论群组大家讲的东西,你这个产品真好,类似文本文字。第三就是Apps评价,再下一个就是客户满意度调研反馈。社交平台的讨论评价等等。这些东西都是原本无序无法衡量的东西,如何做到把非结构化数据衡量客户满意度。

我们在内部建立一个平台,客户的声音,这个客户声音包括客户打电话来客户的声音。我们从那里抽取他讲话的语音,同时来理解客户是不是对这个东西满意,理解完了之后我们要持续追踪。这个满意度是不是在变化?满意度的原因是什么?首页打了之后自动就会变化,大量客户对产品的基本的反馈。他核心的原因,为什么大家喜欢红色和绿色,这个原因都是从语音提炼出来的。各个组织的人都可以用这个系统帮助他们回答这个问题,这样客服不用花那么多时间了。

技术是实现今天大数据规模化的一个基石。美国以前讲自由,咱们不谈这个了,我在美国上学、工作,他把信息推给很多人,美国社会比如说像橄榄球形状,他就是把这个底部慢慢缩小,把中间变大。当大家都有信息了,相对生活可能就更加美好,生活可能会变得更加简单,大家有更多时间和家庭和朋友在一起体会人生的美妙。我基本的演讲结束了,谢谢大家。


 

李志飞

演讲人: 李志飞,中文移动语音搜索出门问问创始人、CEO
演讲题目:移动时代的人工智能梦

大家好,我叫李志飞,刚才前面听到邬贺铨院士的演讲让我很高兴,我觉得无论从学术和对工业界的关注让我们觉得是很有希望的地方。

我现在可能讲的比较大一点,人工智能梦,我首先想讲一个非常大的命题我们人类的未来到底是什么。我不知道大家有没有思考一些问题,这是值得我们每个人深入思考。我想了很久,后来我觉得答案可能是变成机器人。为什么?在北京这种地方空气污染,城市、交通各种问题,你发现人类不太适合在城市当中生存,你变成机器人,反而是更有希望,你是百毒不侵。同时你又有人类智能,这才是我们的未来。这可能是一个玩笑,但是没有那么不靠谱。大家有没有看过一本书就是《G点》,谷歌一个工程总监他预测说在2045年整个科技会达到一个G点,到这个G点的时候他会有某一个突变,有可能科技会变得特别好,解决你所有问题,也有可能毁灭这个人类。这个是有点杞人忧天,科技我们知道没有那么发达。但是我觉得这个趋势可以思考就是以后可能以人的智能分为两部分,一部分就是你生物的智能,上帝给你的,另外一部分就是所谓机器的智能。以后在一定程度上机器智能会超越你本身生物的智能,你的智能是100分,60分是来自机器帮助你达到智能,另外40分是真正的生物的智能。

说到人工智能,接下来讲几个八卦,反映这两个科技的发展的趋势。2013年5月份谷歌收购一个公司DNNresearch,我做过很多调查,基本上没有人听说过这个公司,他花了五千万美金。因为我是一个博士生,我特别想去看一下这个公司到底干什么的。网上搜了一下,我看到这个公司就是一个黑屏的网站,什么都没有。肯定不是黑屏网站能卖五千万美金,后来我自己研究一下,他这个网站其实后面有三个人,一个杰夫,另外两个是博士生,杰夫是深度学习之父,深度学习三架马车之一的一个学术上的教授,谷歌收购这个公司,就是因为他背后这三个人,这三个人对这个深度学习或者是人工智能技术有非常深度的研究,使得谷歌愿意花这么大价钱收购这个公司。

2013年安吉卢比(音译)是谷歌安卓系统整个创始人,他不再担任这个CEO,是不是由于别的CEO上来把他倒掉了。谷歌连续收购了8家机器人公司,是安吉卢比主导这个事情。谷歌收购公司很有意思,2、3、4、5、6、7、8号每天一个公司,全部都是做机器人相关的公司。安吉卢比对机器人特别有兴趣,谷歌收购这个机器人公司,也是为了控制人工智能。安吉卢比再过几个月出现大家的视野中就变成半人半机器,他收购这么多机器人,他自己很想去做谷歌机器人项目的东西。这是第二个例子,谷歌在人工智能方面的布置,谷歌投入非常大。

后来在2014年1月份谷歌又收购一个公司就是DeepMind,是6.5亿美金,我又去仔细研究了一下,我以前也没听说过这个公司,没有任何产品,从来没有听说这个公司,为什么值这么多钱。我研究一下发现这个公司的背景有50多个人,其中30多个是PhDs,没有任何商业产品,有一篇还没有发表的论文,有9页纸,真正的内容就7页纸,算的话1页纸一亿美金,谷歌是怎么算这个的,我想了一下,按每一个PHDs算一下,一共就6亿美金。现在有博士生,回去跟老板说我要加薪了,人家都两千万美金了。

这是谷歌从这三个他在投资并购的故事当看出来全世界最强的科技公司他在人工智能还有机器人方面怎么布局。再看一下谷歌和Facebook,他也收购一个公司,Facebook2013年8月收购机器翻译公司。我不明白Facebook为什么收购这个机器翻译公司,后来明白了,2013年12月Facebook聘YannLeCun,这全部都是一些数学公式,不是人话,他就是为了宣布Facebook把YannLeCun挖过来当人工智能实验室主任。2014年3月,Zuckerberg等投资Vicarious,4千万美金。他上面有几个字就是我们正在制造这个软件,像人类一样的思考跟学习。这个公司大家可以看一下几个人投资是谁,大家可以看到在硅谷或者是在美国对科技特别推崇的地方,他们怎么看整个人工智能的发展以及它的趋势以及他的未来。

后来大家研究一下所有大公司都在研究类似的事情,类似投资和战略,IBM准备投资10亿美金开发完善Watson。人工智能突然火起来了,比如说人工智能他经历了很多冬天,从1966年开始到现在经历好几个阶段,每一个阶段都导致政府、工业业界的人智能投入突然停止了,这是科学家的一个梦,不管遇到什么困难,都会一直尝试,一直在起起伏伏。在90年代以后大家都比较清楚了,有击败人类的项目特征,还有谷歌的无人车挑战,还有加上计算机视觉的东西进来,使人可以看到一些东西。

前面是一个现代硅谷对人工智能技术的关注以及他后面比较曲折的历史。现在讲一下实现人工智能需要什么样的技术,首先你得听得见,我们需要语音识别的技术,你说的话,自动转换文字。第二能思考,他能理解自然语言,有自己学习的能力。他也得看得见,我看到前面是一个桌子或者是一个杯子或者是这一个人。他能够说话,最后是机器人他可以操控。这是实现AI或者是机器人一些最外面的东西,他有一些感知和操控的能力。在后面的话可能有一些更高级的东西,机器人可能会有情感,可能会一起学习,跟人类有一些爱恨情愁,各种各样的东西,这是比较后面的分析。

刚才讲的是这个人工智能需要这么一些技术,其实跟这个会议比较关心就是每一项技术无论是语音识别还是计算机视觉,他都需要这么几个部分,算法、大数据、移动传感器、计算硬件。移动传感器我们做语音识别,麦克风,我们所有的移动时代的设备,麦克风把你的声音录进来,把你的图象传出去,以及各种的体感数据。每个传感器收集很多的数据,这个有用户数据,无论你说话、走路、各种各样的动作。如果说要实现这些人有思考能力、学习能力,后面有一些支持。我们为了训练语音识别系统他有很多训练的指标,这个数据是大量的。我们作一个机器人系统,可能需要几千万的句子才能出一个模型。有了这些数据之后,可能有很多算法对这些数据进行加工。这里有很多计算中心、海量存储还有一些并行机器来做这些事情。语音识别、自然人处理,计算机识别或者是别的智能推理都需要这四个来支持。

我最后想总结一下,前一阵子有这么一个段子,以前的硬件公司,IBM,他突然发现软件发展很厉害,他为了应对软件的发展,他专门成立了一个软件部门。后来像微软这样的公司,他为了应对互联网的发展,成立了互联网部门。互联网公司谷歌为了应对移动互联网发展,他成立了移动互联网部门。移动互联网公司为了应对现在的硬件发展,他成立了硬件部门。这是在转圈一样,是更高级的阶段,现在的硬件可能是智能的。我觉得这个可能未来下一个趋势所有这个公司都是必须有这么一个人工智能部门或者是大数据处理的部门。因为我们移动时代有很多硬件,有很多数据你必须做很多处理,移动时代交互很方便,需要有语音识别还有自然人的理解。

介绍一下出门问问,出门问问是一个创业公司,我们是中国红杉资本等投的,我们做语音搜索,我们拥有自己的语音识别技术,语义分析以及语音搜索与第三方应用对接数据,现在有安卓版本也有微信公众帐号。

我现在需要切换到手机上去,通过蓝牙,这是我的谷歌眼镜通过蓝牙用手机连起来,然后再跟电脑连起来,然后再投到大屏上去。其实我刚才来的时候已经试了很多Wifi、3G、4G,其实在这里面都不行,最后我们自己带了一个服务器来,其实我现在所有数据不是通过云端,而是通过我们本地的服务器,我现在谷歌眼镜正在启动。大家现在可以看到这个屏幕上看到的东西就是我在眼镜上看到的东西。大家有兴趣,我可以现场一个个展示给大家。


 

圆桌讨论:大数据与移动互联网

讨论嘉宾:
李志飞, 出门问问创始人、首席执行官
陈伟星, 泛城科技、快的打车创始人
江宏, AVOS Cloud首席执行官
李曦, 乐视集团大数据副总裁
王琼, 海纳亚洲创投基金合伙人

主持人王琼:首先我证明一下李志飞的应用非常好,也是老王卖瓜,而且在他的实验室里面测试过很多很有意思的云对话。

今天我很高兴有机会应彭晨邀请组织这样的论坛,首先大数据和移动互联网作为专题被放在第一项,可以看出来大数据和移动互联网本身他之间的联系紧密度。我觉得在大家的现代生活中,手机不离身,从早上起床到晚上睡觉手机不离。在移动互联网的时代当中实际上给我们在PC时代当中数据量大大增加了,我相信每一个人都有所感受。今天我们的主题,几位嘉宾,我想先请几位嘉宾各自介绍一下他们的公司,他们的公司和和大数据以及移动互联网的主题的相关性,他们都在为大家做些什么。接下来还有一些有意思的话题,希望各位有一些干货跟各位听众分享。

李志飞:我们公司前面介绍一下我们主要是做语音搜索的应用,现在在安卓、微信公众帐号还有GoogleGlass,我们公司跟大数据有关的,我觉得主要是两部分,一部分就是我们本身前面提到了语音识别或者是自然人深度学习也好,我们需要大量的术语来训练。语音识别系统需要训练适应普通话,有方言,需要大量样本数据放到我们那里去理解各种各样人的场景和口音,训练数据,这是非常典型的大数据的运算。涉及到存储和计算。

第二我们是一个移动应用,我们前面提到他是利用到GPS传感器,他每时每刻他都在搜集很多数据,无论是你的地理位置还是你最后点击了什么,到底点了哪一个结果,每天用户都会产生很多数据,我们把他放到后台做处理,这就成为我们的大数据的两个相关技术。

江宏:我们的产品是AVOS! Cloud,我们的服务包括数据存储,推送还有等级分析这几部分。可能跟今天的议题关联最紧是统计分析这块。大数据其实最重要一点是体现在我们现在把数据存储起来都来计算和分析的时候,现在用我们的分析工具可以得到一些关于某些应用的数据总体的信息,也可以针对某一个用户群,甚至单个用户进行最终的分析。可以根据这些非常细致的数据去在功能上面得到体现。

我举一个非常简单每个人都用到的例子,你在用一个移动应用的时候,可能你用就会弹出一个对话框,觉得我们用的好,可以给我们评一个五星级,那个对话框弹出来,时机很重要。对一个什么样的人,用户什么时间弹出对话框,他给你一个评价,给你一个好评价这样的态度会最大,这是非常有学问。他需要从用户数据当中选择这个时机。

另外在我们后台存储很多应用,怎么样去挖掘这些数据的价值,并且能够探索一些与开发者共赢的开发模式,也是我们未来面临的挑战,也可以是一个很大的机遇。

陈伟星:大家好,我们做打车的,大数据我想了很久,其实我不是那么理解,我们现在每天积累那么多数据,知道用户需要什么。

我一直有一个观点就是大数据只是那种工具,用户自己需要什么服务,他应该是最关键的东西。可以探讨一些到底通过大数据怎么给用户提供更好的服务,这些做不到,大数据可能还只能是用来做研究,给未来提供一些好的服务。

李曦:我叫李曦,非常高兴来到这,乐视是包括平台、内容、终端、应用的一个技术公司,乐视最多还是在线视频,还有我们的超级电视。跟今天有关的大数据的相关,我觉得我们做的过程,业界大家都在做的主要是通过大数据,在用户体验方面有一些尝试还有产品方面尝试。

对于视频网站本身,做的最多还是内容的深度挖掘。通过海量用户的海量数据,把内容的标签转移到用户身上去,这样更好的为用户提供个性化的服务。这几天在个性化推荐上,也体现出广告的精准。

主持人王琼:我们在各个领域上都懂一点,可能知道大数据这几个词,我也专门去查了一下大数据是怎么定义的。因为实际上说如果有很多很多的数据,在这么多年的历史过程当中,从开始记载到后来磁盘上的信息,数据量是不少的。为什么现在最近这几年大数据作为新的概念被提出来。这个时候就去查了查,做了一些自己的科普工作,看到了可能大家认为的大数据有四个特点,四个B,这四个B很有意思,针对这四个B我想跟各位,其实有一些东西跟你的公司相关、业务相关,如果完全不相关,作为消费者或者是使用者来讲也可以谈谈自己的观点,今天大家就是探讨。

第一个叫做规模大,刚才我也提到了规模大,实际上在人类历史上积累到今天,数据规模是非常非常大的。今天我们数据规模的增长量大概有多大?他每天新增的数据量和过去有什么巨大的变化,你们是每个公司的创始人或者是公司的最主要的技术的领头人,你们的脑海中比如说从2013年新产生的数据量大概有多大,可以记录下来的数据量有多少?大家有没有这样的一个概念,他的新增量是什么。大家想想这个问题,为什么现在大数据变成了被大家关注的话题。

李志飞:我不知道2013年总共有多少数据,但是那样的话可以举一个跟我们相关的例子,做语音识别,比如在移动时代之前,有五百、六百小时的数据,非常快。当时搜集数据,我们需要找人在特定的非常安静的会议室里面录音,为了保证样本的多样性,做方言。在移动时代之前,那时候五六百小时很大的数据,现在我们很小的公司,随随便便语音识别几百个小时。移动时代或者是新的时代跟以前不一样了,现在搜集数据太简单了,我每个手机都有麦克风,我们自己的定义,用户自己使用,在各种场景下,在地铁、公交上,吃饭的地方,还有各种各样的人群,有老人、小孩、男的、女的,因为硬件的普及,尤其是移动硬件的普及,使得你搜集数据远远超过十年前。以前你搜集500小时非常难,要花很多钱买,现在搜集500小时,一两天就可以搜集到。这是为什么大数据在新的时代跟以前不一样。

江宏:我觉得其实大数据的信息比移动互联网的信息在时间上是高度重合,不是一个巧合。我们回头看整个互联网的发展,其实在开始有互联网或者说开始有流量的时候,一开始几乎所有网站,所有网站都看自己的发布内容,用户主要是去消化这些内容。然后到Web2.0的时候,逐渐参与内容的创造当中去,有一些Web2.0的网站兴起。这些信息的搜集和产生的门槛就降低了。到移动互联网兴起的时候,这个门槛在进一步的降低,你手机上面如果装了任何不管是移动健康类也好这些应用,可能你每天带着手机走来走去,举手投足,每时每刻都在产生一些数据,都会被这些应用记录下来被他们传到云端,用于各种各样的用途。所以我觉得大数据的兴起应该说跟对信息的产生和采集的门槛降低是在同步发生。同时当然我们的技术也在不断的发展,现在我们也有技术去把所有这些技术都存储下来,并且我们处理他,应该说所有这些都是相关的。

陈伟星:数据一上来就是挺多的,大部分是IT技术,现在好的是我们搜集数据的工具比较好,有一个智能设备就可以来做,家庭设备也越来越智能,随身带的设备越来越多,不光是手机,可以搜集到很多更加有效的数据。我觉得比如说我们每个人的信用卡都是有数据的,有消费记录,线下的消费记录。有一些记录原来是不在线,现在变得在线。我觉得绝大部分的数据都是垃圾的,占用了资源,像我们互联网公司死掉的公司有90%,每个公司的硬盘都没用。去采集一些什么样的信息有用呢?从服务的角度,采集一些用户的吃穿住行医药、教育相关的东西,把线下的数据和线上的数据很好的对应。

你这个数据怎么样,什么样的数据是有用的,这个比数据本身要重要的多。我看过美国有一个说大数据就像十来岁孩子,大家都觉得自己懂,大家都觉得自己正在做,其实谁都不知道。我们公司每天积累几百万、几千万的出行数据,积累那么长时间。我们能不能用这个数据把用户未来出行更方便,这个是很难解的题。其他我们的数据怎么用到别的地方去,我提一些思考的路径。

李曦:确实我们的数据的增长量很多时候,很多数据我们不知道怎么用,我们不知道这些数据有什么价值。其实现在很好是数据挖掘的人才是缺失的。数据像挖掘的资源,他必须有人去挖掘他才得以体现。从公司角度来讲,这些数据我们做了什么挖掘呢,计算我们视频播放时候的数据,来自全国每个城市的IP,最后是往上走。因为现在存储的成本相对来说是很低的,以后有一些好的算法,把作弊,像这种跟我们有关系的这种,我相信还是他有他的价值。!

主持人王琼:刚才我听到各位谈到了,我看过一个数据就是1.3Z,我不知道Z怎么表达?是多少?其实刚才是一个非常庞大,在去年大家能够大概估算出来的量级,过去实际上我们就有大量的数据产生,即使在没有我们去处理他能力的情况下,也都会有很多传统企业我们有很多数据,我们真的不知道怎么去用他,我们先放到这,也许他是有价值的。

当然移动互联网的兴起,加上移动终端各式各样的新的传感器,使得数据种类增加了很多。过去是文字类东西,现在数据的形式到数据不仅是记录类型的数据,像体征数据也会被记录。数据量级极度被增量,爆发。各个企业在他的运营的过程当中,在每个运营环节大家也会增加很多收集数据的节点,原因是希望在整个企业的运营过程都能更加的提高效率,所以这数据量会急剧增加。

刚才快的伟星提到了他一直在强调说数据一定要为用户服务,我也想听听大家来发散一下思维,第一你们现在手上搜集一些数据,有哪些能为用户提供一些现在看不到的服务,至少现在还是没有人提供的,也许你的数据没有被用到。但是我现在手上搜集这些数据,将来可以提供到这样的一种服务。大家能够发散一下这样的思维,想想。

还有一个想问因为你们除了收到企业后台的数据,你们怎么能搜集用户除了他点播的行为,你们现在还是没有办法通过摇控器搜集,比如他在选择这个影视节目的时候的时间等等,你们现在能搜集到这个数据吗?

李曦:这个数据可以搜集到,他的行为是理论分析行为。

王琼:你们现在在搜集这个数据吗?

李曦:现在我们其实是有监控用户的观看时长,应该有80分钟以上,我们的用户。因为乐视在这方面做的还是比较有优势。

王琼:假设这块能为将来明年或者是今年下半年为用户推进什么样的服务,基于用户,电视观众他的行为能够为他提供一个什么现在还不存在的服务?

李曦:这个问题问的很好,我们最近也在思考,很有意思就是湖南台决定拍的内容,自己的视频,芒果这边在做。我们有很多版权优势,也是互联网视频公司。在这方面,其实我们自己相对业界其他的视频公司来说,在自制能力有一定的宪法优势。自制,大家听说过百度,他能够分析它的受众喜欢什么样的导演、什么样的演员拍的电影。纸牌屋大数据有一点点被神话了,至少对他的用户来说,他认为他投资这个是不会亏的。总的来说体现了大数据的价值,在他们的应用过程,他们喜欢什么样的题材,什么样的演员,什么样的导演,什么样的电视剧或者是电影。其实我们在这方面具有一些优势,形成我们自制很方便,大家可以慢慢看,这个也是一个思考。

王琼:有可能我们会看到在不远的将来可以看到乐视提供的一个观众互动的电视题材,大家来预测他的剧情发展,谁和谁分手了,谁爱上谁了。

李曦:我觉得现在正在崛起,主要是带宽的原因,社交化,短视频也好或者是更多的视频化的趋势。我们其实也是在怎么跟用户有更多的互动,让用户参与。像这种互动,也会是机遇。

王琼:伟星讲讲你们的快的,将来给大家提供什么样的更欣喜的内容?

陈伟星:我们也正在研究,我自己发散一下我对大数据的一些看法,比如说我曾经想过到底能不能永生,永远不死。我思考了一下,人是分好几个结构,我们有一大堆细胞,每天一些细胞死,一些细胞生出来。我们死亡是因为脑死亡,逻辑死亡,并不是记忆死亡。人活着是脑子活着就算活着,脑子里面的东西都是数据,有你的记忆,有你的思考方式,也有身体上的各个思考方式。大数据下来,有一天我们计算能力很强,我知道这个人的行为习惯,反应方式,他的代号,他认识的人,他皮肤颜色,他喜欢买的物品。我有足够多的数据,我们几十年以后我们父母不在世,你打开这个电脑就可以看到你的父母的样子在那里,他的声音在那里,他喜爱什么他都告诉你,偶尔说我女儿今天想吃什么,这是一个虚拟世界。如果这个世界存在的话,他肯定是需要很多数据。

每件事情都是不存在,他本质上不做决策。所有这个人,已经不在这个世界上的人,他下一步该做什么,都是计算好的。如果有足够数据的话,我们是不是能预测这个世界的人他到底想干什么,因为他数据足够庞大,你没有办法预测他的随机性。我数据采集了他曾经喜欢吃很多水果,他食物里面各种成分,脂肪,氨基酸,我预测他今天晚上想吃什么。我们想象一下如果有这样一个世界的话,在座我们今天这个会议在100年以后可以重现一点。曾经的历史上做大数据怎么说的,也许我今天说的这些话,100年以后重现这个世界的时候,我可能有新的话可以说。我想预测一个人的行为的时候,这个大数据我认为是比较极致的作用。

另外我觉得大数据做决策,我们这个世界就是分两类人,一类是被服务者,一类是提供服务的人,提供服务的人他要创造更多决策。是不是数据产生更多的时候,不用做决策了。你说做投资,都是重筹,可以有数据分析这个项目,分析出来风险是20%,他数据出来都是准的。每个人想要投资的时候,他想做的就是风险系数加上投资回报率。我们不需要专门做决策中间的机构,这也是一个极致。

我们现在用的无非是这两个方向,预测他一个行为的下一个步骤,我把他需要的服务推翻在前面,你可能预测是我今天做这个决策你有多少个数据来支撑我,这个数据做的慢慢更正确。随便讲讲。

江宏:刚才另外两位嘉宾都提到的现在有非常多的数据是没有被发觉出价值来,可能最根本的原因不是说数据本身没有价值,而是说我们没有办法去理解他这个意义,所以没有办法发掘出价值。这个对我们来说在后面的路上也是一个比较大的问题,对我们来说比较突出,我们存储的是不同应用的数据,这些数据是结构化,但是他们的结构又是都不相同的。因为每一个应用的数据他的结构是由应用开发者直接应用。所以这样都是非常有意义的数据,因为他们结构不同,所以我们没有办法作为一个平台去对他们信息更多的利用。

大家如果是有关注苹果的WWBC的话,我觉得他最大的意义不在于他发布,也不在于他新发布的思维和语言,而在于他新发布的三个跟云端数据相关的。(英文)分别是用来存储家居以及智能家居以及健康类数据,按照不同的垂直领域,我相信他之后会涉及其他的。我相信在未来几年之中,我们会成为在大数据里面举足轻重的公司。苹果是非常强势渠道,非常强势平台,我相信任何一个其他的平台都很难去完全的复制他的一些做法,我觉得这是一个可能其他平台可以借鉴的方式,带有推荐功能应用,对推荐来说最难的问题是自动。新用户进来,你怎么去推荐,怎么把他喜欢的商品和视频推荐给他,通常做法就是通过一些微博帐号,把他的数据倒过来。一个新应用进来,这个平台可以把他的这个用户在其他应用当中接下去可以告诉这个用户,可以帮助他去解决这新的问题。

王琼:这个非常好,像快的打车有这么多用户行为数据,如果跟出门问问对接的话,就会有很多想象的空间。

李志飞:有的,我想正面回答一下你这个问题,如果有大数据到底能够产生什么样的服务让用户觉得很惊讶。出门问问是一个问题回答或者是帮你做事情的工具。我们一切希望用大数据能够回答一些你认为我回答不了的问题。我的用户一上来就问我是男的还是女的,我今年多大,我是哪里人,其实我们是通过机器学的方法以后可以对你的声音进行识别,知道你是男的是女的,是湖南还是湖北还是江西人,这是一些例子。还有例子,有的人,彭晨有一个女孩子喜欢他,他很帅,我们看多有一些科学理论就会问彭晨有没有对象,这个是调戏你,他觉得你回答不了。我们通过这个数据,彭晨也是我们用户,我们对他的行为可以猜测他有没有对象。另外一个用户问我们彭晨有没有对象,我可以告诉你,他有没有对象。还有人莫名其妙说我要回家,我们出门问问也会导航,他说我要上班或者是我要回家。现在这个问题是,因为他从来没告诉过我们他的上班的地方在哪,回家的地方在哪,通过后台数据可以定他的家在哪,他上班的地方在哪。突然有一天他调戏我们这个应用,我知道你们不行。他突然说我要回家,立马给他出他导航路线。如果用户行为,再加上我们智能的机器学习,可以做到很多惊喜给用户。他就是在调戏你,尤其我们是语音的东西,他是调戏你,觉得你比他自己都懂,这些都有可能。这是我们想象以后可能会深化一些用户的东西。

王琼:其实刚才大家都谈到了将来如果我们有很多的数据的积累,接下来有很好的这样子的一个数据的运算和数据处理能力。当然需要很多像你的2000万的PHD开发出各种各样的数据模型,然后就能够去预测很多事情。这些预测有些是拿这些数据为另外一些用户预测,有些是拿自己数据为自己预测。有些是拿其他的企业或者是综合性一些数据,为某些企业进行这样子的预测。这些预测,我们可以感觉到,刚才讲到了4个B,各式各样的数据类型,提供信息等等等等。第三个B就是就是速度,其实速度的前提是说运算速度,硬件设备已经很厉害了,真正能够处理大数据在于算法。在我们看到跟美国同行相比,我们从投资界角度来看,看到中国在这些方面的创业企业相对来讲还是要少的多得多。大部分企业还都没有真正的有这样的能力或者说没有这么多团队能够真正的坐下来去做更多的数据挖掘、数据处理。

陈伟星:我打断一下,技术不是太难的问题。我觉得现在技术,技术的进步永远是看市场的需求,我不认为技术是最大的问题,我觉得最大的问题还是在于其实我们对用户还没有足够的了解。我们这个数据到底怎么样去使用他。

王琼:难道这不是技术吗,你说技术不是问题,你怎么了解你的用户,这一句话实际上就是说技术。

陈伟星:这是一种感觉,这种感觉是要设计社会未来结构是怎么样的,设计去理解用户需要什么,来去设计他的整个软件的运作的流程,最后得出做决策。数据本身,他有很多基础结构,他需要很大投入,有足够效率才可以做。未来会变成技术结构,像阿里这样的公司未来大数据一次开放,他变成一个通道,只有这样才可以实现马云的百年梦想。我们看到中国收购很多博士的那家公司,不是那么多博士值那么多钱,而是因为他本身拥有一些专利,不见得他一定是实际的商业价值,可能是因为战争的需要,专利被进来了,也可能是实在招不到人。大数据另外一点,每天搞那么多数据,手机我经常看,有很多数据。

李志飞:这种真的大的创新技术很重要。很高兴例子,在美国无论是计算机还是互联网,还是新的可穿戴设备,很多情况下都是美国军方项目出来。做语音识别、机器翻译,很多都是美国政府或者是美国军方在支持这么一个项目,这是非常重要的,需要大量博士、教授研究,以前翻译一个句子需要5分钟,现在500毫秒就可以做到。做大的创新肯定是技术能够驱动,技术是驱动整个大的创新的动力。在中国我很悲观,我并不认为这种大公司有技术创新能力,他已经有现有的业务,他很难跳出自己的思维方式。不像谷歌一样,本来做搜索引擎公司,突然去做无人驾驶或者是谷歌眼镜,表面来看这跟搜索没有什么关系。大家明白一个道理,以后无人驾驶普及,我不需要开车了,我的时间拿来干什么,上网,谷歌实际就是广告公司,你上网他就可以产生商业上的收入。你可以看到像谷歌这样的公司,他在自己做这个投入,还是非常非常大,而且是非常大的目标,这也是为什么现在在硅谷谷歌就是高科技的典范,他一直能够持续保证他的新的增长,这反而就是谷歌特别特别重视技术的一个公司。

不是说技术是唯一的驱动创新的来源,苹果可能就是自己不做技术,但是整个做设计,那是另外一种驱动创新的方式。我想强调一下技术还是得不到最好,只有新的技术才能推动新的商业模式和新的应用场景。

陈伟星:我刚才也说了技术的进步会比市场需求快很多,很多科研机构在现在的研究,跟上国际以后怎么生存。我觉得技术是足够的。当你真正想要一个技术的时候,像快的打车,我们招技术人员肯定好招。为什么像我们并不是说招了一大堆的技术,我招了100个博士来。我给司机贴钱,我认为有了用户之后,就是怎么样去使用。

技术未来一定是以人的情感和感觉越近的东西越需要,以生产制造越近的东西,他越会被具体化。像造汽车,那么多汽车公司,技术变成越来越基础的东西,技术商业模式就去打专利战,把你某项技术做更极致,把专利都包下来。等他们那边想干的时候,只能买你的专利。

我们还是要了解用户,知道每一个技术。苹果不是做技术,他只不过以设计驱动。我并不否认技术是非常重要的,我们希望我们身边有很多人多是非常优秀的人。我更希望的是做技术的人,我们应该是为越来越多的有感觉的人去提供一个好的服务。你们想做什么不用担心没有技术不行,技术我来提供。更多的创业公司更加的妥善处理。

江宏:你说的就是我们,我们就是为创业者提供服务的。

王琼:今天很高兴和大家一起进行了一些发散思维的探讨,我非常同意各位的观点,大数据的产生是由于我们有更多的价值的采集方式,企业也有更大的需求来采集更多的数据,为他将来更好的业务在进一步当中进行服务。对人们来讲,企业是希望说给人们提供更贴近他人的这样的服务。所以我想数据量可以不断在增加,我们的生活会越来越被这些数据包裹。

最近有一个很有意思的笑话就是说有一个人打电话匹萨店,要一个披萨,我要一个肉肠匹萨,他说你不能吃这个了,你是血压高、血脂高,还是吃全素匹萨吧。他说我用信用卡支付,不行,你信用卡已经透支三个月,不能再用信用卡。我用现金支付,现金支付根据我们的定位,你手上应该没有什么现金,周围也没有ATM机等等,最后他也没吃到匹萨。未来就是打开电视机,今天你只能看这个,这个最适合你。将来未来的生活我们周围所有事情会变得更聪明,节省我们的时间。
感谢各位。


 

苏萌

演讲人: 苏萌,百分点科技董事长
演讲题目:大数据时代的智慧商业

苏萌:大家上午好,我是百分点的苏萌,今天很高兴受到了邀请来进入会场和大家分享一下我们百分点以及我们所用的技术,大数据的应用是怎么做的。

简单介绍我的大数据的经历,我97年去美国在美国读博士,过去14年里接触到数据,在我们读博士过程当中做过几个当时认为很大的数据,现在认为非常小的数据。一个是美国运通卡的数据,我们做的方向是依据很海量数据对消费者进行预测。当时我们预测什么样的人,什么样的行为在未来三到六个月之内他可能会在运通卡的消费金额会上升或者是下降。他未来两到三年之内它的商业价值如何。

还做了更有意思的数据,当时美国杜克大学,美国前六大电信运营商把所有数据都透出来,给业界、学界这些专家,大家来通过已有数据来预测说什么样的人会流失,当年在美国00、01年的时候,美国手机市场的人口红利严重的下降了。所有手机厂商和运营商他们关心哪些用户可能会被挖走,像中国的现在移动会担心什么样的客户可能会被联通挖走,电信会担心什么样的客户可能会被移动挖走,用什么样的方式挖走,担心哪些用户流失,哪些用户不流失。如果用户会流失,我们会做解决方案,我们做的是这样的数据分析。

06年回国开始接触到中国越来越多的企业接触一些数据,我们手里有一些数据,真正有了大数据的概念我认为是从2011年开始重置大数据行业。今天简单跟大家分享一下我们是怎么做的,我们一些粗浅的一些理解。

现在很多人都知道大数据的概念,很多企业认为大数据是有价值,大数据是重要的资产,怎么样让这个大数据进行落地,我今天跟大家分享一下我的做法。

首先我想用两分钟介绍一下我们看到的大数据应用的市场三个趋势。首先我们认为大数据一定会沿着垂直领域进行深入。我们不相信会有一种通用的大数据技术、大数据解决方案适应不同的行业。包括我们做的电商行业,我们做的线下零售行业和汽车行业。在制造业里面我们所服务像家电制造业和汽车制造业是完全不一样的数据结构,他们企业不需求数据也不一样。大数据应用一定是沿着垂直行业进行深入。前几天我们看到百度李彦宏提出来百度的大数据的战略,首先他提到了百度数据之后是百度数据工厂以及百度大脑,其实就是通过数据服务,大数据的企业软件市场提供持出来。我感觉百度是想做通用型的大数据解决方案,我认为大数据真正的解决方案是沿着行业进行垂直深入的。

垂直领域我们认为两个方向可能是让企业目前来说最容易看到的应用,一个是营销应用,包括用大数据更精准获取新的客户,更低成本获取新客户,第二就是企业的运营支持。第二大趋势就是大数据在企业级的软件市场将会有更多的突破。我们今天看到很多的非常优秀的科技人才,创业者,包括我们看到云的智能处理,语音识别的这样一些企业。我们认为在大数据里面会有很多这样的企业,我们也是其中的一环。在中国本土的企业能够代替之前IBM、Oracle这样大企业软件市场。从服务角度我们认为有三种,包括私有云、公有云和混合云方式,他们对数据流动性起到不同的作用。

提到数据流动性,我们认为大数据第三个趋势就是数据融通。如果数据不能够在企业之间进行流转,每个企业都是一个数据孤岛。我们希望有一种方法能够在企业数据孤岛之间建立起桥梁,让企业数据在企业内部和企业之间能够流动。同时我们保证用户隐私和数据安全。数据融通,包括地方的数据,企业自己内部的数据。第二方就是企业和合作伙伴共享的数据,第三方数据就是企业外部的数据。

我们所服务的企业,我们讲一下大数据之痛,从流量的企业,很多买来的流量很多是垃圾。我们想把在军事论坛里的流量引到化妆品、护肤品是错的。还有转化,用户来到网站很快跳走。用户如果在进入你网站之后连续三个点击之内不能够找到他感兴趣的商品,他跳出的是95%。第三是长尾的商品很难展示出来,很多用户买一次不就再买了,这是我们看到的问题。企业数据扩展,企业自身的数据量是有限的。数据类型有限的,同时我们对于用户偏好有限的。我买3C,会上京东买,京东商城看到我的偏好只是基于我对3C电器的偏好,我买一些食品,家用品会上1号店买,1号店看到我在生活用品上的偏好。买服装可能去凡客,每个企业看到都是一个角度,数据其实每个企业都是不完整的。

企业的技术之痛主要表现在开发数据应用缺乏技术,数据处理和建设数据平台。越来越多的企业家会认识到说数据是一种重要的资产。怎么把这个资产调整好,把这个资产发挥出价值,怎么把这个资产沉淀到我们自己已有的数据平台里面,以及和外部数据进行对接。目前这样的技术我们都是严重的缺乏,

我介绍一下我们百分点的大数据解决方案,我们从三个角度,第一是大数据的技术,再往上是数据管理,然后是大数据应用。数据管理分为两个管理,大部分企业是通用,一个是企业的用户管理,一个是企业的商品管理,对媒体来说是企业的信息管理。大数据包括以营销为主的自动化的营销,包括用户的偏好和用户的洞察,这些都是我们做的个性化的推荐的应用。我们在线上零售、金融、证券,比如说证券,现在一个问题就是我们和一家很大的机构来合作解决他的问题就是用户上一个证券网站,不知道该买什么股票。我们会告诉你说跟您股票配置类似的人正在买什么股票,给你提建议,这是实时对你信息进行挖掘。

我们先讲大数据应用,我们所说的包括用户画像,宏观用户画像,微观用户画像,包括一套数据抓取系统等。简单介绍我们的百分点做了五年最核心我们的推荐系统,在我们做推荐引擎的时候当时没有大数据的概念,我们所做的是通过底层的数据抓取,基础设施,我们在实时分析用户在这个场景是什么,目的是什么,用户不同的人访问,有的人是想逛逛,有的是真的想买。规则引擎,我们通过给用户购买的偏好来给一些规则,通过大量的算法,通过用户自己的行为偏好以及跟他类似的群体智慧实时给我们用户,提高用户体验,实时推送他感兴趣的商品和信息,通过各种渠道展示出来。

第二个系统就是个性化自动化营销系统。一个用户比如进入了1号店,看到一款笔记本电脑,上个月看了一次,还在看笔记本电脑,还没买,这个用户支付意愿可能是低于他的价格,我们可以给他一个邮件来告诉你说你在未来商场之内买笔记本可以给你一个折扣。还有大数据的洞察系统,包括用户画像,聚类分析以及我们运营决策一套系统。提到大数据管理我们有两个方向,用户管理和商品管理。用户管理包括我们访客整个漏斗型的管理,包括会员体量管理,从兴趣偏好、购物意图、购物场景、消费周期。大数据技术我们包括相似度计算、推荐算法等等,不详细讲了。实时响应的大数据处理能力上我们都有一定的探索,我们目前超大规模的实时处理能力,响应时间是0.1秒,实时性是大数据时代非常重要的特征。我们实时捕捉用户在这里的意图,实时向他推荐和展示用户最感兴趣的商品和资讯,打造信息流,这是我们大数据的应用方向。

在全网打通用户偏好,目前覆盖70%的网络用户,预测出来用户衣食住行各个领域的相互偏好,给出权重,告诉用户不喜欢什么。

我们在我们整个产品的解决方案,包括我们DMP个性化的,我们有分析引擎、推荐引擎,以及个性化的微信,个性化的邮件,不同用户的邮件内容不一样。不同用户在微信之间受到的信息是不同的,推荐商品也是不一样的。包括我们数据扩展,我们在为4.5亿网民用户提供服务。最后一块就是为大量企业级客户提供数据管家服务。

我们技术解决方案,数据采集、数据管理,我们自己自主开发的组件和一些组合。这是三层架构体系,底层是技术,中层是大数据管理,最上层是应用为主。

这是介绍我们百分点大数据的商业价值,我们目前推荐产生年销售金额50亿元,全网订单贡献量4000万个。我们推荐产生的同比增长18倍。百分点所服务的日活跃独立用户超过三千万,我们为4.5亿用户建立用户画像,同时我们自己建立一个比较完整的大数据商品调查体系,给我一个商品,我知道在什么品类里,可以找出来。右侧是我们用大数据技术和大数据来证明的一些效果,包括我们推荐的转化率,有些高转化率非常高,高转化率60%。包括我们对于商品品类数的提高和全网的订单的占比提高。最后就是我们百分点,我们希望在给企业提供技术服务过程当中,我们希望让数据流动来引领效率社会。我们坚信在大数据时代,数据如果不能够有流动性的话,这个数据是无法发挥真正的价值。我们希望这个数据可以保证用户隐私和数据安全的情况下,能够被更多企业所交叉和复用。第二把大数据的数据开放出来,让更多企业能够利用我们的开放,推动智慧商业,今天分享到这里,谢谢大家。


 

圆桌讨论:大数据和智能商务

讨论嘉宾:
苏萌, 百分点董事长
宣晓华,华院数据创始人、董事长
沈学华, 品友互动首席技术官
张首华,时趣首席技术官
汤维维, 福布斯中文网副主编

主持人汤维维:很高兴来到这里跟大家一起聊大数据这个话题,在我们进行这场圆桌论坛之前,我想请各位嘉宾自我介绍一下,我叫汤维维,来自福布斯中文网。很多人认为福布斯是跟富豪榜、财富相关的东西。为什么我在这里,我要自我广告一下,福布斯中文网有很多内容是来自于对于前沿科技、创新一些关注,我们也有关于大数据的很多内容。这是我为什么有兴趣,非常好奇坐在这里提问题。
我和容幸是福布斯30岁以下创业者项目的负责人,和美国发觉未来最有前沿、最有颠覆的创业者,我们美国有扎跟克伯格,希望在中国找到扎克伯格,未来五年找到扎克伯格机会就在大数据。
下面请各位自我介绍一下。

张首华:大家好,我是来自时趣的张首华,首先感谢大会的组织者给了我这个机会跟大家交流大数据的话题。时趣成立2010年,专注于新媒体和社会化媒体方面的营销,我们是为企业提供新媒体和社会化媒体方面整合营销的解决方案,其中就包括像大型的活动,品牌的宣传推广策划,包括投放执行,包括数据的监测。
今天想分享一个小的社会化营销一个小案例。社会化营销这个概念在这几年也被炒的很火,微博上我记得比较火的一次是12年还是11次那个案例,一直到小米到越来越多的好的成功案例,大家很多都会感觉到社会化营销给企业带来翻天覆地的变化。
我分享一个小的案例,特别特别小,跟大的案例可能没法比,但是社会化营销,因为我在中国现在的市场来说已经发展的非常的好,需求其实是非常旺盛,我们有一个就是中小企业的产品,有一个婚纱摄影的记录,他之前其实没有社会化营销方面的相关帮助的时候,基本上这个客户来源就是在互联网方面来源就是以百度的关键字火爆为主。他们在尝试找新的方向。互联网给他们提供一些软件和小的解决方案的咨询服务,他们整体把百度广告上面花费的钱都挪到社会化媒体,像新浪微博,腾讯微博,人人网等等,发现整个投入产出比比之前要大的多,这是一个小的分享,一个小故事。我分享一个大家都知道的案例,介绍一下相关的东西,谢谢大家。

沈学华:大家好,我是品友互动的首席技术官沈学华,我们是数据驱动广泛的技术公司,是程序化购买广告新形式的在中国的引领者。我们产品专注于两个方面,一个是ESP,用户管理数据。我个人负责三个方面,一个是工程,一个是产品,一个是数据,尤其是数据这几年把它放到了重要的位置。

宣晓华:我是华院数据的宣晓华,我们是集数据分析挖掘配合大数据的应用行为。我们华院数据有十年以上,主要是在往大的企业,包括运营商,金融、保险和其他的零售企业推动应用。在智能营销和CRM还有信用风险管理。还有一些其他的行业,包括关注的医疗健康和智慧城市。基于解决方案和数据挖掘的建模,对于一些小的企业,包括我们有一些对网商、对电商的企业基于对云模式的产品服务。

苏萌:我简单介绍一下,我是百分点的苏萌,我们是一家做推荐引擎的公司,在09年成立,目前在北京,我们主要研发产品就是百分点的分析引擎和推荐引擎。我们服务电商和媒体,实时挖掘和预测消费者偏好,给他展示出来他感兴趣的商品,提高用户体验和用户转化。
从去年我们发布B轮融资之后,开始给我们的企业提供相当于数据管家的大数据的整体解决方案,还有整个数据的架构,怎么管理数据,以及我们之前做的应用,整体的移动解决方案,提供重量级的解决客户。

汤维维:谈到智能商务这个话题,我问你们一个问题,你认为大数据是什么?用一两句话说一下。

张首华:这个蛮难的,我觉得大数据是一个体系,因为囊括了技术、专业领域的知识包括一些有信息和数据交换的机制,他是非常庞大和复杂的体系,一两句话真的很难全概括出来,这是我的感觉。

沈学华:我个人做技术的,我感觉大数据就是数据很多,从以前很少的数据到后来海量的数据,第一数据很多,第二数据很多带来的数据的处理,数据的挖掘,以及数据的应用带来新的问题,新的平台,新的挑战。

宣晓华:商务是更低的成本产生更高的收益,大数据本身是智能商务里面主要还是看怎么提 升整体的运营效率和管理效率,这个就包括了怎么样如何做这个决策,怎么样更好,有更低价的方式取得更高收益。

苏萌:从商业角度,我认为数据是资产,可以是无形或者是有形的资产。从人文角度,我觉得数据是一种思维方式,人们需要用数据来帮助我们做决策,不再盲目拍脑袋了,是整个社会这个结构化的一种转变。从企业角度来讲,我觉得数据是决策的支持,企业的管理者将来他所有的决策需要有数据来做支持。我觉得对于技术人员来说,数据是他们赖以生存的一个技能。对于我个人来说,这个数据是我们一个生活的伴侣,我们需要数据和生活结合来产生商业价值。

汤维维:我问的是大数据是什么,不是数据是什么,我相信大数据和数据是两回事。我总结一下,我为什么为这个问题,我们今天开这么大论坛大家在谈大数据,但是对于大数据的定义千差万别,太有趣了。像张总说是体系,沈总说大数据是平台,宣总说大数据是用来提供效率,苏总说大数据是资产,大数据是什么?问第二个问题,在你所在的创业的这家企业里边,有没有一个可以跟我们分享很好用好大数据这样的案例。

沈学华:因为最近互联网广告技术里面最热门就是实时竞价或者是广义上程序化购买,这是一个潮流。代表了一个趋势,大家可以想象未来得互联网上无论是社交媒体、视频、移动,在购买广告不是简单的以前那种打电话私下里谈,而是慢慢变成程序化,像大家买卖股票一样,有一个机器人来自动帮他来做决定,这个后台包括网站信息、广告信息、受众信息。三年前我们左手建这个人群的时候,那时候大家都在怀疑人群能不能发挥价值,人群能不能在程序化购买和实时竞价体现价值。我在国外工作过一段时间,有一些概念,实实在在因为你每天几个T的数据,非常非常纷繁复杂的乱七八糟的数据,你要处理起来,能把他应用到日程,应用到广告投放中产生效率,这个对电商、游戏追求效果,是非常有定量效果。
过去三年多左右研发过程当中,我们慢慢整个公司的数据团队以及整个公司的相关行业人群能不能在程序化购买,能不能在垃圾广告产生效果,信心也是慢慢慢慢建立起来。做过无数个实验,但是我经过研发跟探讨,无数个广告投放的失败以及成功经验,慢慢证明了数据,尤其是你通过大数据,把这个在大数据的应用,在非常混乱的应用,你把他处理好,加工好,挖掘好,的确会产生好的效果。因为效果在一些外部的广告主得到了认可,但是不能说已经非常非常好的解决了。比如说很明显的面临的一个挑战,我们虽然每天有几个T的数据,真正我们有用的数据,真正在实际的广告投放中产生价值,是非常少的。我们证明人群投放在实际的广告中的确有效果,这在国内我觉得能真正做起来是屈指可数。我们面临的挑战是怎样把有用的人群数据更大规模扩大化。对一个广告主做投放的时候,他不是说你今天给我投入几万广告产生效果。而是今天你给我投几十万广告产生效果,我们在这里是大数据,但是真正的投放产生的效果其实量还很小。我们把这个量放大,里面有更多的大数据的一些应用,有一些模型和应用。但是经过三年发展,我们已经变成人群在实际投放产生的效果。

张首华:我们可能服务的企业也是对于数据的需求也是有比较多的,分享一个去年的案例,是褚橙,他做这件事情已经有将近快十年时间了,从种树一直到结成果实真正的好吃要接近十年。为什么前几年的他的果实包括褚橙概念没有很好被大家看到和知道呢。可能就是在营方面没有做的那么多,去年其实我们是帮助本来在互联网上对褚橙品牌和销售做很多营销方面的工作,和大数据相关的合作是在橙子结出果实,售卖季节只有一个月。这一个月内我们通过在新浪微博、腾讯微博以及地方主流的能够放这些广告的的互联网的网站上,通过针对人群的精准化的定向投放,为褚橙在互联网的ROI能够做到30:1这么高。你投一万块钱广告费用能带来30万的销售额,他是怎么做到的呢?
我以新浪微博来讲,因为营销这件事肯定有很多方面,可能你的广告文案,你的传播受众,人群选择。都有可能会影响效果的。首先我们去了解主导创业的过程以及甚至包括他种的橙子的品种,橙子各种卖点收集很多的信息。然后找到几个觉得可能去做好的营销的点,第一个点就是雏老的创业故事。我们把这个作为一个点,我们数据分析就是微博演进出了比较大的微博数据。像励志、创业等关健词,筛选出一批微博用户,利用微博的精准到达的广告系统把褚橙给发出去。然后看效果,我们每一天都要做这样的事情,就是调整广告的文案。这个广告做了三四天,得到一些基础数据,发现可能关心这个方面的用户有一些人对橙子的卖点他本身的产品的好坏,产区只能在云南小的面积上,日照和气侯是不一样的。他只有一个多月,剩下时间不再产了。
根据这些特点,我们又去找到一批喜欢在网上购买生鲜水果的网友,他们可能关注京东商城、1号店等等。然后再用我们分析的引擎去找到这些,再给他们投另外一个文案的广告。然后去比这几次广告的转化率。新浪微博的广告系统是可以选择很多不同的筛选回复。举个例子,比如说一条广告的展示数量和他的转化频的数量是千分之二。有一千个人看到这个广告,有两个人愿意转发这个广告。之前我们看到这个广告就是我比较讨厌他或者是我比较排斥。原因是个广告打的不够准确。一旦这个东西准确了,带来的效果不一样了。整个转发就达到了千分之二点五这么高。转发率非常大,他带来二次转发率和三次转发率不再统计了。整个新浪的广告价格比较低的。有将近三周左右的优化,最高达到30:1这么高。
背后营销的策略以及相关配合,数据的分析和数据的配合是起到的作用相当大的。我们不知道这些人是谁,我们没有办法把这些广告让他们看到,也不知道他们看到之后的情况,他们看到之后会不会转发,都看不到。

宣晓华:刚才提到营销方面的大数据,怎么样通过大数据这种能力,能够很好的让消费者觉得很便宜。举个不同的例子,每个人都在打电话,用手机,电信运营商在提供服务的时候,有时候会看到欠费,你没有把上个月电话费交的话,你会面临欠费。停机这对消费者本身是很不方便的,我可能忘了缴费,但是手机停机了,很不方便。对运营商也是减少收入,停机的话他收入也减少。但是如何来你是故意欠费还是忘了缴费。怎么样通过个人的记录也好,个人跟运营商发生的通话行为也好,包括你在其他的表现。怎么来识别这个,这个就是风险识别。
华院数据这些年也是给很多运营商做过这样的项目,如果你能准确的判断每个人的信用风险,就可以帮助运营商赚更多的收入,这个可以增加更好的用户体验,运营商也有更多的收入,这是通过大数据来改善管理。
这个技术本身来说是取自于信用卡,这个技术本身来说大数据的话也应用了互联网金融,互联网金融很大的对传统的信用风险的改变,通过更多的数据,包括你在微信上、微博上发表评论也好,关注的人也好等等这些数据,结合传统的在银行,在消费领域的交易数据来更好的刻画一个人的信用风险的分数。

苏萌:我跟大家分享两个智能商务小的应用案例,一个是刚才品友互动的沈总和时趣的张总提到了精准广告,大数据在精准广告所有里面冲在最前面。他们讲的例子相当于在车水马龙的大街上他们很精准把每个人给引到我们这个店里来。接下来我们所做的事,你进到我这个店里来,我相当于一个好的销售人一样,我对你进来的用户分怎么了解,我能够非常精准的猜出来你想买的是一个好孩子婴儿车,他想买的是雅诗兰黛的眼霜,正好这个眼霜在打折,推荐给您,那个婴儿车在打折,推荐给您。百分点跟一家电子商务企业有一个测试,测试结果可以跟大家分享一下,一个用户进来,如果说这个网站判断是它的新用户,之前并不了解这个用户,他马上用百分点,来给用户进行推荐。我马上查,这是一个唯一识别吗的用户,这个用户喜欢老年服装,那个用户喜欢3C数码,我们可以实时推荐,我们推荐效果展示率我们是超过一倍以上。通过他的点击率和转化率都是一倍以上,这是我们一个小的案例。
另外一个案例,营销角度,另外一个角度,去年给一些电子商务做一些预测模型,包括淘宝卖家,大家知道淘宝商品生命周期非常短,可能就是三到四个月。今年夏天的一款女鞋或者是一款女包最多卖三到四个月,他同时上500款,他最终在销售一到两周之后,我需要知道这500款女鞋,哪些款可能在今年夏天成为爆款,哪几款是滞款,和平款,我要分出来,我跟厂家说这几款女鞋加2000双,那个加200双就够了。这是通过好的数据,好的算法和模型能够把销量提前让我们商家预测出来,谢谢。

汤维维:提到案例非常精彩,我们看到在下一轮电商的浪潮里,可以看到移动电商是下一步的趋势。在移动电商领域必然会引发大家对于移动互联网和大数据应用很多想象的空间。比如说一个人手机使用习惯,基于个人消费习惯、基于地点、基于时间所有大数据都可以用来做一个推动购买这样一个依据。
看到蘑菇街刚刚融资2亿美金,确实估值非常高。大家都会看到也许在座各位正在做的公司,未来有更大的估值空间。这个估值空间,我跟客户在聊,有很多的大数据,为什么阿里巴巴的大数据最值钱,他有交易路径。当我们在聊这个话题的时候,我们非常关键点就是说为什么传统零售行业、零售商无法用大数据,为什么我们现在看到越来越多的移动电商他们把大数据用的这么好。在你们看来线下零售商这么难去做大数据?比如我们看到传统的零售品牌,零售渠道都遇到很多的问题,他们的难点在你们看来在哪里?

沈学华:移动和线下的电商我个人觉得难点在两方面,一个数据的搜集,我觉得很难,不像移动互联网数据搜集很便利,线下数据搜集很难。
第二个难点在如果线下电商想做线上转型的话,需要把线下数据和线上数据打通。很多线下的电商还有4S店他们是传统有CRM,但是这些数据非常庞大。他有一个很大的问题,整个把线下数据,如果做线上营销,只能线上和线下通。这些方法是大问题,要么世界上只有少数几家做,Facebook、谷歌来做。第二就系这些方法涉及到用户隐私,这些方法没有大规模的推广出去。

宣晓华:第一点的确是从电商一开始是他对数据本身他的优势,他的搜集是非常好的优势,而且这个搜集是直接搜集到对客户的,直接针对客户的。包括一个客户到了一个网站你的浏览行为、交易行为他是非常整齐的。传统零售很多时候不见得有对最终客户的数据,包括他到商场卖,不见得有最终的用户数据。
第二是我觉得传统零售发展起来,不太习惯用数据去改善管理,这个是我讲的传统零售。这个企业里面有没有这个习惯,第二业务发展部门跟往往数据成熟,IT部门他们能不能很好去工作,这是很多时候面临很大的问题。
第三是有合适的人才,我们讲做数据定位也好,是需要一定能力的,很多时候既对业务有一些感觉,同时对一些数据有一些感觉。传统零售可能都是没有这样的人才。很多电商是学习能力比较强的,某种意义来讲接受比较快。第二竞争比较透明,所以说这也是一个能力,可以很快去尝试。做数据应用也需要一个策略,企业这边很多也尝试过,但是没有好的策略,没有好的接入点,很多时候就停止了。所以要应用好大数据,做好大数据,谢谢。

苏萌:沈总和宣总提到几点我很赞同,首先传统他没有数据,第二他数据没有打通,我们看一个行业的历史发展,在哪个时间点来看,就像一个国家一样,评论中国是不是一个科技强国,我们十年前看中国科技不强大。我们接下来看中国科技的能力,尤其是互联网大数据不比西方国家差,比很多强国都强。回到传统零售来讲,传统零售已经到了转变点了,我个人认为传统零售企业他在我们能够采集到数据情况下,他们对数据价值可能高于我们线上采集的数据。一个消费者进到线下店买一件衣服和裙子,他用一些技术可以看得到用户从哪个衣服架上拿来了,试了多久,又挂上去了。这些数据包含一些用户体验,这些如果我们能和个体的ID打通的话,就是刚才讲到数据打通的问题。这个数据的价值非常大,我们传统零售有一些优势是某些用户的体验只能线下进行,线上不能代替。我去试一衣服,或者是我买一个智能电视,我相信大家想买乐视电视的话,你一定是需要真正的去摸、看、碰一下你才能知道这个电视的价值。所以这是我认为一旦说我们数据采集技术更成熟之后,传统零售他的优势可能会超过我们线上零售,这是我个人的观点。
另外我觉得我们能够更有的利用线上的一些数据,电子商务我们已经聚集大量的PC端、移动端对消费者的理解。线下我们不知道自己的用户,一个用户进入了线下比如说王府井,进入线下的银泰或者是大悦城,给你提供免费的WIFI,知道你手机号。我马上匹配在我后台数据里面是不是有手机号,我知道你买过婴儿用品,户外用品了,知道你买了户外用品,我在二楼的阿迪正好在打折,一个促销信息给你发进来,把你引进来。百度他们是做线上流量导流问题,通过搜索引到这个网站,那个网站。线下同样的模式复制线上流量的导入,某些企业考虑线下流量导入。

张首华:大家都提到一些区别或者是关键点,我再说说我的想法。其实我觉得可能还是传统电商利用数据的思维要家里起来,要有转变。为什么这么说?大家更关注是销售效果,一个淘宝店一个牛仔裤爆款卖上万件,这是销售的转化。还有另外大数据能够帮助无论线上还是线下电商,自己内部的运营管理。特别是在运营管理方面,我觉得可能传统电商的能力要比新兴的线上的可能还要差一些。比如说亚马逊他的仓储物流系统,作为仓库检货员,他会告诉你往前走几米该检。很多内部运营管理的数据化、信息化以及自动化和智能化也是生产效率提高非常大的一个点。我记得可能几年前看到一个案例,国内一个做企业的,他们企业的包装盒的生产速度都要算,一个不同尺寸的包装盒,不同情况下要多长时间给他叠出来都要计算,就是优化整个后台运营的生产效率。这个方面也是一个可能一时盲区,大家都去想说怎么得到用户,怎么能有更多人来我们店里,不是买东西,他来看一下也可以。其实管理上的优化非常需要数据思维和大数据的能力的。

汤维维:亚马逊说还没有买,把货送到你家楼下,这是大数据非常令人惊讶,印象深刻一个例子。刚才苏总的发言启发我一个非常有意思的想法,去年的时候阿里巴巴宣布要跟王健林合作,跟银泰网合作,以后也许大家去万达商场购物的时候,可以直接变成一个网上购物线上线下融合的方式。我们觉得超棒,是不是以后我们在万达购物的时候可能阿里巴巴也可以从中获得数据,然后进一步推动他的网上购物的推荐和购买,这是相互的过程。
大家都在说难题在两点,第一数据从何而来,第二数据线上线下打通和融合很困难。在你们工作中,在你们公司里有没有现在遇到很好的去做这种企业跟企业之间数据交换交融做的很棒的案例?有的话可以分享一下。或者如果没有跟其他企业交融,你们所在企业里边部门和部门之间有没有数据合作比较好的可以跟我们分享一下?

苏萌:先说一下国外的做法,真正的数据能够用来交换其实并不多,在美国在一些垂直的跨领域的企业之间可以有一些数据交换,一个领域同行之间做交换非常非常少见。你说京东和阿里他不可能交换数据,携程和艺龙不可能做交换数据。携程和京东做旅游,做电商,做媒体,他们之间在一定程度上数据交换是有可能的。数据交换目前在全球也是一个问题,主要最大的问题大家认为数据资产,有人说数据是一个商品,定价的问题非常难做。这个数据,你的数据有什么价值,我的数据有什么价值非常难以定价,目前来说国际没有很好的定价模型。因为数据价值,马上我们把他很标准清晰量化出来很难。目前一些做法尽量让这个数据流动起来,体现在一些企业之间而且是一对一企业之间的这些数据进行一定的交换。比如说一个生产制造业和一个品牌商,他们可以说用同样的数据进行一定的交换。在美国沃尔玛是早期公开说我们和宝洁公司有一定数据交换,会把沃尔玛他有一些推车,他在沃尔玛之前上放一个跟踪器,跟踪用户在沃尔玛店里的行为轨迹,他会把这个轨迹数据跟宝洁做一些数据调换,宝洁也会把数据跟沃尔玛交换,这是很常见。未来有一个第三方企业做一个数据交换中心,公司都有海量数据,都涉及到很多业务,究竟怎么样来进行这种企业数据交换是很难的过程。两个企业的老大比较熟悉,我的数据给你,你的数据给我,市场有这么做的。

宣晓华:数据交换也经常看到,第一个现在看到可能是数据开放这个比较容易,尤其是政府把一些医疗信息开放出来,使得其他的创新者和创业者可以去把这个数据价值发挥出来,他不是交易,是开放。这是现在北京市政府也好,很多省政府都在提数据开发。
比如说两家企业老总比较熟悉,一个是做化妆品网上,一个是做服装网商,两个群体是类似,以女性为主。直接做数据交换,消费者怕有问题,消费者可能可以接受比较合适就是你假如说用我的数据里改善你对我的服务,大家可以接受。但是我的数据如果给了第三方其他一个企业,我觉得消费者可能会有问题。现在可能做的我在沟通和跟消费者沟通我的服装过程当中,把化妆品的信息出现了,这是两个公司之间的交叉销售。关于数据交换和数据交易市场,首先我觉得还是要比较快的有着法律效率,有一些指导意见,有相应的牵扯到隐私的法律首先要先走。什么是合法,什么是消费者认为是合法,就是合理的。
最终还是消费者本身愿意不愿意做这样的交易。有些消费者认为只要不牵扯到我太多的隐私,这些隐私在每个不同年龄段他接受的程度不一样。我的小孩可能很愿意把他很多信息发Facebook上,微博上也好,微信上也好,对他来说这些信息看到了,如果你愿意让他们进行交换,他有好处,他会接受。但是很多像我们年龄大的,不太愿意,他会牵扯到隐私,牵扯到这些数据交换对他的影响,不太能接受。

苏萌:插一句,提到非常有意思的话题。首先数据所有权的问题,数据属于谁,属于消费者也好,属于你企业。我今天上了淘宝,淘宝有我个人数据,我的行为数据是淘宝还是属于我?目前国际法律是认为这个数据属于消费者。淘宝可以用,可以提交你的用户体验,但是淘宝如果把这个数据卖给第三方可能就不行。淘宝把对这个用户的理解和预测,不是原始数据,而是他分析出来的结果和第三方的分享目前在美国大部分市场是认可的。像美国的埃森哲、IBM也在利用这些企业的数据来给第三方进行服务。中国确实需要一个数据归属权的立法,这个数据怎么用,数据的力度,怎么保护用户隐私,这些目前都是一些问题,我们很多企业都在这个过程当中都在探索,也真的不知道我们探索到什么程度应该是我们认可的正确的方向。

沈学华:企业内部的数据分享,相对创业公司来讲数据是非常非常容易被所有的工程师都来访问,来做各种各样的数据分析,只要他有想法,可以努力拿到数据做分享。在中国公司里不进来这些,我知道很多企业可能各个部门的数据,各自为政,每个部门拥有一部分的数据,要拿到数据非常非常困难。包括一个很大的问题就是要数据要经过层层审批,这里有安全性的原因,这个也限于企业内部。
第二方面就是双方两个企业之间的交流,我想在互联网广告营销里面有极其成功的案例,数据交换大家可以借鉴,这是大数据真的落地,大数据真正双方的合作,这个数据交换是涉及到两方,这个基本上是全球公认的非常非常成功的经典案例。
第三方面多方,涉及到多个企业的交互。我分享我们品友互做的事,两年前我们组织五六家互联网网站,最大的电商,最大门户,最后是无疾而终。前面分析的非常好,定价、所有权、隐私各个方面,电商说我这个数据最有价值,一对一的交换。还有说我们这个方式不是很成功的商业数据交换。多方数据交换是非常困难,里面有很多问题。远方的谈判相对来讲比较容易一点。

汤维维:我觉得很有意义一次谈话,刚刚谈话开始的时候各位对大数据进行了定义,你们认为大数据是体系,大数据是平台,大数据是提升效率的工具,大数据是资产。当我们讨论到最后的时候好象这些都不能够去代表大数据的事实了。像我刚才说的大数据的整合运营是不是应该由第三方来做一个交换融合的平台还是由政府还是由什么样的一个机构来实现。我的建议是不好把大数据回归到它的本质,大数据就是数据本身。如果是这样的话,我们用大数据的思维和逻辑去重构我们的商业逻辑的话,是不是有可能催生更多新的机会,可能也会有很多新的挑战。感谢各位。


 

颜嵘

演讲人: 颜嵘,Square数据科学总监
演讲题目:Square的大数据应用

颜嵘:今天非常高兴有机会跟大家一块做一个交流,刚才主持人已经介绍了我的一个背景,我现在正在Square公司工作,我主要负责数据挖掘方面的。我之前在Facebook做一个主要管理广优化这些,在这里,我想总结一下特别是对Square公司对大数据的应用进行一个总结,然后从而来讲一下我对大数据在金融方面和金融应用方面是起到一个什么作用。

我想首先给大家讲一个故事就是Square当时是怎么诞生的,Square是由两个联合创始人,杰克和简(音),杰克在硅谷是比较出名人物,他是Twitter,能够同时成功创建了两个十亿级的公司,他是唯一的一个人。当时他们在五年前的时候,简是做Glass艺术品的人,他做了这样的水龙头。非常沮丧,他跟杰克说不好意思我今天损失一千块钱,因为我没办法收信用卡,你有没有办法给我解决方案收信用卡呢。他们花一个月时间做了一个新的解决方案,通过Square可以把信用卡的信息转化成一个信号,直接通过网络进行传输。就是这样非常简单的一个想法,然后把他解决了普通人想去收取信用卡的一个方式,所以非常的有趣。

很多人现在都知道Square在美国,我们主要是针对美国市场,所以很多人觉得Square是硬件公司,实际上并不是这样。Square其实另外一个更重要的创新是在我们的商业模式上,Square其实是另一个支付公司,是用了所谓的支付聚合,quare作为中间商的存在,我们先把花来的钱收到中间的卡,再从中间的卡发送到各个方面上去。这样做的好处,你能够做到第二天就能把钱送过去,这是以前完全做不到,以前你要等到一个礼拜或者是一个月才可以送到。

这个让我们公司冒更大的风险,我们之所以要支持这个的话,你必须要创造更好的风险模式。所以我们又花了很大的精力让我们去分析用我们的数据,去分析。通过创造很好的风险的模式,模型,然后我们就发现了一个新的能让人去拿信用卡,收取信用卡的一个方式,这是我们一个雏形产生了。

当然Square的一个创新并不只局限于支付行业,我们其实是把自己看成是一个商务公司,并不是支付公司。我再举两个创新的例子,不仅仅局限于支付的领域,一个是Square!Market,包括以前的Logo当前是没有办法去说把他们想卖的领域能够扩展到他们的城市以外。帮助他们行为,大大提高的他们能够销售。第二个解决方案,我们去年做出就是Square,Cash,可以做一个你只发邮件就可以了。

这也就回到了Square究竟想成为一个什么公司,Square最重要就是Make! ! Commerce!easy。你想这个问题的时候会发现其实Commerce也是交流的过程,Commerce是两个不同的个体去交流。所以如果我们想做Commerce的话,可以把他做的一样简单,一样容易。为什么我们希望考虑一些事情就是怎么能够帮不同的商家,不同的消费者来做Commerce过程越来越简单。

我们下一步该怎么做?我们下一步我们能够创新的地方是什么东西,我想只做一点就是大数据,大数据其实是我们考虑的非常重要的东西。我们解释一下大数据究竟能够给Commerce带来什么样的创新?集中两点阐述这个问题,一个是说大数据其实是能够帮助整个Commerce的过程,变得更加有效。我们可以从一个反方向想这个问题,我们现在的商家究竟面临一个什么样的挑战。比如说你可以想象你是一个饭店的拥有者,你做生意的时候,有很多问题,包括你可能你不知道什么人到你的店里去消费。比如说你有一个新的之后,你怎么样去告诉说有一个新的折扣,欢迎你到我的店里来。你怎么样做市场,市场解决方案,卖广告解决方案,去谷歌、Facebook卖广告。很多中小型商家不知道怎么卖广告,这个门槛非常高。你做这个其实是非常困难的一件事情。

另外是说如果他想增长,他怎么借到钱,能够拿到新的融资,又不花非常大的力气去做。所以大数据其实是一个基本条件。如果我在我的平台上得到数据越多,我能比你得到的意义。其实大数据很重要一点就是如果你给我的Data是不断增长的时候,你离开我的平台可能性更少。你简单做一个支付方案的话,很多竞争者可能会进来,他可能很容易进入这个市场,然后把你转化成他们的应用。当你拥有一个数据平台,当你拥有大数据在你平台里面,用别的话就不是那么容易。!

我给你讲一个具体的例子大数据怎么应用,Square!!Capital,就是我们的阿里小贷的解决方案。我们知道之后,我可以给你钱,表面来看这是借贷产品,其实看下去这是数据产品。为什么?因为我们真正的竞争优势是来自于我们搜集的数据。在借贷方面,其实美国有很多类似的产品,但是为什么我们可以做到,是因为我们拥有一套数据是别人不能拥有的。导致两点优势,一个是我们可以通过数据分析来判断,第二点我们可以通过这个方式,如果他们给我们的数据越多,以后你用Square用的越多,我将来给你的钱越多。这个反映数据的产品带来整个的优势,这是数据产品是我们发展的重点。

然后我讲讲Square在数据方面的优势,首先第一个是Scale是数据上的规模。目前为止我们已经在全美范围之内发放300万个Readers,我们基本上靠了大概30%的中小型商家已经在使用我们的产品。你看整个消费量的话,整个处理的金额我们现在是在300亿的金额的范围之内。所以在这个基础说,是我们能够做一个非常有规模的数据的产品在上面。

另外一点我想强调就是数据的量并不是最重要的东西,我们做大数据的不追求量,更重要是追求什么东西,这是大数据的关键。Square数据有一个优势,我们可以搜集到线上数据,也可以搜集到线下数据。你很难想象一个公司可以同时知道你的金额,它的地点,这些东西聚集在一块能够带来非常有用的一些信息,这些才能让你知道。为什么线上和线下交流方式,这个数据能够聚合在一块,可以带来新的商业模式。

这个只是给你一个简单例子,我们这个数据究竟能够做什么样的作用。这是理发在全美的一个价格的图,我们是根据男跟女分成不同的类,女性理发的钱大多于男生,这个大家都会知道这个事情。在第二点是说你可以发现在纽约的地区差距是最大的,第三点就是你看到收小费状况不一样,有是不给小费,在美国给小费是传统。我告诉你们,怎么能够我们通过线上和线下的数据结合到一块,能够得到一些以前你得不到的信息。

我讲讲现在大概每一天来说我们有15万个Uers进来,这是不可能在人力范围之内做的到。我们用机器学习的方法处理这个问题,每一天我们会把这15万人通过一个机器学习的方法产生两千个人,我们觉得是最有可能会出现Flog。所以这样的话就远远降低了我们一个人力成本。如果你对我们机器学习的方面,对我们机器学习的架构感兴趣,可以下面聊聊。

我讲讲我对将来大数据的展望,一个是说我认为将来大数据发展的趋势会是一线上跟线下数据结合的一个大趋势,这点非常重要。因为如果你只有线上的数据或者只有线下数据的话,你对用户的了解是不完全的。你会发现如果你是做广告的话,你会知道了解线下的数据这一点是非常困难,但是最有价值的一个数据。反过来,如果你只知道线下的数据,但是没有线上的数据,你是没有办法做到非常全面的了解。所以将来肯定是这两个不同的数据要进行一个融合。

第二点我想说是小数据的问题,很多人都在聊大数据的问题,很多人对大数据的理解不一样。很多人觉得我现在有海量数据,我能够处理海量数据这故事就完了,其实不是这样的。因为当你在面向很多的长尾的时候,你会发现你面临的问题不是大数据,你面临的问题是小数据。你会发现很多用户其实并没有很多的数据,你怎么注意他的问题才会变成一个真的问题。有没有可能对这些长尾的现象的时候,只有小量的存在的时候,整体量上是非常大的数据。有没有通
过这么大的数据量,来提供你对小数据的性能,然后进行一个提高,这才是一个非常有趣的问题。

第三点是可以预测的,当我们做的时候可能做一些简单的归纳和总结,这是我们对大数据的考虑比较多。你会发现真的能在大数据上做成增值服务的话,相当于我不想只知道我去年的销售是多少,我想知道我明年的销售额是多少,我想知道明年的天气对我们的影响是什么。

最后强调就是Security! ! And! Privacy。最近出了几件事情也反映了Square对大数据的影响,每当我们谈到大数据的时候都要想到你怎么在大数据使用方面,能用一个更安全的方式和更加不侵犯用户隐私的方式来说大数据,这非常关键的地方。

我们有一篇讲的我们Square对整个大数据的一个看法和对金融方面、支付方面一个影响。如果你们感兴趣,欢迎去了解一下。这是我的所有演讲,今天非常高兴,谢谢大家。


 

圆桌讨论:大数据和金融支付

讨论嘉宾:
颜嵘, 美国Square公司数据科学总监
李童, 友付网创始人、首席执行官
余晨, 易宝支付联合创始人、副总裁
孔令欣, 点融网首席技术官
施煜, 美国VISA信用卡首席架构师

主持人施煜:首先非常感谢颜嵘刚才精彩的演讲,下面我想请其余几位嘉宾你们介绍一下你们各自所在的企业,以及企业产品的应用服务以及对用户的价值。

余晨:很高兴有这样一个机会跟大家做一个分享和交流,我是先简单介绍一下易宝支付,还有我们跟数据有关。易宝支付是一家做支付的平台,易宝从成立到现在有10年时间,我们总部在北京,在北、上、广、深全国有差不多28家分支机构。除了基础的业务之外,大家知道从去年开始所有人都在讨论互联网金融,互联网金融已经成为一个最热的话题,支付系统上也有一些支付。
易宝支付从成立到现在有十年时间,大家也知道支付本身是一个非常普遍的通用的需求。各行各业只要一有交易,免不了在最后这个环节里用到支付,支付对交易周期最后一公里最重要的环节之一,很多人都会关心到大数据与金融支付的关系。大家知道支付又跟做内容不一样,我们是跟钱打交道,支付是高金融的。大家知道央行从2011年开始颁发一批第三方支付的牌照,易宝支付也是第一批拿到牌照的企业。除了支付本身的牌照之外,我们还有类似像跨境支付的牌照,还有基金支付的牌照,跟金融相关的产品。
大家会问到一个问题,易宝支付你们的特点在哪。主要有三方面的特点,都跟我今天讲的大数据有一定的关系,第一点我们的定位来自垂直的行业解决方案。刚才提到支付本身是通用的东西,各行各业无论是卖鞋子、卖衣服都会用到支付。商家最重要的途径,商家不同的行业需求,我们会为不同垂直行业商家提供一些定制行业解决方案,比如传统的电商、快销连锁、物流、电信、保险业务还有像游戏、娱乐等等,不同的行业对支付都不一样。
跟数据相关,同样的交易额,你知道产生的数据,一千块钱买机票很正常的交易,机票是交易很大的金额,也是可追溯的。我们知道我们在做行业解决方案的时候,知道这些行业的攻坚点在什么地方,数据模型有更大的效应。
第二个特点,以前做支付是收钱付钱,现在怎么在支付之上叠加更多的增值服务。其实我们谈到增值服务的时候主要是两大类,一类是跟营销相关的增值服务,另外一类是跟金融相关的。这两类其实都跟支付的定位最后一公里环节有相关性,我知道交易的闭环,所以在支付的基础上做营销,无论是线上还是线下,我可以把团购、打折卡都做到跟线下用户的交易数据。第二点跟金融相关,我知道用户交易数据,在交易大数据基础上构建一个风险模型,推出很多授信等金融增值服务。
第三个特点今天讲支付更多是多元化整合型的一站式的支付解决方案。企业除了在线支付之外,还要通过电话和呼叫中心,他也要通过线下,通过一个平台可以把不同的通道整合在一起。我们收集数据方式比以前多很多,今天讲的是大电子商务的概念。包括一些呼叫中心的支付都是在数据里面,我先简单介绍到这。

孔令欣:大家好,我叫孔令欣,我们点融网其实是由苏海德先生从美国来到中国,点融网有差不多七八年在美国做的经验,来到中国的时候,2012年年底。我们合作伙伴郭宇航,一个律师,具体结合做互联网金融。
我们现在上线2013年,已经差不多做了2年,我们的模式是全新的模式,我们在借贷中的时候是把信息透明而且是保护隐私的方法披露给大家,让出资人做自己的选择,对借款人来说用很多数据来降低借贷成本,这是我们行业和公司的介绍。
再说一下关于技术方面和数据方面怎么应用,我们借贷的难题是怎么防欺诈,怎么做好风控。大家相信我们金融信息平台的时候,是相信我们的风控能力和审核借款人,把借款人分类到企业占款,有抵押,无抵押,有担保,信用担保还是什么,这些在线上和线下收集的信息是海量信息,包括几百个纬度上面的若干个信息,其实很多时候是在环境下都线下收集。医保是有一个专门的通道可以去拉详细的精细报告,对我们来说很多这些信息是线下做的。线上收取的信息包括很多其他的东西,包括网站如果你做响应可以收集到很多用户的行为信息,一些简单的填表,通过他的反应速度,通过他的写字快慢,通过他打字出错率可以判断出来。
其他的一些数据收集应用包括用移动端,用其他的模式和第三方的合作公司来去收集。我们在应用大数据上面,可以看到每一个我们收集数据都是小数据,真正用大数据走的规律的时候变成大数据。一个人用了多少秒写下自己的名字的时候变成是否有问题,或者怎么样把这些信息关联在一起,包括一个人,包括他的地点,他的手机应用,他的微信微博上面的一些公开信息,这些信息的组合可以让我们更精准,代价更低把这个借贷做的更成功。

李童:谢谢嘉宾们的介绍,友付网是活动类报名、注册、收款平台,是中国最大活动的平台,公司大概是三年时间。现在在友付网做线上报名、注册、推广、收款以及他的客户管理,这是友付网简单的情况。我们支付一点点关系是什么?活动不管是像今天的峰会,或者是像音乐会、体育活动或者培训活动他都有一个在线支付的环节,友付网现在支持所有线上的支付,线下的国内外银行支付的环节。友付网正在成为中国最大的活动组织和推广品平台,谢谢。

主持人施煜:对于金融的支付行业来讲,颜嵘演讲提到欺诈是一个共同要面临的一个挑战,我想请在座嘉宾分享一下他们的企业是如何应对这个挑战的。这个数据和数据技术在应对挑战的时候起到什么作用?

余晨:刚才讲到欺诈可能是会大家要关注的最大的问题之一,大家想到支付第一反应是安全,支付的时候确实碰到一些问题,商户那边也可能会有欺诈,出现假商户。平台角度来讲,除了这些硬性的技术,通过加密,包括现在应用商店指纹验证之外,还有软性体跟数据有关系,从数据一些特征,从数据一些模式上可以看到很多交易是不是都有风险。给大家举个最简单的例子,比如你在北京申请一张信用卡,你到上海出差的时候你用这张信用卡去住酒店或者是去很贵餐厅消费这是很正常的消费行为。你的信用卡申请是北京,你去上海买电冰箱、彩电,你没有道理说在出差离开你本地去买一个大宗电器。我们所谓很多反欺诈就是这种数据模型判断哪些交易是不是有风险。同一个IP地址连续发起多笔交易,交易大小都是金额类似,这个交易一
定是有风险的。填表的时间还有一些数据,在这些数据特征上可以构建模型来判断这些交易是否属于欺诈的风险。我们在数据基础上建立起来数据模型之外,去判断和防止这些风险的交易。

主持人施煜:我们知道P2P现在年收益率和风险控制是两个非常重要的指标,请孔令欣先生介绍一下点融网是如何用信用和信用技术如何来提高年收益率和控制风险?

孔令欣:P2P年收益率就是借出去的时候另外一个人可承担的还款能力,真正就是年收益率减去坏账率才得到的收益。真正的P2P的概念让所有的出资人去做自己的银行家,把钱借出去。中间环节中一个金融服务点融网是这样的公司,怎么样来用数据更精准防止欺诈和防止坏账。
中国很多东西都是可以做假,几乎所有东西都可以做假。我们需要用更新的手段验证一些信息,分两种信息,一种信息是确定性信息,收集到之后我们可以根据这些信息增加一个人的信用额度和信用评级,包括被确定性或者是否定性的来去精准去作出一个判断。另外一个信息就是参考性信息,足够参考性的信息我们会把他单独抽出来去做。
有一些信息,一个人告诉你他在哪里工作,他不一定在哪里工作,你怎么精准定位他在哪里工作,你可以通过微博,如果选择性告诉一个用户说你来去安装一个应用,IOS应用,这个应用告诉我们其实是提供一个地点数据,而你的地点其实会告诉我,你天天假如说在我们的精英,在世界500强公司工作,你天天到500强公司待八小时,我们更确定你有可能在那里工作。其他的确定性信息像银行流水,让系统自动查流水,这个欺诈成本,真正变成骗人的成本是非常高的。非确定性因素我们还是考虑的,包括像是一个人说是他在上海工作的,但是经常是在微博微信上地点告诉我们是在其他地方,这个客户安装我们的应用,我们可以进一步测试这个事情。
你要说是一般情况下借贷行业中有一种欺诈,第一个月欺诈还是很高的,有些人借了钱的时候他会跑路,第一个月的时候他还款日期是一个月之后的时候,他准备好了借钱就消失掉了。用技术来去回避这个风险的时候,包括定位,包括了是不是可以用其他的还款方法,包括天天还款的这种数据,包括收集其实身边所有关于他信息有关的事情的时候,来更精准告诉他我知道你在哪,如果你要跑路,我当天就已经知道了。假如说你飞到澳门,我知道你有赌博习惯,这些信息全都是每一个人主动来提供的,对我们来说我们会用这样的东西来大量降低我们的借贷成本和风险。

主持人施煜:谢谢,金融支付企业他们在提供金融支付服务的同时,同时也会收集大量用户的数据。下面我想请各位嘉宾和大家分享一下这些收集的数据在今后的产品开发和技术服务开发过程当中起到了什么作用?会不会对你们的企业和你们的客户提供更多的价值?

颜嵘:在我的演讲大概讲了我们的数据对Square来说是一个起到决定性作用,对我们将来产品开发可能会更多向这个方向去发展。我们会更多思考是说我们只是在支付,以后会成为我们的一个平台,将会成为把我们的商家和买家聚合到一块的平台,而并不只是成为我们唯一能够赚钱的手段。我们会提到其实支付作为一个平台把人聚到一块之后,我们有很多方式把这个钱赚出来,这是我们今后强调一下所考虑的方向。
从我们数据里面怎么赚出钱来,有很多方式,可以看到现在有很多霸主,谷歌和Facebook,他们其实就是以一个数据来赚钱,而且他们是做的非常的成功。他们可以看到推荐是一种方式,通过卖广告这是一种方式,然后我们也在同样思考一个问题,就是说如果我们有数据的话,我们怎么能够把数据更加有效的转化成一个公司的利润。
所以这一点就有很多种思路可以考虑,我可能具体不会说我们公司会做什么东西,但是我跟大家讲讲我们的思路。
第一就是说数据能够转化成盈利的话,一个需要我们渠道。因为可以看到你对商家是产生了渠道的影响,这个渠道里包括你给他们收据,那是另外一个渠道,这是能够帮助你很方便的跟卖家和买家产生关联的关系。你们可能通过在这个关联的渠道上面做一些文章,你可以卖广告,可以再推荐,可以做任何增值服务。比如说我哪一天我去了上海,你能够自动告诉我在上海所有用Square的一些类似的支付公司,跟他一个推介方式,可以告诉商家找到他们需要的产品,这是通过数据可以产生新的商业模式。这个依赖于支付平台,但能够通过数据来产生新的渠道。
另外就是借贷协调是很明显,现在我们公司都用新的借贷产品,如果用支付得到我们需要的数据,然后产生一个新的借贷模式,也是一个新的增值方式。另外还有很多很多各种的讨论方式,其实归根到底,你要做一个基于数据产品的话,一个是怎么样搜索数据,怎么样通过数据转化成真正的我们的一个具有决策性的影响,怎么通过数据转成一个向外部展示方式,可以通过内容展示,可以通过百度展示,可以通过任何渠道,这是渠道方式。最重要是说你收集这个之后,怎么转化成影响。

李童:大家知道大数据这个词是谁提出来的吗,他的历史渊源是什么,他怎么就成大数据了?以前是没数据,后来是小数据,后来怎么成大数据了?我查了一下,大数据这个词其实已经有25年历史了。1989年的时候在硅谷一个公司,他是做显示器的公司,什么样的公司会用显示器呢,就是做动画的公司。因为大家知道做动画这个事25年前他的数据量真的是海量,我学计算机出身,你要渲染一幅画,他的数据在那个时候大概是要一天才能够算完。这是他最开始的时候,但是他真正开始是什么时候,其实跟计算机没关系,十年前,十年前有一个学经济,那个人是一个教授,他是做区域人口研究的,那是03年的时候美国经济未来十年会怎么样,他从各 种纬度他的模型他就来分析美国经济该怎么走。这是从经济里边,一开始计算机到经济里边,最后又回到计算机了,美国有一个做市场调研的公司,那个人专门做市场调查,五年前就说我们新的公司有很多的数据,根据这个数据他们有不同分析的方法,最后又他那出来数据,然后慢慢中国这边就开始也沿用了这个名字叫做大数据。
我觉得这个很有意思,从友付网来说,我们有一个问题就是没法用大数据,为什么呢?因为友付网是一个活动在线报名、注册、管理、CRM系统。对活动来说,报名注册有多少,他们报名注册的时候填写的信息非常的完整,很少有做假。按照姓名,联系方式,哪班飞机来,有一些汇集他们会说吃饭的时候饮食有什么要求,报名表的话他是哪个学校毕业,这个数据的真实性和数据的纬度非常大,而且是非常有价值的。这个数据的所有权不弱,谁拥有这个数据?是活动的组织者。那么这就决定了我们没有办法用大数据的方式来为我们公司自己,这是不合理的事情。我们可以在产品上面开发一些,根据用户一些喜好,我们未来可能会有一个新的产品。比如说我们知道这次大家参加大数据的会议,可能明天有一个云计算的会议,你比较感兴趣,我们可以做一个推荐,从不同的数据的属性。另外我知道你参加了北京刚刚过去,现在有很多音乐节,草根音乐节、长城音乐节,你参加了这些音乐节,音乐电台他们每个星期都会组织活动,我们会向你做一些推荐,这是对用户可能有的解决方案,但是大数据本身所有者就是活动持有者。

主持人施煜:谢谢李童,我很需要李童这个产品,我们是从美国硅谷来的,来中国就是两眼一抹黑,能得到你们推荐的话就好了。
刚才李童谈到一个点,刚才早上的论坛也都提到过很多有价值的数据产品实际上是多元数据或者是多个机构和企业数据整合,共同开发的结果。我想请在座嘉宾分享一下他们的企业是如何和其他的一些企业一起共同合作,挖掘数据,开发出进一步的价值的。

颜嵘:我可以讲讲,这点我很有感触,比如说我们做风险投资模型的时候,其实我们是用非常多的第三方数据,这点其实美国在这方面是有一个比较成熟的产业,美国其实有很多细分化市场。比如说我举个例子,做广告的情况之下有一个公司是提供数据平台,他干的事情就是提供数据,你怎么处理是你的事情。在风险也是一样的,很多第三方提供数据的公司,我专门把网上的数据和线下数据整合在一起,包括他的年龄、收入、有没有破产过,他干的事情就是把这些数据整合到一块把这些数据卖给你。我们内部,我们其实是整合了好几个第三方处理的数据,放到我们风险投资模型里去。你会发现这种信息是非常有用的,这就代表了我们不仅是使用我们自己能够搜集的数据,而且我们能做应用到别的人提供数据,进一步增长我们模型的正确。
另外非常有趣就是我们做的是线上和线下结合体,举个简单例子,我们做风险模型的时候,这不是一个静止模型,是一个交互性的模型。当你发现你搜集的数据是不足以支撑你的结论的话,你可以回头问他们。怎么能够通过交互过程当中获取信息,也是非常有趣的过程。Facebook的信息来帮助你判断,这也是一个通过第三方的信息平台能够帮助你。有一些商家的评论,包括还有很多个人的评论,一个公司本身不足以拿到这么多数据,但是由于现在很多公司都是愿意把这个数据给你来换取他们更大的利益。其实搜集这个数据其实是搜集第三方的数据是非常有用,在数据处理方面非常有用。

孔令欣:对我们来说金融这些借贷其实在任何事情当中都会出现,我们收集数据和信息都是同一个纬度上的,大家的工作状况,还款能力、消费能力,教育状况,我说一下其实和其他人合作的关系。很多公司不会直接进入专门是借贷,借钱的领域,他们有很多他们的数据。假如说我有一个网站,以结婚为目的的,他结婚成功率越高越好。假如说一对快要结婚,忽然受到从结婚网站上来的信息,我知道你快要结婚了,很大压力来自于资金,怎么办这个婚礼,如果资金周转不到要不要借钱。进入我们数据的时候我们可以做一个判断,我们忽然间知道更多了,我们知道这个人的还款能力,我们知道这个人的教育能力,这些人是可以给信用的,他们结婚成功率,为双方更多来去提供双方的成功率。包括这里的利差,这个人结婚成功了,还款也受到所有红包把这个钱还出去了。下一步就是度蜜月,和旅游公司合作,你结婚资金比较紧,受到红包不够,去马尔代夫,一辈子一次的度蜜月要延期两三年。女孩子觉得我一辈子的婚姻,还要再等上三年。有了蜜月假,蜜月中间生了宝宝,宝宝贷,和保险公司合作,这种金融环节是跟每一个公司的大数据都是结合在一起的,中间碰撞其实会产生出对我们来说是非常良性的这种贷款。这种贷款对一个网络借贷公司来说,大家都不缺钱,但是一个非常优质的还款能力的借贷人,通过这些习惯引申出一个先消费,把握机会成本,然后之后再还款的习惯。远远比现在非常缺钱,到任何地方找办法借钱的人,比欺诈什么都是非常小的。大数据在融入大家的生活,你买的保险跟其他人买的保险不一样。我们知道了更多的数据,在这样的情况下,大量的数据交流,导致所有人在里面转,包括消费者。

主持人施煜:我个人建议婚姻贷还是要有利率优惠,优惠之后才有蜜月贷、宝宝贷都来了。易宝支付在行业支付是领跑者,你们跟大量行业有合作,你们在数据方面也有合作,分享一下你们的经验。

余晨:我开始业介绍了易宝支付的特色,我们做垂直行业的解决方案,我们在垂直行业里面有一些商家都会有一些合作。比如说航空公司,一级代理、二级代理,有一个支付链条。我想反过来说现在数据合作还不够,包括我们跟银行,跟金融机构之间的合作。因为在防范风险方面,如果大家能够对数据更多的开放和贡献。银行的信用卡的评级,共享出来,上下从银行到商家还有更多的风险还有欺诈问题,因为很多商户和企业的意识把数据把的很死,其实有时候数据共享出去之后是共赢的局面,有更好的风险防控机制。在美国这样的风控系统完备的情况下,包括我们可以从社交网站、其他的体系之外的数据,更多丰富。中国的体系不完善的情况下,大家要用标准开放的方式进行数据分享,才可以把还款做的更完善。

主持人施煜:大家都知道数据有很多的应用,平时我看到大家经常提到大数据,我看到两个很常用的词,一个是颠覆,一个是创新。我想请几位嘉宾分享一下你们的看法,在今后未来一到三年时间里,觉得在金融和支付领域里面会有哪些颠覆和创新?数据和数据技术在颠覆和创新当中会起到什么样的作用?请李童先开始。

李童:对于历史会发生什么,也可以说什么时候发生,但不要同时说。我觉得互联网是一个冲击大数据还有金融对于在未来三到五年,大家会看到一些非常有意思的企业出来。从投资角度来看,大家申请贷款,点融网是其中一个公司。怎么样去把传统的模式当中有一些效率不高的去除掉,我们有很多有意思的企业出来。我给大家提一个小小建议,我作为创业者,我作为投资者的角度,不要犯一个错误,什么错误?别人能做,你也能做。特别是什么?大公司能做,你也能做。意思是让你看见一个非常有钱的富二代,你要学的不是他,学的是他爸,他爸创业的时候他是怎么做的。我百分之百可以说是他爸爸创业时候做的事情,肯定都是别人看不上或者是觉得没有什么机会。你如果要是学富二代本人他怎么做的,他有的资源,他有金钱,这个基本上你是没有办法有的。所以很多机会但是一定是抓住自己能做的机会。

颜嵘:其实我觉得这个机会,我对金融的机会,对大数据的影响。我再重新强调想象的几点有可能会发生,做预测的事情很困难,我不会预测今后三年会发生什么事情。我讲一下我自己的想法,第一个是我刚才提到线上和线下的整合,其实我是觉得关键对于金融行业和对于甚至整个互联网行业来说,其实他们的最重要就是把效率提高,增加效率,谁能够把效率变高,谁就能够赢得这场战争。能赢得这场战争根本就是谁能够把这个信息能整合最好,所以我觉得在信息整合上面会是出现一个变革。有可能会出现一个细分市场,就是这个市场是专门做信息整合的一个市场,他们专门对金融公司来提供第三方的信息的一个服务,这是有可能出现的。因为可能对中国来说,我们可能想象更有可能出现,因为可能中国的金融壁垒相对可能比美国还要高,他们可能互相不相信对方,不相信的壁垒更高。出现第三方的信息提供商,对金融提供服务业来说,对中国企业来说更有价值意义在里边。
第二我想提到就是小数据的问题,谁能更好的处理小数据的问题,谁更能赢得这个市场。大数据结合很多人能拿的到,谁能尽量从小数据拿到有希望的决策,这是真正的困难点。所以我觉得这个也是大家可以思考的一个方向。
第三就是平台的效率,我们刚才提到支付可能是一个平台,是一个非常好的起点,但不是一个重点。当你拥有这个平台之后,你怎么能做大电商的概念或者是大数据的概念在上面也是一个非常有趣的想法在上面。有没有可能将来通过这个支付平台,能够发现你所有的活动的形式,然后在无处不在的地方给你提供一个增值服务,包括给你的收据,给你的推介,给你的贷款,给你的保险都会统一在这里。这是金融和支付统一的方向发展。
最后一个是安全方面的服务,对金融首先来说安全跟隐私是非常重要的一个因素。但是有没有可能出现一个专门对金融和支付安全的方向,这是非常看好的方向。包括我们这几个同事和他们现在所考虑的方向,我最近听到大家考虑多一点。

孔令欣:大数据其实分好几个阶段,中国现在的阶段渐渐是渡过了收集数据的阶段,正在收集数据,收集数据其实是比较依赖性的依赖在技术上的。而这些技术其实对于美国的一些开源这些东西,你把这个难题解放,这已经不算是完全的难题了。包括上面这些东西全都是公开的,技术角度来说没有难题的时候,大家可以收集,包括可以搜索这些数据,下一步就是怎么分析,分析这个阶段就是每一个垂直领域都会做自己的分析。我猜下几年的时候会出现多方面的合作,不是两家公司一起合作,而是三家公司一起合作,才能够有足够的数据来去真正的完善这个产品。
围绕我刚刚举的例子,其实有婚姻网站公司的数据,有了点融网的数据,还缺可能是新浪,新浪是我们合作伙伴,假如说我们知道新浪有多少人转发了去喜欢马尔代夫的微博的时候,可以精准到有多少人优惠过,包括准备结婚了,有多少人其实还有可能缺这个钱度蜜月。这是三家的大数据,这三家分析其实跨三家的合作。而猴戏从分析角度往前就是显示和应用,怎么从海量数据分析上,联合多家数据,把一些共同的细分点拎出来会不会有很多商机。第一就是改变行业就是媒体和营销,市场,现在的市场不仅是卖关键字,甚至关键到从哪一个指标来看,什么样的人群点了这个东西,在你的产品上产生的效率是多少,后续的转换率,其实这都是一些跨领域、跨公司的大数据应用的合在一起的第二步。

余晨:你问的是颠覆和创新,未来大数据的趋势。我想可以抱着更大就是互联网还有大数据和整个信息技术跟传统行业的关系。夸张点颠覆和破坏式的创新来形容。现在最大趋势就是所谓互联网第二次浪潮,互联网第一次浪潮是90年代的时候,那时候互联网大家开始接触都是用到邮件,像浏览器,网站搜索这样的。基本上他是一个虚拟的世界,比特的世界。第二次互联网浪潮就是长尾理论提出者,原来互联网只是一个虚拟世界,比特世界的东西。第二次互联网因为移动互联网的兴起,因为O2O兴起,因为线下跟线上界限越来越模糊,第二次互联网影响不再是虚拟世界,而是反过来会从虚拟经济渗透到实体经济,会从原来互联网单独作为一个行业渗透到所有传统的行业。渗透到我们生活中所有衣食住行和生活服务,大家看到团购也好,还有其他的服务,都是物理世界的东西,不是虚拟世界的东西。你找餐馆或者是理发这是传统的,未来几年看到最大的机遇就是线上和线下的界限越来越模糊,互联网跟传统行业界限越来越模糊。传统行业电子化、互联网化会成为最大的挑战,因为我们现在的整个大数据很多传统行业他的后台的ERP、CRM没有上,很多传统行业上他的资金流、信息流,很多传统行业背后的收银台,其实这是最大的挑战,也是未来几年里最大的机会。互联网反过来对传统行业、对线下业务的影响。

主持人施煜:谢谢余晨,最后我想说两句,其实大数据有很多重要的应用,有两个,一个是预示性的分析,第二就是目标市场投放。其实这两个重要的领域就是对未来做预测。所以我给大会主办方提一个建议,因为他们的奖品都是发给听众的,我们下次再开会之前我们提前做一个对未来的预测,我们演讲嘉宾答的对,给演讲嘉宾也发。

主持人:这个建议很好,可以采纳。

主持人施煜:台下听众可以跟我们互动。

提问:我有两个小问题,如何定义小数据,还有在中国和美国想去采集这些小数据的话有什么不同点吗?刚才听到Square嘉宾提到在安全和隐私方面,我是想问这种服务形态是作为第三方服务商向互联网提供,还是变成服务向我这个终端用户提供,还是像给客户提供一个防止他信用出现问题的服务?

颜嵘:首先我讲一下小数据的问题,谁知道大数据,我问100个人,100个人对大数据的定义都不一样。小数据这个定义非常有意思,我们现在大家都在想象我们是有一个海量的数据存在,我们在很多时候海量数据的存在只是在一个整体的量上。可能是说这个视觉上有很多的数据,这些数据都是垃圾数据,并不是直接给你带来的价值的数据。反过来说,如果你看到在每一个小商家或者是小用户,你发现在很多情况下你拿到非常有价值的数据。或者说一有价值的数据足以支撑你的商业模式。在这个情况下,你怎么能够反向通过一个聚合的规模上的大数据,能够帮助你判断小数据,然后让小数据变得更加有用的话,这是非常有趣的问题。

我举一个简单的例子,三藩市里面有一个非常小的商家,一天交易量就两单,非常小,但你反过来因为在我们平台上,我们是有一千家,在同样的地区,同样的环境,同样的特征,我们是否可以通过聚合的模式反过来给小商家提供价值,这是非常有趣的事情。这个价值可以是风险模型的价值,可以我给你更有意思的信息,你在别的平台拿不到。通过这个事情可以解决小数据的问题,解决一些他本身拿不到的数据。
另外我讲讲Square,其实Square有很多种实现方式,刚才以风险作为一个服务存在,是一个非常有可能实现的方式。包括你的公司对第三方公司只是提供一个服务。你可以定义说你的模型是什么样的,可以是线上的数据,也可以是线下的数据。你可以通过线上线下的数据判断说,这种商业模式已经存在了。另外一个方式就是直接引入到你对应服务公司里面做,这在大公司里面更常见。我观察还是倾向于某种制度,更倾向于你在他们内部能把这个直接实现出来,他就不用依赖于第三方的服务方式。而这两种模式都是有的,根据你所服务的用户和服务的商家所决定。

主持人施煜:谢谢所有嘉宾参与我们精彩的演讲和讨论,谢谢。


 

吴建平

演讲人:吴建平,清华大学
演讲题目:大数据与智慧交通

吴建平:大家下午好,我是做从90年代开始我开始做智能交通,做智能交通角度开始一路走过来的,那时候我去英国留学,在英国待了23年,11年到清华大学,现在是清华大学教授。

今天在这里讲这个话题之前,有人问过我一个问题,他说吴教授你们刚开始研究的时候叫智能交通,后来又走过来叫智慧交通,又来车联网,又来物联网。包括在今天我们在这里讨论大数据,都是在信息技术进化过程当中的一个阶段、一个问题。从互联网构成人们能够把信息相互传输,给了人家搜集网络上信息的一个手段,物联网拓展这个,从互联网已有的信息沟通基础上,他能够从传感器本身直接搜集物体本身的一个信息。通过互联网交换的信息,又多了一个信息源。今天早上讲大数据三种形态的时候,我把这个东西给他串起来,互联网、物联网提供了两个数据源,用我们的大数据。但是物联网还有一套更大的作用就是他提供要返回的功能,为我们的服务,为社会提供的服务,包括创造社会效益,经济效益的服务提供了返回的功能。

下面我想跟大家说,这个图显示大数据的大,实际上今天很多人都问大数据是什么概念,我本人理解我觉得大数据一是数据本身现在有很多数据很大,量很大。但是第二更重要就是他的数据来源多,不是一个纯的,比如你这个谷歌网,都是搜集这个网上的数据,谷歌以外的数据每天大量数据存在,那个数据整个这个概念我们把他叫做大数据本身是比较贴切的。不仅量大,还显示了数据的杂和多。也就是这里说的我们数据今天大数据的时代,种类和数量比质量本身更关注更重要。

大数据你要不要,他都在那,你用不用他都会来。大数据要来了,大数据来了以后,大家都知道原来中国有句话就是时间就是金钱,今天人们说现在这个时代数据就是金钱。但是数据本身也好,数据也好,金钱也好,如果他不发挥社会效应或者是经济效益的时候他是死的,一点用都没有。下面我想跟大家探讨介绍的是我们在数据的智慧应用上面我们的积累和经验。大数据,如果数据来了我们怎么样更智慧。下面我讲的是大数据和智慧交通的概念。我们清华大学未来交通中心研究成果和科进英华实践的一个体系。有数据,数据来了以后我们怎么把他变的智慧,解决我们今天面临的交通问题。实际上这个大数据的时候,其实大数据后面我会讲到对我们交通带来什么样的变化。

我想讲一个概念,就是智慧三要素,中国有一个古话巧妇难为无米之炊,如果你没有数据,所谓智慧决策,都是空的。假定一个医生,你说医生我要药,你说那个药是对你的症吗。所以智慧三要素第一要有数据本身,第二是要有智慧决策,他得出智慧方案,基于这些数据的分析,他能够自动形成智慧的解决方案。第三有了智慧方案之后,大家可以想像智慧的方案,你往往有好几个。你看见的东西你脑子里有几个决定,几个想法,但是你要做的我们往往只能是中间采取某一个方法,也是智慧判断,智慧评价。智慧三要素就是基于我们的数据可以形成智慧的解决方案,在这个智慧的解决方案基础上有一个智慧评价的体系,对这个智慧形成的方案能够有更理性的判断。比如说A比B方案更好,这个是和人的大脑思维是一样的。我们人的五官就是所谓的数据,人的右半脑就会对这个数据本身形成一些各种各样的想法、看法,但是这些想法看法不是结论,人的左半脑就会想这个方案怎么样,那个方案怎么样,最终一个决定出来,所以他是跟人的大脑结构,我这个所谓智慧三要素是从这个里面提炼出来的。

说到交通大数据,今天我们题目主要讲交通大数据,在这个数据里面今天如果在座有做交通的人尼惠知道中间灰色这块的数据是我们的传统的交通人有的数据。他们通过地面的线圈、GPS、RFID、手机信号等等方式,采集路上车的信息。但是在大数据来临的今天,如果我们十一国庆节来临之前我们通过网络大量德人大量人访问北京旅游、北京住宿、北京租车什么,这给我们很大的概念,可能可以通过大数据的关联预测今年十一北京会来多少人,外地可能会增加多少。于是对你的酒店,加油站供应,旅游点的管理预测还有你的交通,很多东西都可以知道。今天我这里讲的是更细的内容,今天讲讲智慧三要素里面智慧应用的体系。

基于这个交通数据,我们形成一个想法,举个例子来说从交通数据里面,中间这个地方有可能发生了一个交通事故,基于这个,系统本身能够确认这个地方是不是,有很多数据知道哪条路堵,哪条路不堵,就像这几天网络流传的笑话一样,你在哪一条路,什么时间在什么位置都能明确的时候,我可以清楚的时间判断这个地方是不是有交通事故,成因怎么形成,我会形成多个解决方案。我应该分流,我对里面的车流可以采用其他的交通管理方式,比如说采用一个上游分流,里面采用快速的把车流往外流等等不同的管理方式。这些管理方式在我们的体系里边,他就会把他送到我们的智慧决策体系。A、B、C方他在线的运行、判断,最终系觉得A、B方案解决方案最好,这个方案到了交通管理部门,他开始决策。这些数据又回到我们的大数据库,形成真正的智慧学习的过程。从小孩子为什么长成大人,它的知识积累越来越多,他经历了大量的东西,通过课堂上,他实践接触学习的东西,他形成自学习的东西,所以这是整个核心的思想。

交通下面我跟大家讲,大家都知道北京的交通管理,全国的交通,北京是首堵,不仅是北京,很多城市都堵的很厉害。堵的很厉害的原因,很多简单来说是一句话,实际上是人们的需求总量和今天的道路上我们能够提供的供应体系发生矛盾。么来解决这个问题呢?当然大家都知道像北京、上海、杭州很多成事不可能修很多的路,我们今天就是给你这条路,你需要能做的帮我们解决好这些问题,有什么可以做的呢,我们能做是几件事,第一是常态的问题怎么解决。常态的问题两个,一个你把这个道路的能力提高到最好,就是这么一个道路,你怎么使得他在同一时间段能跑更多车。大家都知道堵的堵在交叉口,把交叉口管好。第二个问题大家都知道要把交叉口管好,我们体系就是在线观察每个交叉口每一个时间段各个方向来的车修情况,根据他然后我们可以在线的预测他下一个阶段会怎么样,我们可以再优化管理好这个交叉口和信号灯以及他的车流组织。第二个问题,所有拥堵不是整个城市,而是局部区域和局域时间段。我们另一个问题就是合理把车流合理分布到不同的道路上面去,和通过时间和空间的方式把这个车流弄到网上,这是我们能做的第二块的问题。第三,基于这两个,我们常规的交通管理可以做到,这立以来很多大量的数据。我们系统现在做的是一方面与现有的数据我们尽可能多的工作来解决更多的后面的事情。

下面一个问题,我想跟大家说一下,还有一个问题就是紧急事件,除了正常问题之后,大家碰到就是紧急事件发生怎么办。我们用大数据,知道这个地方一旦发生事件,历史数据告诉我们,他会怎么样,怎么样。我们可以采取相应的措施尽可能的从外围解决一些问题,这是大数据能够告诉我们的事情。

还有一个问题,这个数据两个,第一个我在做北京奥运交通的时候积累的。第二我做南京京奥会的交通概念。不可能把一个城市整体数据弄的很好,我可以把局部区域管的很好,我们用的概念就是利用动态的监测,这个区域还有外围的数据,然后通过把这些路口管理好,像门一样进出多少车辆,动态调节,保证区域里的平衡。

我们在北京奥运会的时候第一个问题告诉一个是节点管理,第二是路网的管理,第一是节点管理效率提高60%。路网管理,这个专用道占去之后,怎么把这个效率管理好,使得效率更高。一旦发生事故怎么样,这是当时奥运项目带来的。

总而言之,大数据来了我们怎么样智慧的用好这些数据,然后让他为我们的真正的体系服务,是我们下一步要关注的问题,我就说这些,谢谢大家。

 


 

圆桌讨论:大数据和公共事业

讨论嘉宾:
吴建平, 清华大学土木系教授、长江学者、智能交通专家
郭健, 美国哈佛大学生物统计系助理教授
陈曙东, 物联网中心大数据平台农业大数据与食品安全主任
赵勇, 清华大学苏州研究院大数据中心副主任
骆轶航, PingWest创始人、首席执行官

主持人骆轶航:这场我们讲的是大数据和公共事业,这场的嘉宾基本是由研究机构的各位老师、各位人士组成这样的一场论坛,这个跟目前阶段公共事业各个领域都会用到大数据相关的现状所决定的,我们这场是这样的形式。
我现在想既然我们谈到了大数据与公共事业,公共事业其实和国计民生相关,和政府的公共管理和行政治理和国计民生相关的这样一个领域,这个领域会有很多个层次的问题。农业、工业、交通、公共医疗等等这样不同的领域构成的。在这样的情况之下,数据的获取,数据的使用,数据的分析,数据的消费,本身的形态可能更不一样。
我们想从一个话题开始,这个话题接着刚才吴教授的演讲给了我一个启发,提到一个在所谓大数据应用到智能交通、公共交通领域非常大的不同,过去我们只能采集非常有限的一些类型的数据,车的数据,RFID相关数据跟导航相关数据,可能交通整个状况,环境、温度各个方面可能都会成为交通领域数据决策分析的关键。过去看一些相关和非相关数据都会影响到对某一个领域的决策和数据分析的方式。
第一个问题,我们从各自所擅长专业领域然后来去简单跟大家讲讲数据,公共交通领域大数 据从何而来?从哪些方面而来?为什么数据要从这些方面去获取?去采集?

陈曙东:我先来讲一下,刚才主持人问了一个很好的问题,大数据第一个来源的问题。只有汇聚到的大数据,我们才能够说后面一连串的大数据的价值,大数据的应用,大数据的交易等等。我首先自我介绍一下,我是来自中国物联网研究发展中心,也是中国科学院物联网研究发展中心,这是物联网在科学院的总体单位。我们这个中心坚持了以应用为牵引,创新为驱动,主要是进行一些关键技术的研发,也有一个产学研用的一个特征。所以要建设一个国家级的物联网的创新应用示范中心,我所在的中心,我带这个团队主要是做物联网的系统架构和大数据的数据交易技术的研究。就包括了首先第一个数据汇聚,数据的存储,数据的提取,数据的应用以及到后端的数据的交易。我们目前在很多领域,像刚刚提到了在农业农资方面,还有食品
安全,再加上一些智能电网,我们也有跟公安部门在合作。这些数据其实来源都是需要政府层面的一个大力支持,还有行业领域里边的一些企事业单位的大力支持。比如说举个例子来说,我们的农业数据,建设国家的农业信息中心,汇聚我国在农业几十年来的农业数据,包括摇杆(音译)数据还有土壤数据还有现在大棚数据,再加上农资领域数据,种子、化肥、病虫害等等。还有另外一个很重要就是物流,这些数据通过官方网站,大家通过政府层面推动建了这样的平台,政府希望各个用户单位包括我们的农户、农民们他们也能够这些数据能够传上来。还有我们的传感器,刚刚提到了物联网,物联网作为互联网的前期的触角,把这些数据怎么通过物联网的传感器的方式传输到我们的数据中心来,我们再进行一个后端的应用。
关于食品安全这块直接跟政府的参与力度直接相关的,我们现在跟无锡市政府合作,通过无锡市的生命科技园区建设,把目前控制了无锡市95%以上的肉类、水产品以及蔬菜的这几家大型的企业,希望他们的信息系统能够接入到这个平台上面来,从而做一些价格指数的发布,这个是我们主要的数据来源。

吴建平:说到交通数据来源,在做智慧交通这个领域里面,目前交通数据来源一个是通过各个形式的交通管理委员会里边的,出租车公司的运营车辆和公交公司等体系,通过交通管理这边的体系部门,他们通过线圈、视频、车牌识别、RFID等等这些因素。就像我刚才画的中间灰色那块,我认为他都是叫做带有结构性的数据,一个类别的数据。真正要解决交通问题的时候,比如说能够预测一些事情发生的话,就需要更多的数据。我们知道气象数据,包括节假日某些地方会增加人数等等,随着这些数据越来越多的话,会使得我们的管理有很多工作可以做的前面。特别是下一场暴雨,北京整个路网的能力整个变化,我们知道哪些地方会积水,哪些地方不能通行,我们就要避开这些路段,能够解决很多问题。
对智慧交通来说前景非常美好,用更多数据解决交通问题。但是现在数据来源困难的是部门之间的数据,互联网公司,像京东等等,但是政府的数据很难拿出来交换,所以这要有很强大的意识才能把这个问题解决。

郭健:从我自己做的更多是偏软件方面的数字安全,我想从多纬度的角度看看怎么解决交通问题,用大数据的方式解决交通问题。现在更多是像刚才吴老师介绍,我们可以通过在这个路昂铺设大量的传感器监控我们的交通。传感器检测交通是发生过的现实,这个现实往往具有周期性。往往周五和周一的交通拥堵非常的严重,他每个星期、每个月甚至每年,可以通过这种历史数据进行未来近一个月、一个星期甚至一年。
大数据本身是多样性,我们可以从另外一个思路,结合线上和线下的数据来进行整合,线上的数据有一个好就是相对来讲容易拿到,而且成本低。比如早上像邬贺铨院士举的例子,像百度、谷歌的搜索引擎的关键字的流量,可以预测哪些景区会发生拥堵。可以在京东商城或者是淘宝上购买某些货物的这些货物的出货量跟地理位置相匹配去预测。某些地方会出现物流或者是运输上的拥堵。
现在是大数据的时代,数据的多样性比数据本身的多少要重要的多,如何的整合各种类型的数据,让他们在信息上优势互补,这是至关重要的。

赵勇:我们清华大学大数据中心成立的时候主要服务是政府部门、大型央企还有公共,教育、医疗、旅游、交通、物流等方面。之所以选择这个行业,政府和背景的企业和部委,大数据首先要有数据,数据要大,他们数据分析需求比较强烈。现在真正有比较大规模的数据,除了互联网公司之外就是政府部门、央企还有我们的公共板块,这是我们服务的主要对象。
大数据第一步是数据采集,我们认为数据来源于有好几种,第一种是通过传感器和采集设备,在智能交通领域还是很明显的。交通路口的卡口的采集设备、线圈、视频这些方面,还可以增加一些其他的传感器。还有一种数据他是第二种,我们企业或者是政府这种管理、生产、运营这样的数据,这个非常大。第三个可以说大部分商业和企业,他们的交易数据,交易数据其实目前互联网做推荐,做个性化分析的主要的来源。还有一种数据就是用户产生数据或者是用户交互的数据。比如说我们微信,微信我们每天拍照片,发音频,这也是数据来源。第一是把数据汇总起来,才会有大数据的需求。

主持人骆轶航:好,谢谢各位,简单总结一下,有几点我觉得非常重要。第一点就是数据多样化的问题,数据多样化大家会看到各位都提到了本身数据来源不但有政府自身生产的数据,也商业数据,也有中国的第三方个体提供的数据把他们放在一起,然后应用到整个政府的公共服务或者是整个社会的大型的企业公共服务的领域,这点很重要。第二点数据本身的开放度和透明性。怎么把数据打通,牵扯到下面的问题出来,公共事业大数据或者数据跟商业数据最大不一样他没有一个清晰的规定谁拥有数据,谁使用数据,谁消费数据。他可能来自不同的政府部门,不同的部门。工业的部门跟教育部门想到的不一样,第一个是说对整个数据的利益相关各方清晰界定,这是非常重要的,可能是一种政治智慧,可能也是一种操作具体的技术手段。
我想请教一下各位,既然公共事业需要大量的数据,既然我们正在产生大量的数据。那么数据是谁的,谁应该拥有这些数据。谁可以使用这些数据,这可以去接管这些数据的拥有、使用和隐私的保护?

赵勇:对大数据应用是有本身的矛盾的,首先我们说大数据是黄金,对部委和企业来说是最有价值的东西,人们往往不太愿意公开跟大家共享。从另外一个角度来讲,现在我们要走一个数据联盟,开放数据的渠道。尤其现在在美国和英国德国他们已经开始做政府开放数据的试点,英国09年开始有开放的平台,他开放平台好处就是政府可以把我公开的数据可以放到共享平台上,只要对数据有兴趣有能力他可以基于这个平台开发应用、共享应用,这个应用可以被很多人下载,促进数据的使用。
根据我们在国内的实践与经验来说,比如说智慧城市,智慧城市建设最终就是把各个部委和行业数据全部打通,利用多样化数据可以实行智慧决策,辅助这个城市的运行,提高民生和社会化管理。但是我们真的比如说你把公安的数据跟人口数据,跟医疗数据,跟公共交通数据打通,你走每个部委都是困难重重。这个数据本身很有价值,另外他是监管问题,数据的安全问题,泄露问题。这对我们来说目前至少在行政体制上,在数据使用动力和积极效应上还是存在很多阻力。北京市政府已经开放一部分的数据,有几十种数据有一百多个应用。杭州、武汉有一些城市也是在开始做数据的开放,但是总体效果上我觉得还是困难比较大。

郭健:我的理解是这样,政府机构不愿意公开数据,政府为什么不愿意开放数据呢,离安全越近的机构越难开放数据。比如说外交部这是最难开放数据,离安全越远的机构,教育部、科技部相对更容易把这些数据公开。现在从做法上我想更可能是先找一些容易开放数据的部门先去谈,另外刚才做公共数据的时候谁来做监管,谁来做平台,谁来做服务,政府和私营机构是什么关系,监管主体是政府,不完全是政府,完全可以通过私营化运营做一个辅助化的监管。我们的股票市场无论是中国、美国、德国、日本,主要监管机构是政府,同样也是有一些私营这样的基金,他们从事逆向的操作,他们也可以起到一定的市场监管的作用。
数据的拥有者,对数据来讲往往拥有者是政府机构或者系大型国有企业或者是大型医院或者是大型的研究机构。他们数据拥有者不一定是数据服务者,政府真正做数据服务的话不见得效率会非常高。他可以这样,他把能开放的数据先开放给私营企业,由企业来对接数据的接口,真的把服务做好,把2C服务做好,这是公司结合优势互补。

吴建平:我来说一下我的想法,我对未来做一个理想化的预测。首先大数据的系统,这个系统要满足不同的人对进入这个数据库是有不同的准入制度。像普通老百姓只能看看今天路上哪条路堵,哪里发生交通事故了。但是如果做到这一步的话,这样对数据的安全性和隐私性都有了保护,这是第一个前提。如果这两个问题不解决,对他的隐私和安全性不解决,大家都不放心把数据给你,这是第一个问题。如果把这个问题解决了,通过各种非常好的体系,让不同的人碰到不同的数据层面,比如说国家安全局可以进入到所有的数据,像银行只进入到这一类的数据等等等等,这体系一旦建立了,我觉得数据的保障安全性有了,将来这个前提就有了。
至于第二个后面两种模式,我觉得可能会存在。如果是对商业的网络体系的这一系列的他们的数据,我觉得可以用商业的形式来解决,给钱,你提供数据,你拿到钱,从你那里提取数据,你只用什么模式,咱们可以用什么方式来讨论,到底数据是按什么形式来做。对政府部门里的数据,几年以前英国他们把所有数据都捆起来,你提供数据,如果你从里面拿出数据,你就要付出。这样的方式大家把数据拿出来交换,前期就是要有共同的标准这些都是要有,这是基础的东西。
这件事情当时把这个思路推荐给我们国内的部门,他说我们这个数据有安全问题,各个部门,交通委的数据,交通管理部门这边他有公安体系,各自有各自的体系,大家都不缺钱的情况下为什么把数据拿出来跟你共享。如果哪一天他尝到甜头可以给你共享。

陈曙东:刚刚吴教授做了非常理想的状态,这是愿景,也是我们的努力的方向。大家看到的现状,各个行业的数据现在都存在行业壁垒。现在政府要做这样一种网格的形式,希望这些数据通过数据安全共享,全线控制,实现横向到边,纵向到底的大数据的网格。这个数据过程当中,除了技术产品的问题,我觉得技术其实按道理来说大数据这方面的共享这块,应该说是比较成熟。但是关键中国政府要有一个政策的问题,谁愿意把这些数据共享出来,共享出来有什么利益,好处在什么地方。
公共安全,公安部门也想共享这些数据,问题在什么地方呢?本身就是一个专网,你开放出来的口就是单向的,他有一个网闸的功能在,其他部门很难看到这个数据,这是政府层面的。
还有一个民间的,跟民生息息相关的食品安全的例子。我们在推动食品安全的大数据平台的搭建过程当中,遇到一个什么问题呢,就是说无锡市政府我想其他各个省市、各个地市他们也都有相关的政策。就是猪肉有一种叫血脖肉(音译)的销毁渣,到一定的比例,你销毁了多少血脖肉,可以到政府拿一定的补贴。这项政策是好事,但是同时也有一个问题,我们现在对接大型的有行业垄断的企业,猪肉,生猪屠宰这些企业,他们现在去拿这个去拿补贴,就占了公司的盈利的利润基本上有的达到5%以上,已经很高了。这个真正的数据是一种什么样的形式呢?我想根本就达不到这个数字,政府也都知道,但是这些数字怎么来去控制。我举这样一个反面的例子,也就是说数据开放出来之后,可能对我现有这些企业短期之内利益的损害,我们通过政府一个有利的支撑,老百姓积极参与,这个数据终究会开放出来,希望引入市场竞争的机制在里面,得民心者得天下,真正市场在谁手里,这个数据终将开放出来。有一段路要走,技术这块也是非常必要的推动作用。

主持人骆轶航:谢谢,数据开放可能面临不同层面的障碍,来自抵触。四位都是乐观者,对数据的监控和数据的开放和数据的使用既乐观,又有预期。这里又有两个方面的问题,第一个问题就是说从政策层面应该有什么样的机构或者是什么样的职能去协调这些数据的开发。我举例子的话,我一年半之前,我见过旧金山市的首席技术官,他现在工作两部分,一部分把整个旧金山市云端化和数据化。另外一个工作就是把旧金山市的开放数据的做法。我们看到城市的CTO,算是城市的高管,很重要的位置。放到这边,至少也是市委常委的官员。对于这个,我们怎么去这样的机构设定有什么样的界定和想法和定义,这是监管层面。
第二层面我们都是市场经济的信奉者,第三方的开发者怎么能够基于政府的数据开发应用,其他大的公司、小的公司怎么进来,然后去激励数据做一些事情。对后者来看,利益机制怎么样更明朗,让更多人愿意去做,市场的手才会发挥更大的作用,才能更有效的推动前者的形成。一个是政府什么样的职能去协调一个事情,这个事情有什么样的设想。第二是怎么激励公司,尤其是包括科技创业公司去参与到这个进程当中来。

赵勇:作为数据监管来说,肯定是需要一个公信力机构做数据监管,最适合角色就是政府来做这个工作。我看到包括我们国家在上海已经在成立一个大数据局,这是针对数据专业政府型的机构,能够对数据进行管理。最核心管理首先是数据的拥有者是谁,使用者是谁,使用的权限怎么定义,是分级别的。最后如何使用数据这块如何受益,最终就是利益驱动。在美国的公司,做了很多年,包括跟微软的合作,他是第三方数据公司,他能够包括你两边的数据跟隐私相关的数据他能帮你剔除出去,把这两个数据进行整合。我作为数据使用者我拥有一定的数据,你是另外一个数据,不希望把这些隐私被泄露,我交给第三方公司,他做好处理,然后两方数据对接上,不会泄露相关的隐私信息。从10年开始在西雅图有一家创业公司,他是商业化运营收集行业信息,他对数据做整合,做加工,再返回来通过数据提供服务,这种服务不是基于单个的数据来做。如果是单个点的数据,他可能涉及到你现在在什么位置,前行速度是什么样,这涉及到个人隐私。我是多个用户,多个车辆的用户,我看整体的车辆或者是看趋势、看拥堵,他是把底层一些详细化数据去掉了,用到是一个整合的去隐私的数据,这样可以把数据的价值发挥出来,同时又规避掉一些隐私和安全问题。

郭健:我谈一下政府怎么协调把这个数据开放出来。在旧金山市有一个CTO,我去年当时参加美国麻省理工学院的创业活动,一个演讲者他是帮助美国设立监管的法律,保证数据在使用的公平性。美国例子有很多参考性,中国国情跟美国很不一样。首先美国每个政府官员的压力是自上而下,中国每个政府官员压力是自下而上。必须由最高权者获得最高权利机构把这个数据应用指标往下一级一级压下来,这是可行的方式。先把指标压下来,然后同级机构进行协调,这是如何做数据的协调性。
另外一个问题是关于中小企业如何获得跟大企业一样的,能够从政府开放平台里面同样的获利,与其政府去激励中小企业,不如先把自己的平台做好。如果你有公平的平台让大家公平博弈、竞争,事实上小公司和大公司相互之间并不存在特别严重的迭代,竞争肯定是存在。大公司首先做事情要有一个战略上判断,这个生意至少几千万、上亿的生意,小生意他就不会去做。这里有很多小公司留下巨大生存空间。阿里巴巴马云说大项目是踩不死蚂蚁的,有众多细分领域,小的领域可以养活巨大的小公司。

吴建平:关于这个刚才前面说了一个初步的设想,我还是觉得把他叫做理想化,想象未来可以怎么样。我觉得大家都说数据就是金钱,基于现在的云,咱们就把他做成一个银行,就数据银行。今天大家可以把你的数据都存在里面,某种形式存在里面,有人用你的数据的时候相当于向银行借钱,付利息的。政府今天不怎么开放,他可以少量的无关紧要的可以先存到大银行里。不是政府向一些城市,中国现在很多城市有信息中心、信息办各个名字都有,总而言之就是想协调数据。政府有政府本身的特点,如果想变得更公平,是民间独立的银行一样性质的,他们来管理数据会显得更公平,对大家都按同一标准。是政府的话,因为政府有政府功能,我期待未来有一个数据银行。大家都拿数据,你今天多余的数据就存在银行,这样的话开放、公开,可以养一大帮找贷款,推销员等等,未来构成这些资源。

陈曙东:中国的大数据的共享和应用都是市长负责制,一把手负责制。政府层面把行业的数据以及他们的开放和协作得从政策上有一个监督和推动的作用。其实我个人认为跟吴老师说的是非常一致的,市场机制才是真正能够检测一个企业或者说一个项目是不是真正有用,能够存活下来有价值的一个机制和公平的机制。大数据这块就是政府搭台子,各家唱戏,各自精彩。在这个上面,我们中小企业或者说是民营企业我们在做什么呢,我们可以在政府搭建的平台上面,把自己的应用,把自己的长处做好,政府可以将来买你这个应用。我们可以通过商业模式这块,通过一个BT或者是BOT的方式,我们中小企业,我们私营的企业,我们可以做自己的专长,将来让政府为你的付出买单。

主持人骆轶航:这块我听到有两种不一样的声音,市场第三方机构来推动这个声音,还有一个声音就是中国是中央集权制的国家,有一个中央政府来管辖地方政府的机制,这需要往下拉的方式。这就牵扯一个问题,第一个大企业、小企业参与不可能少。比如说有外资企业,有IBM参与、思科参与,中国企业有华为参与、浪潮参与。他不能少了企业参与,最近有传言说中国政府开始要求在一些公共服务,尤其是公共事业、公共服务领域,大家尽量少用一些中国之外的服务。传说中去IOE,大家知道中国的银行,大家知道IBM服务,诟病很多,埋怨很多,但是大家知道中国大部分的商业银行如果没有IBM系统,还不知道会出什么样子。政府现在也提出来用公共服务,去IOE。
这里有一个问题,如果这是一个必须要去做的事情的话,我们有什么办法弥补去IOE之后这样商业服务的空白?一个是中国自己本土的,商业公司,有没有这样的服务能力?以及如果去IOE的话,接下来的事情应该怎么办?

赵勇:中国之所以这么依赖IOE系统也是有历史原因,我们从80年代开始发展,那时候国外的软件、硬件很成熟了。中国的官本位思想,我在这个位置上把这个事情做好就行,不犯错误。引进国外的先进稳定成熟的技术成为主流。在我们国家像服务器是IBM,数据库是Oracle,他占到中国市场80%多以上。经过几十年发展,最后形成国产软件根本起不来,现在操作系统、数据库在我们中国是有一些企业在做,但是基本上没有形成主流。
现在一个是国家信息安全这样的整体考虑,既是机会,也是挑战。最大机会在于我们真正的民族自主的硬件软件系统,可以说是看到春天了,至少是从国家政策层面可以鼓励软件企业的发展,鼓励自主知识产权的发展,这是非常好的事情。另一方面,你去IOE不是一朝一夕的事情,他们的技术确实非常的成熟和完善,我们怎么样填补这个空白?我觉得尤其是在大数据的领域,大数据在国内炒这么热,他有核心的根本就是基于开源技术,开源技术可以说是没有国界,在全世界大家水平都相当。我们国家互联网公司阿里巴巴、腾讯在大数据技术方面积累和水平也是相当高的。这方面我们有一个开放,开源共享的平台跟我们同发展数据库、操作系统,我们是可以逐步来赶上的,这是非常好的机会。但实际上这个过程中间,我们如何应对我们本身的软件还没有起来,国外的软件我们又要淘汰出去呢,这个实际上是有一定的空档在里面。我们可以基于开源技术,不是很成熟的解决方案,我觉得中国、美国、欧美的软件企业发展的一个最大区别在于,美国公司包括政府是以效率效益为主,他是允许试错,如果不允许出现错误,一出错误领导就下台,没有人敢试用你不成熟新兴事物。在体制上允许我们试错,我们可以基于他这样的技术来发展我国的信息产业。

郭健:去IOE之后不用太担心,因为信息产业或者是信息技术是我们中国跟美国差距最小的一个行业,总体在软件方面的差距最多也就是三年。刚才赵教授提到我们可以用很多开源技术,这个很好,并不是开源技术整个系统不稳定或者是他的用户体验不好,这个基础上开发非常好,非常便捷。美国绝大多数公司他们的数据基础架构或者是基础设施也是基于这种开源的体系,目前绝大多数互联网公司用的是开源互联网的架构,既满足了微软和谷歌,特别是谷歌用的是不开源的系统,雅虎用的是开源系统,用的非常好。开源的东西,随便拿过来,代码开放,在他的基础上做二次加工。完全可以满足去IOE之后,绝大部分的应用的需求。

吴建平:这个问题对我来说有点太专业了,因为我本人也不是做计算机硬件软件的,我从中感受一点,说有这些问题因为源头都在信息安全上的问题。没有这个问题,就不存在今天要考虑,就不用IOE体系等等这些说法了。基于这样的话,我赞同前面两位专家说的,我们不用太担心,第二我相信这里有更多的做信息安全的人形成巨大的市场可以发挥他的作用。

陈曙东:关于去IOE这个话题,其实可能在座各位都听过,最近比较流行微信圈子里面有这样的说法,如果把IBM去掉,就类似于把一个餐馆里面整个的后厨给拆掉重新换。把Oracle去掉就等于是换大达到厨和菜单,把EMC去掉,类似于整个装潢和储物间都去掉。这个事情对于一个大型饭店,五星级酒店来说非常困难,更加困难的是这家饭店必须要24小时黑白运营。这就说明这个路非常的艰巨,但是我们也看到这里面很多的机遇。其实说尤其是大数据这块,我们讲过大数据其实是基于云计算的技术,还有互联网的一些技术,都是基于开源的,尤其软件这块是基于开源。尤其是虚拟化的软件,阿里其实当年也是把这些改了一下,我们现在其实国内协调都是有很多研究机构都是在研发相关的软硬件一些平台。现在运行我觉得已经满足了很大一部分关于数据行业里面中等量级企业的要求。所以说这个事情我觉得去IOE,不是一件特别可怕的事情,但是路要长,我们还要有信心,在这个机遇里边有一大批企业其实已经成长起来了,尤其是我们这些公司可能是一些小公司。中国就是有很多都是关心,从小做成大,又小又大这个事情怎么解决呢。我觉得在开源大数据的硬件开发环境之下,小数据可以专注于某一研究的点,把这个点做好了,将来会有大的企业给你买掉,自己慢慢就变成大的了。我个人回国一两年时间之内,在市场经济领域里边的一点感触。

主持人骆轶航:谢谢各位,时间差不多了,简单总结一下,我们谈到几个要点,第一个要点就是公共数据的开放怎么实现一个渐进式的有步骤式的开放,这个过程当中政府和民间的监管机构和第三方独立监管机构当中和企业共同发挥什么样的作用,使得更多数据一点点被开放,一点点被效仿,一点定被应用,我们从而实现在食品安全、医疗、教育、交通等应用,通过数据开放实现共赢。大数据有时候数据即服务,数据即商业,数据即透明,数据即公平,数据即自由,谢谢大家。


 

郭健

演讲人: 郭健,哈佛大学生物统计系助理教授
演讲题目:智能硬件中的大数据

郭健:非常感谢,今天非常容幸有机会跟大家交流一下,我讲的题目就是穿戴设备中的大数据。两个原因,一个是我估计这两天IT圈最火的两个概念就是穿戴设备和大数据。还根据我自己的经历谈谈自己的体会和自己对可穿戴设备中的大数据的应用一些展望。

我想把我的演讲分为上下两个半场,上半场我主要介绍一下现有一些穿戴设备,包括穿戴设备引申出来的体感设备。我自己做的跟医疗相关的穿戴设备。第二谈谈我自己对穿戴设备数据的分析和数据挖掘的一些思考,他对我们大数据的研究和应用带来哪些新的机会以及面临什么样的困难。

首先我们把穿戴设备放到更大的场景里,智能硬件产业,所谓智能硬件是什么意思,我们身边有各种各样的传感器,智能交通传感器,还有到我身上的测血压,每天走路多少步,各种各样的传感器。这些传感器通过不同的组合,不同的优化,可以为我们的生活带来更多的便利。如果把这些传感器穿在身上,比如说像现在比较流行的像谷歌智能眼镜,像智能手表、智能手环,还有智能的T恤还有智能领带、智能项链等等。通过传感器可以理解我们每个动作,达到每个表情的含义,延伸出来另外一个就是体感设备,大家最熟悉体感设备,用你的手来控制整个电脑的操作,屏幕缩放还有翻页等。

如果把各个传感器给你的家和房子穿上就变成现在的智能家居,通过手机当电视摇控器,你的电冰箱发现冰箱里面牛奶快过期了,他会给你发短信,甚至帮你去淘宝上或者是京东上订一瓶新牛奶,让我们生活很方便。然后是智能城市,往往跟过去五年很重要概念就是物联网直接相关,刚才吴教授重点提了一个智能城市当中非常重要的应用,就是智能交通。同样还有相关的像智能的医疗、智能的电网、智能的水暖体系。如果把这些穿戴设备缩小放到我们车里边就变成现在另外一个概念就是车联网,我们在车里可以跟其他人进行沟通,实时了解现在交通的情况。

我摘取了市场上比较有代表性的可穿戴设备,我重点谈一下穿戴设备,顺便说一下体感设备。穿戴设备知名度最高就是智能眼镜,眼镜就好象是我们另一双眼镜,通过智能眼镜看到许多我们眼镜看不到的东西。比如说当我们在街上走看到一个餐馆智能眼镜就显示这个餐馆今天有什么样的优惠,这个餐馆最热门的招牌菜是什么。第二幅图是这是三星的智能手表,现在做智能手表厂商越来越多,智能手表更多是相当于手机另一块屏,戴在手上,对用户体验主要就是不用每次把手机掏出来看时间和短信,直接可手表。还有智能手环,健康概念,光是测心跳,靠智能手环传感器测心跳不是很准。还有其他的穿戴的例子,他看起来像手表,其实是一个项圈,定位你家里小猫小狗防止跑丢。中间是智能水杯,可以提醒你定时喝水。旁边是智能体重秤,把这些数据实时传到手机上作为健康的管理。下面这个是小贴片卡住手把上,之前没有打过网球,想学网球的人,在我联系网球的人通过智能传感器计算我网球拍的运动轨迹,跟专业人士进行比较,是一个智能训练的过程。再旁边很有意思,这是比较超前的设备,像孙悟空的紧箍咒,戴到头上,可以知道人的脑电波,可以用我的思想和意识控制电脑的翻页,遥控模型飞机。最后这个很有意思,我上个月刚刚看到一个,是一个智能化的纹身,把物联网中RFID的技术,绘制到身上。如果有一些通信功能,随时更新健康的数据。

接下来谈体感设备,我们的动作去控制电脑,LeapMotion,小模块插到电脑上,进行图象识别,通过我们的手控制电脑的措施,甚至可以在电脑上打游戏。

这个设备是Myo,用各种聪明的办法来实现体感,不是通过摄象头,而是通过测量我们的肌肉信号,我们任何动作都会有一个肌肉信号,他收集这些信号,然后进行精确算法,对应我们哪个动作。反推回来,用我们动作,像右边这个图用我们动作进行打游戏或者是电脑翻页甚至是控制智能家居。

现在我简单谈一下我自己之前的课题,我自己做的可穿戴的设备。这个设备可能没有之前谈的那么酷,也是很有用,他是为做早期的眼镜识别,为什么选择眼镜,我们身体经常得一些疾病,糖尿病很早期的时候测血糖很难测出来,但是眼底视网膜可以看出来。有一些色斑。眼底镜测量人的眼底视网膜,这是早期糖尿病患者的视网膜,有黄斑。医生往往根据这些图象结果,有医生的判断,然后再结合其他的比如说血糖测量综合进行判断。但是这个方式第一个仪器非常贵,他的成本高。我们要通过人工识别,所以这种可靠性不是很高。我们得到数据就是年轻医生平均识别正确率只有70%左右,必须要去医院或者每年定期体检做这样的检查,很不方便。既然是移动互联网时代,有人提出了咱们能不能把这个东西移动化。有人提出这个想法,拿手机把图片拍下来,并没有实践真正的移动化。真正移动化我们应该用一种穿戴设备的概念,这是我现在正在做的一个项目,我们要做一个手机的附件,他是V型的摄象头,通过这个来照人的眼底,可以这些数据实时做存储。为了解决人力成本的问题,我们通过我们自己的图象识别跟机器学习的算法,进行早期的诊断。最后再把这个结果返回给人。

这是我们现在在合作的手机拍摄,我们现在正在开发比图片的镜头还要小。通过这个摄象头我们得到相应眼底的视网膜的数据,通过我们数据分析的算法,和现有很多病人的数据这种比对,我们可以对用户患早期糖尿病风险进行评估,这个评估比较高的话建议用户可能考虑去医院是不是找医生检查一下。我们做进一步改进,第一步要把这个摄象头进一步小型化,越小越轻便使用的人越多。这样带来一个问题,图象质量很差,我们在改进我们的算法。我们在低质
量的数据和高质量的数据的分析算法当中找到一个平衡点。

我们下一步也在想跟智能眼镜相结合,他是把外界摄象头直接打到眼底视网膜,能不能附加一个硬件设备,把结果返回来,这样可以更加取得这样的图象。下一步可以作多疾病预测,并不光是糖尿病在早期有视网膜反应。还有青光眼早期都会在视网膜上显示相关的特征,我们想做一个综合预测平台。

最后谈一下普通用户把这个数据拿给普通用户是没有用的,他得到你这个建议之后他们能去干什么。我可能有一个比较高的概率,现在患有很早期的糖尿病,这时候我懒得去医院,这时候能不能有一个远程医疗,我远程跟一个医生沟通一下,这样由医生给我提一些建议,做一些咨询,看看我是不是真正的需要做更深入的检查。光有数据没有用,我的观点一定要把数据和服务的鸿沟填平。我们看能不能把远程服务跟上,这是我们做的项目。原来我准备了关于我自己对做基于下一代智能眼镜一些数据服务这方面的讨论,但是我想时间原因我可能就先讲到这里,非常感谢。


 

圆桌讨论:大数据和穿戴设备

讨论嘉宾:
覃政, 蚁视科技创始人、首席执行官
郭辉,时云医疗科技联合创始人
李学健,加丁科技首席执行官
代万辉,37健康云首席执行官
李维志,土曼科技副总裁
刘维, 联想之星执行董事

 

主持人刘维:跟大家说一下,主办方安排我们这些人做最后一个论坛,我们在座的各位都是有产品的,一会大家不走,听的好,他们可能会捐产品抽奖。
刚才主持人简单介绍了有五位都是做大数据方面可穿戴设备的嘉宾,请他们每个人介绍一下自己的公司和自己的产品。

李维志:各位大家好,我是李维志,土曼科技科技副总裁。大家今天很多人来是我们公司CEO王总,他今天抱歉不能来到现场,有急事,我是临时代替的,希望大家不要介意。

代万辉代表融辉(音译):大家好,我叫融辉(音译),是37健康云,我是联合创始人,主要在公司负责数据这块,今天跟大家来探讨这个话题。我们公司是37健康主要是做移动医疗方面的健康管理的工作。大数据这块也在搭建大数据的平台,现在目前做血压这样的领域,现在有自主的APP,后面大数据平台也在搭建,我们会更多介入用户的数据进行一些分析,给用户更好的服务。

李学健:大家好,我叫李学健,是加丁科技的CEO,很庆幸今天能坐在这。加丁科技是去年开始,做高品质的可穿戴设备,我们两款产品,一款是针对孕妇的可穿戴设备,第二个产品是跑步,还在研发中,很高兴给大家做介绍。

覃政:大家好,我是蚁视科技的覃政,我们专门为游戏打造的游戏装备,这个产品我们现在是在投资,23万美金的投资额,我们公司是致力于穿戴设备的显示领域。这个产品是游戏玩家合规的产品。我们也在研发自己的智能眼镜,两个产品线都是专注于可穿戴显示,他是一个新的界面,给大家提供新的数据,来进行大数据的方面的尝试。

郭辉:大家好,我是时云医疗科技联合创始人郭辉,我们获得美国实验室的授权,来进行规律来进行分析,来发现用户健康变化和健康风险预警,给用户提供个性化的改进方案。今年会推出三款硬件,第一款已经上市在各个电商网站进行了上线就是体重分析仪,第二款硬件是我们的除了健康腕表。最后第三个产品就是血压的管理设备,我们通过血压的连续采集来去发现高血压患者,未来的老年痴呆、中风等风险,谢谢。

主持人刘维:我是联想之星刘维,我们是联想控股投资,全能产业链,在在座各位是对可穿戴设备和大数据的标的,可穿戴和大数据也很多,你们都说可穿戴和大数据。真实来讲,当前的大数据是什么,大数据是你们最重要的业务或者你们对整个业务的一些可穿戴设备是围绕和利用大数据来构建和展开,请各位回答这个问题。

郭辉:我先说,我们都是围绕大数据展开的,现在在行业里边很多人会把移动医疗和移动健康管理混在一起,我们认为这两个领域是有天壤之别的。原因是什么?首先我们看医疗服务,实际上我们把医疗服务定义为是一种悖论型的服务,当用户感觉到身体有影响的时候才会到医院去检查身体,但是如果你做健康管理的时候,这时候还没有显现疾病。但是你这个数据采集的目的和意义不一样,更多对未来健康变化的预警。这里面我们看到是说你传统里的医疗服务体系里面对已有的数据进行判断。你数据是由医生进行人为分析,你戴的设备每分每秒都在采集数据。你依靠人进行分析的话这可能很难去处理这么大的数据量。我们在数据分析模式上有不同。我们不再关注单点数据采集单点分析,而是根据不同规律进行判断。根据我们合作美方的合作实验室他们结果表面,人在健康状况情况下,他们是呈现波动稳定规律。你健康变化有某种改变倾向,我们通过这种方式来做用户未来健康变化的预警。通过这样的情况,将来每个人身上有可穿戴设备的时候,可以对这些数据进行判断。
智能硬件对健康带来的变化在传统生当中我们对健康的变化是不一样的,当感觉异常的时候已经形成病灶。我们希望通过未来通过数据量化来取代。举个例子,日常中当我们意识到肥胖的时候,当我们穿不进裤子的时候意识到变胖了,恢复到原来身材的时候,你投入的时间和精力很多,而用我们的体重分析仪,身体微小的变化都可以分析到。当你身体发生变化,可以及时运动来恢复。怎么通过数据量化来去取代感觉。包括我们健康腕表,为什么增加心率、提问、心电处理。我们面对人群针对高危行业的过劳人群。去年7月份奥美广告公司小伙子27岁,连续加班,猝死。很多明显的信号,因为工作忽略了他。我希望将来通过我们的设备,能够把这些身体给出的信号量化,让他自己和他周围的人知道这是风险的状态,能够及时条件和改变避免这种事情发生。当你发现你的感觉和数据量化的状况给出提示是一样的话,未来越来越会依靠这些体征数据给你的提示,越来越去及早发现健康风险。

覃政:我说说穿戴设备在视觉领域大数据一些狂想,目前我们第一个产品是针对游戏的产品,他目前来讲是没有大数据的,有智能眼镜,跟他们结合在一块,GoogleGlass刚出的时候,如果微软做智能眼镜什么样子,做一个视频说把整个画面占满了,告诉现在网络链接有故障,这是暴力方式。有人担心,美国有一个公司,大家会担心他在未来做游戏的时候,蹦出各种广告。大家对这些东西未来的想象,但是未来就是这样的。
在未来的可穿戴的显示器,他必须要跟广告结合到一块。大家打开任何一个网页,里面有一个方块告诉你有一些商品你可能感兴趣,这些商品正好是你在某个搜索引擎或者是购物网站搜索到的,这是做的精细的广告投放。这样的东西,他在未来一定要通过新的界面,就是可穿戴显示器来进行更加深入的广告推送,这是很重要的方向,也是最大的盈利点。
为了实现这样的方式,谈到你面前说是广告,这是一种方式。我们做可穿戴显示,希望用户24小时佩戴,走到任何地方时候他显示出来的信息不会遮挡你正常使用的情况的。你显示出来任何一个信息都是画面能够显示的地方,我在开车,我要给我推送一个路矿信息,一定要是天空上面或者是地面上面推送的信息。这就有一个问题,我们数据系统,我们云端服务器端收到信息的时候,他如何确定你这个时候如何显示呢,这就是姿态和位置的感知。每个用户他的设备,云端必须知道你在看什么东西,你的位置是什么地方,他给你推送的信息是正确的。我现在坐这个位置那边有个墙是有重大信息的,我眼镜显示出来一个感知的广告或者是购买链接,这可能是实现的方式。这个需要未来大量的数据处理的方式来做,我们定义新的平台方式,就是我们认为是在物联网之后,新的一种形式就是位联网,在这个形态下面,所有用户他的位置精确到他在看什么东西,这些数据是公开的。这些数据用到商场上,一个用户走到商场,告诉你商场什么东西在打折,打折商店在什么位置,他会完全告诉你这些信息,这种情况下大数据完全是可穿戴显示。

李学健:我简单说一下,我觉得自从加丁科技角度来看,大数据与可穿戴设备结合是在一些细分垂直领域需会更强,举个例子,第一作为孕妇,其实做这种手环类的东西,市面很多,我们买了很多,拆了很多,研究很多,没有设备可以戴很长时间。其实是有很多数据,但是在广泛的人群里边,大家把这个数据真正利用起来。在这个特定领域,孕妇领域,运动对于她们来讲有一些特殊的意义。在这些领域里边,我们认为对这些数据进行挖掘是有意义的。包括我后面做的类似做跑步人群,其实也是很特定的细分人群。同样的体征的提取,像心率,像GPS,类似这样的数据的提取,在特定人群中我们认为他们会发生一些群体的效应。比如说我们可能是基于跑步、赛道、跑步地理位置、人群聚合,基于一个赛道你跑步的心率,速度比较,这些其实未来都是和数据发生关系,产生很有意思的一些效果。
从我的观点来看,未来加丁科技还是会在一些很垂直的领域里面找到一些与大数据结合的机会。谢谢。

代万辉代表融辉(音译):结合大数据这块,因为我们公司是做医疗健康方面的一些东西,所以对于医疗健康方面我简单可以概括一下有哪些数据,一方面就是对于在医院他可以获得很多数据,这种数据更多门槛比较高,可能是一些医疗病人的诊断的记录,电子档案还有一些影象东西,医院和议院的数据互通不是很顺畅,这种数据门槛是比较高的。还有一些政策性的数据,这些数据的分析可能给决策者一些很好的帮助。实际上在这么多数据当中真正存在近况是另外一种,我们每个人自身的一些数据,每个人他每天的活动,每天的体重、血压还有他自己的所在的位置,这些数据量是更大一些。现在我们通过可穿戴设备和移动APP,可以很轻易获得这些数据。我们公司围绕这些数据展开一些工作,我们可能会搜集到用户一些信息,用户个人一些基本信息他的年龄、性别、职业,还有用户体征的各种信息,血压、身高、体重这样的一些信息。我们可以看到他模型的分布,给他一些预警之类的东西。
另外我们也在还有一些用户的位置的信息,用户每天所处的位置可以通过传感器上传,通过位置信息可以带来周围周边的信息。还有比如说我们也在做一些社区化的工作,用户可以参与到社区当中的问答。用户可以和医生有一些问诊和交流在移动方式的问诊和交流,在这里可以获得一些非结构化的一些数据,一些图片,一些聊天记录,也能够反映出用户一些行为的。我们是结合了这种各种各样的数据,同时我们也向科研数据医院他们合作收集更多数据。通过这些数据收集,我们能够更好去做一些数据分析工作,给用户提供更好的服务。比如告诉他你最近身体的情况是什么样的,同时也能给他推荐一些更好的运动方式或者是更好的饮食的合理结构,饮食习惯。

李维志:很多都是对大数据的看法和应用,我自己本身就是技术专业,跟大家分享一下,可能做这些方面的产品的想法。大家看到是手表这块的产品,但是我们在对未来包括即将推出第二代,我们其实是想做不光是一个可穿戴的硬件,我们想做一个服务的平台,我们希望通过可穿戴可以提供非常贴心的服务。这个手表是一个终端,我们理解他不光光是靠APP的形式去体现,更多是语音,语音是人类交互非自然的一种方式。所以我们会推出一些像天气,不再是打开手机,刷屏,输入密码,看APP,而是直接看手表。对着手表说我要打车,然后告诉你车已经到了,不用再打开手机看。这样的来源需要很多数据的支持,嵌入很多的生活服务,这是我们想做的。包括社交,我们也希望给用户带来不同的社交体验。你现在比如说要去找旁边的人,
陌陌、微信这些,将来可能有一种情况,我们公司内部一件事,大家可能有点搞笑,可以分享一下。有一个男同事对着手表说附近有美女吗,手表回答说亲,你艳福不浅,美女可多了。但是当换个人做这个测试的时候,回复是,你媳妇知道你这么做吗?这是说笑,但是服务是取决于对这个用户的了解,这跟用户的了解是有很多大量数据的收集。手表是非常自然的可穿戴,不像其他的很多产品,不需要改变别人的习惯。我觉得目前为止土曼科技不算是一个大数据公司,我们会往这个方向走,我们会收集很多用户的数据。
前几天看报道包括百度说过现在收集数据很多都不是有用的,最终来讲,我们收集什么样的数据是有用的,对每个穿戴设备也许是不同的。我们希望在这方面继续发展,我们有很好的团队也在这方面,通过大数据给用户提供更好的用户体验,更贴心服务,这是我们的计划和愿景,谢谢。

主持人刘维:停下来大家对大数据的期望不尽相同,大家也都提到大数据长期的收集,不光是可穿戴,互联网时代现在也就是大数据的时代,包括手机都在做物理世界的数字化,数字世界的理解化。
问大家两个问题,大家都提到要收集数据,在座好几位都是占大家的手腕,不可能戴那么多块手表。我们也看了很多数据,他绝对的出货量,利用他的留存率,因为这个东西他会有一个自然的更新。你如果这事不能持续,我举个例子,我前一段胖的比较厉害,我天天记录卡路里,量体重,那时候没有用健康秤。很快奏效了,奏效结果就是我瘦下来了,瘦下来之后我渐渐找到一些规律,大概知道我每天应该吃卡路里大概是多少,我知道我的体重,预测我的体重,到底是维持还是涨一段还是降一段。
第二个层面想跟大家探讨,收集很多数据也是类似,你再往底层来走,现状的传感器和机器算法,量体重,测的心电,做一个东西,相信别人也能找到更好的来做,会不会保证有的数据过少。有的数据最刚需没有,大家都在找传感器,如果能测的更准,这个东西是不是不是我们在座能解决的,这是两层面的问题。听听大家的意见。

郭辉:第一个问题非常好,就是可穿戴硬件如何去解决使用黏性的问题。上个月我在上海见了美国的一个可穿戴公司领导,他跟我聊了一个数据,在美国基本大的平台,这一类设备6个 月后基本上用户不超过10%,每个人使用方式,大家觉得戴手表很方便,就继续戴着。我们采集数据的核心目的是为了什么,这个数据能够给用户生活带来什么改变。如果只是运动数据,用户最开始很新鲜,我需要我每天的行为大概会有什么样的变化。但是用户的坚持需求是什么,不会想知道数据,而是想知道我是不是健康。有风险,如果有我是不是需要改变,这个方法是不是有效。我们做这个可穿戴设备的时候,一定要围绕体征数据采集,有体征数据采集才能有对未来健康变化有预警。像其他的不能做提前预警性分析,这是第一点。
第二点我们讲可穿戴设备将来可能除了黏性之外,还要考虑对设备的复用率,当你身体处于 一个相对不正常的状态中,我需要设备帮我观测我身体是否处于不健康的状态。当我恢复正常了,我可以把他放到一边了,将来没有机会再被重新使用。你去采用体征数据,能够进行他个性化分析的时候,我现在又开始进入相对疲惫状态,用这个设备避免意外。我们更关注设备复 用率是什么。
第三点,刚才刘维谈到体重和数据使用的刚需情况,实际上越来越多人包括我们在国外做的调研体质分析仪的设备用户。用户会说我的数据是不是超过我的正常波动范围。直到我回到正常波动范围之后再去改变。你必须要让他知道怎么理解和应用数据的过程,这是可穿戴设备要去努力的事情。
第二个问题我做一个粗浅回答,目前看到百度、京东,在这一类的数据平台里,目前的可穿戴设备并不多,他是希望能够接入更多的设备,在这个过程当中忽略一个问题,就是硬件采集端的规范性,每一个平台会接入很多的硬件设备,这些数据采集不同厂商提供设备采集数据可能很难做交叉性分析。如果你不对前面硬件做规范性要求的时候,后面设备不做,很难做有价值的分析标准。
现在大部分做可穿戴设备公司,他的发展逻辑都是硬件、数据、平台战略发展逻辑,我通过对传统的设备进行工业化外部的改造,增加一些数据传输模块,接到云端,把第二个智能硬件给用户,然后产生大量的海量数据,然后形成模型。并不是所有人在讲发展逻辑,发展逻辑里面存在两个线性,第一线性是智能硬件是基于传统的体征设备改造过来的。传统体征设备采集设备是单次采集和单次分析,你无法规范用户使用设备采集数据的有序和有效性。
第二来讲,一个真正分析模型形成过程是一个长期的分析模型,必须要有理论技术来去支持, 需要很多数据去验证。很多人会把血压的数据,不同人群的时候,他的血压波动规律是不一样的。我们正好相反,因为获得美国实验室的授权,他几十年一直在研究这个体征波动的部分,有了数据需要的前端,我如何采集满足我数据需要的要求,如何符合用户的使用习惯,融入生活,改变生活。
我们是平台数据硬件,硬件最后端我们要考虑到很多数据采集需求用户应用场景的问题。在未来三到五年后,对所有平台,也会关注如何把前端硬件采集规范化和标准化,这才是后端数据分析价值的基础。这是我们对未来一个判断。

覃政:我接着聊下在可穿戴设备方面一些问题,主持人提到了用户黏性问题。这也是大家关心的问题,我们的第一款产品是一个娱乐产品,是一个新硬件。我们非常关心就系到底有多少应用,多少游戏能够在这个上面使用,这是我非常关心的。我们在设计这个最初比如说我们可以保证他跟市面上98%的游戏都可以很好的使用。如果有专门对他进行定制开发的游戏可以实现很好的效果,实现更加完美的效果,这是我们产品的初衷。让用户拿到手里之后他可以每天都去使用,因为他的使用性是非常的丰富,可以玩各种各样的游戏,看电影、看电视剧、上网都没有问题。
另外说到智能眼镜这样的平台,我们认为智能眼镜这个平台和未来他不是单纯是一个智能硬件,他应该是在手机或者是外表之后同时期新的点。大量APP在这个平台上诞生出来,它的用户使用一个黏性取决于到底能不能在这里跑起来,使得用户生活当中几乎所有需求都会用到,这个终端上解决的话,他就会实现。我们用智能眼镜在最终手机上什么位置,成为标准化的方式。这不是年轻的问题,而是成为迭代性问题。
第二是采集数据这块,可穿戴设备尤其是可穿戴显示器他24小时工作,可以采集到不光音频数据还有视频数据,一定要有摄象头进行图象捕捉。目前需要在立法方面先通过让社会能够接受24小时实时采集画面这样一种硬件设备长时间使用,这也是GoogleGlass,在美国法律和很多场合使用这种可穿戴设备。这个未来不是问题,肯定会有一种方式能够保证这些图象数据被合理使用。这些数据真的可以当成大数据被使用的话,图象数据是最难处理的数据,里面有大量信息量。这些数据进行采集之后,数据库,我们不同的应用上对他数据处理,能够对这个事件进行完整的处理,可以进行呈现,这是未来很多时候大数据处理的趋势。
谷歌推出在手机上头来做整个世界的感知,未来一定会移到GoogleGlass上面,对于整个世界感知是未来的方向,这是大数据一定要解决的问题。
李学健:我说说对可穿戴设备大家到底黏性的问题,是不是一直愿意购买和使用,我有自己的一些看法。首先我认为最最核心还是在刚需的过程,很多现在市面上设备大家用着用着不用了,很大原因就是刚需上面出了问题。比如说我对于睡眠,我大概睡眠一辈子都这样,你告诉我睡眠不好或者是怎么样。我走路我每天计步,上下班就是这样的,你告诉我我走了一万步又怎么样,在刚需层面我认为出问题了。我们其实在最开始做产品的时候,也在往大市场,比如像运动市场是很大的市场,那么多人都运动,几亿人每天都跑步,但是你发现做什么的时候发现很多问题,我们无法让用户持续戴,我们在垂直领域。
我们发现很有意思的事情,像做孕妇领域,做的跟其他的运动是一样,运动减肥,运动控制体重。我想大部分人首先想到减肥控制体重的时候第一不是运动,而是控制饮食,恰恰你嘴上还是要补充大量的营养,这时候是不是你运动策略和方法,包括你的测量,由这种看似不是刚需,变成刚需。
像跑步也是,平常测量一些步数还有心率、脉搏,我天天慢跑,对我来说没有什么意义。我每天跑半个小时,只要时间够了,距离就是小区楼下跑就可以了。如果你给他设定一个目标,我十月要参加北京马拉松比赛,最多跑过8公里,我要跑44公里全程,我自己定的目标是不上收容车,不被关门。这样的现代科学方法非常关键,就是搭配我在过程中我的体征指标是怎么样的。像马拉松人群,前一段又出现一起比较恶性的跑到最后猝死了,这是非常悲伤的事情。这是年轻人,跑到30多公里,40公里的时候,马上就要到了,我要冲刺,冲一个成绩。实际上他的心脏和身体已经跟不上他的意念了,有这样的悲剧发生。有这样的设备在特定的场景下机制的提醒,告诉你我们要控制自己,可以把你的速度,频率降在合理范围内,这样的情况下是
不是这些数据就变成刚需。
我认为,我们其实一直在寻找,希望把看不是刚需的东西变成刚需,这也是增加可穿戴设备大家愿意去使用的一个黏性的一种可能。
另外更现实一点,我发现很多人买可穿戴,特别是腕、项链,最重要你要做的好看,舒适。我们做的软件女性市场非常挑剔,对做工,你们出这个有没有别的颜色,我们还有粉红色,你们只有粉红色吗,没有别的颜色吗,大家买设备戴身上,前提就是他好看,戴出去是一种标志。我们发现周围很多人,金融圈的朋友都戴可穿戴设备,他睡眠有问题吗,没有问题,但是戴出去有范。
用户花钱买这个东西戴在手上,就是一个每天陪伴他的东西,好看、舒适。现在很多设备做的不够,充电是很大的问题,最多做到一两星期,要去充电。我们看传统的表,很少担心电量问题,戴到手上就是走时间。我们很多智能硬件做的不够,我们让用户很喜欢佩戴,对于可穿戴设备来讲这是很难的事情。
然后对于数据收集,我相信中未来这种数据的开放我觉得是一定的,不可能有两家企业做真的所有数据,如果这些厂商能够遵循同样一些标准,集中平台里的,这个平台他开放一些接口让第三方数据分析公司,然后再去对数据进行分析、加工、利用,我觉得可能是一种模式。现在谈这些是比较早的,第一步让用户大量购买,天天愿意使用我们设备,可穿戴领域还处于初级阶段。大家先把这步解决是更现实的一个问题。

代万辉代表融辉(音译):第一个问题确实应该就是用户黏性的问题,我觉得不管做移动APP还是做可穿戴设备都会遇到这样的问题。我想可能前面几位嘉宾讲到了有这么几个解决的办法。比如说第一个可能就我们一定要找到用户一些需求在哪,你做这款产品,你想给什么样的用户来用。比如说我们知道大姨妈他是专门做女性生理周期的,他的人群就是特定人群。统计我们使用用户地域和年龄信息,更多集中在30950岁中间,因为他可能这个年龄段的人一方面开始关注自己的健康,另一方面他也有这种智能设备的追求可以去接受先进的技术。如果20或者是年龄更小得人他可能没有健康的关注,年龄更大的人对技术的追求尤其是很多人不会用智能手机。这也是有方法,可以针对比如说大姨妈有男生版,让男生用这样的APP。健康方面可能更多的是老人和孩子是分开,分居两地,孩子更关心老人的健康,我们是不是针对子女老人做一些事情,让子女提醒父母测量身体指标,血压、体重这样的,找到用户需求在哪。
还有做设备的时候,希望更多可能要符合用户一些习惯,在用户体验上要做的好,如果是做血压计的话可能更多是不是测量血压以后就可以直接传到服务器上,不用任何操作,操作越简单越好,人们使用起来越方便越好。很多做的厂商都是做的实时云端同步,比如说测量完以后,自动的数据上传,或者是在各种地方都可以同步看到这样的数据,体验起来会更好一些。
其实重点还有一方面就是结合数据这种服务,你要给用户更好的服务的提供。他有了这样一些数据过来以后,你一定要给他反馈,告诉你是好还是不好。我们的反馈不是很专业,但是一定要给用户反馈,给一些激励机制或者给他一些推荐,整个多做一些事情,在垂直业务流程上多做一些事情,业务流程可能会结合其他厂商的东西,比如和其他厂商合作,和电商厂商合作,和诊所合作。测量完数据之后,是不是数据有问题,是不是可以推荐一些产品过来,你去使用他,然后同时我是不是给你推荐其他的东西过来。这个流程使用起来会更加方便,让用户下次再用的时候,我测完血压,身高体重,我可以有一个健康方案,他可以直接买东西,直接送过来。在服务商做的更好一些。
第二个问题更多是需要所有这种做可穿戴设备、医疗厂商共同做这个事情,数据共同接口做好,大家共建环境,硬件标准还有软件的标准。

李维志:关于用户黏性,我个人认为有一部分是用户的替代值的关系,我买一个跑步机我就会瘦,大家看我身形就知道了。现在很多产品都属于第一代或者是初级阶段,很多用户产品的体验还不够,用户会觉得我觉得有一些问题,我不想用。
另外我赞同各位嘉宾说的刚需问题,我们不去改变人的习惯,我们用你平常都会用的,更便捷,更方便,这是我们关注,在社交还有通信我们前期关注,还有更好的体验和使用这个东西。关于数据这点,首先要数据,才会有大数据。而现在所有穿戴搜集的数据还是不够,还是初期的。你要经过一段时间之后,你在大数据,要有大数据你才能够分析,大数据本身的特性是慢数据。所以需要时间的累计,然后去分析,才能把他的价值体现出来。

主持人刘维:时间所限,不再问问题了,简单做一个总结,几位说的都比较一致,首先要有数据,才有大数据。大家都谈到了要聚焦,要专注,一些刚需问题。只有更聚焦,更专注才能把痛点拉的更准,设备本身才可以活下去,设备公司才可以活下去,活下去是你积累数据,才谈得上大数据。我开玩笑说最刚需的可穿戴设备就是心脏起搏器。大家都是找刚需的过程。我们做投资过程当中有一些感触这个专注一个是对需求的专注。做平台、数据、硬件这是几个环节,在这些环节上现在的生态系统,你擅长是工业设计。相反刚才谈到了有了数据之后,我们去继续学习,但是也许在座嘉宾,走着走着你的特长在这方面。我们投的专门的深度学习的公司,专门去做这一件事,怎么来解决更好的识别跟理解。反过来讲,他并不用自己去做硬件。现在硬件厂商都非常想要,我们也面临这样的机会。感谢各位嘉宾的分享。