【大数据100分】
主讲人:齐红威
主持人:刘东华
承办:张江高科技园区大数据产业联盟
齐红威,数据堂(北京)科技有限公司创始人、总经理。2004年,获中科院自动化所人工智能与模式识别专业博士学位。2004-2011期间,NEC中国 研究院,智能信息处理研究部部长,高级研究员。2006-2007年期间,斯坦福大学计算机系访问学者。中国计算机学会大数据专家委员会委员,中国计算机 学会YOCSEF学术委员会学术秘书。
我昨天主要也是聊了自己的很多困惑,希望今天大家集思广益能把一些问题更清晰化。(回顾上期文章可发送编码 h14)
互动内容:
Q1 YX:数据资产实际上也可以认为是一种虚拟财产,而后者在法律上定位不清就像知识产权的定位争议一样。
皇上:@YX 同意,而且是非常重要的虚拟资产。
齐红威:是的,晚上和陈新河老师也在聊版权的问题,如何界定是个大问题。
YX:知识产权的争议差不多已有百年。
Q2刘东华:数据拥有者、大数据技术和工具提供者、大数据应用服务提供者。版权问题是不是只出在第一种角色身上,商业模式是三种角色都需要考虑?
YX:对一个产业来说,产权问题是一个根本问题
齐红威:数据不拿出来流通,版权问题就不那么重要吧。
Q3 innovate511:@YX 例如联通的数据,到底算消费者的版权,还是联通的,或是联通授权公司的呢?
YX:我不能肯定联通拥有的数据是联通的。
徐琪:联通数据当然属于联通的。当然它作为一个垄断性公众公司,一些大众利益性数据可以免费开放
YX:@徐琪,美国联邦基金,金融,IT :根据目前的法律精神,用户的数据,我们不能任意二次使用的
Q4齐红威:@innovate511 同样的例子,微博数据,大众产生的,新浪等聚集的,所有权该属于谁呢?
皇上:界定是一个大问题。
DowsonLiu (刘睿民):有时候的确模糊,比如我经常打交道的超市数据,超市认为他们拥有数据的产权,但对于处理的我们来说,经过 模型筛选加工过数据应部分属于我们。而其实连超市从某种意义上属于消费者。
innovate511:@DowsonLiu (刘睿民) 以前说信息不对称,是原始信息,现在大数据产生的挖掘信息,产权是否已经变化了,有明文规律么?
Q5徐琪:数据的生命周期必须明白,设计,采集,分类,储存,更新。
Kingbell:样本库加数据才是最佳资产,可以界定,不失窃
齐红威:就单个领域数据服务而言,产业链上的各方可以协商版权的处置,但要是做数据市场,这个问题就比较尖锐了。
Q6刘东华:原始数据是否拥有“大数据”的价值,是否是“产权”争议的核心?我举个例子,可能不一定合适:常看到很多人在公园里捡银杏叶,捡一大堆,然后 拿回家不知道怎么处理一下,就有用途了。这是不是跟大数据的概念类似:一片两片叶子,其实是没啥实际价值的,叶子多了,就有用了。公园的树,理论上叶子的 产权也是公园的,但当零零散散的叶子被人捡走的时候,其实没人去追究,是否侵犯了公园的产权?
YX:原始数据可能还比较好界定
刘东华:但是如果你去公园砍树,或者一次把所有树上的叶子都给摘走,可能公园就得报警了。
YX:因为信息是可以免费复制的
Jameslu:原始数据应该像空气,水一样,不应有产权的概念。只有加工过才能有产权。
齐红威:东华总的例子很形象,这代表了数据版权界定的一大类,这类界定清楚了,其它类型的数据版权相对都比较好界定。
刘东华:咱们这也叫“众筹”啊。
齐红威:@Jameslu 我很赞同这种观点,大众产生的数据是空气和水,不能直接收费,但是我们加工了形成瓶装水就可以收费了。
Q7 innovate511:手握大数据最着急的是电信银行,其次才是大型互联网电商。电信与银行都有高价值数据,但无法给自己业务带来太多增值,但卖又不能卖,于是电信衍生出很多合作商,银行也开始搞电商,虽然很初级的电商。
何鸿凌:商业合同或者使用协议中需要明确数据归属,大家可以看看浏览器服务协议中,都写了这条。
YX:因为信息是可以免费复制的,这一点,是和知识相同的。
何鸿凌:不过即使拥有数据,也不代表可以任意使用,比如数据用于征信什么的,又需要用户二次授权。
YX:我还没说到数据还涉及到隐私。
innovate511:@YX 电信数据除了营销外,还可以产出交通部门从另外角度看人口流动,也可以给政府提供反恐反犯罪,还可以用通道优势研究舆情,网名关注流行趋势等,这些都不涉及用户隐私。
齐红威:隐私数据需要界定使用,是法律问题。简单粗暴的先不和版权问题挂钩是不是就好处理了?隐私数据是能用还是不能用问题,版权是如何使用的问题。
Q8刘东华:从公共场所采集的原始数据=没有版权;从私密场合采集的原始数据=有版权+隐私;这样的理解对么?
齐红威:呼应东华总,我也是这个意思,你说的更精辟。
苑Lee:@刘东华 软交所 公共场所,私人场所,这个在真正操作上不好界定,容易造成数据采集的滥用,个人观点。举个例,个人在宾馆住宿,餐厅吃饭,乘坐车船等交通工具,这些算公共 场所么?如果这些无版权,单个信息价值不大,但都拿出来,都很容易判断个人行踪,所以对版权的讨论也离不开隐私权吧。
innovate511:@苑Lee 这也是大数据魅力所在,单数据,单维度都没什么,一旦跟踪到全面的周期,就是量变到质变。
DowsonLiu (刘睿民):@苑Lee 其实我们的客户(各品牌商如可囗可乐)就是想得到用户行为分析规律。但我们一直坚持不提供原始纪录。
Q9 Dowson Liu (刘睿民):超市的确属于公共场所,但很多交易都和积分卡,信用卡信息交叉。那这些交易算不算私有呢?
刘东华:@Dowson Liu (刘睿民) 您再说的具体一些?
DowsonLiu (刘睿民):@刘东华 有一半以上的超市交易是有积分(记名或不记名)卡或信用卡相连的,是否可以算是私密,即便发生在公共场所。
刘东华:@Dowson Liu (刘睿民) @苑Lee那看是否应该这样表述:“采集到的信息中是否涉及个人隐私信息”?
DowsonLiu (刘睿民):的确是这样的
YX:@DowsonLiu (刘睿民) :是的,这些都应该在协议中明确
齐红威:@YX 赞同,隐私是在数据使用时发生的
Q10皇上:我觉得还有一个具体数据内容的差异化问题。比如我们经常举例:麦当劳通过一个区域的用电量来判断开店的可行性;这里是一个统计数据,使用此类 数据如何判断;若麦当劳通过供电局了解到具体每一个住户的用电信息,包含门牌号码,用电量,这与前面的统计数据相比,是法律定性的问题还是定量的问题?
Q11 innovate511:很多行业采集必须涉及隐私数据,政府,金融银行,电信,航旅四大行业,无法避免。
刘东华:貌似“隐私”这个词儿也不是很准确。从法理上,隐私权应该只是针对自然人的。大数据采集过程中,也可能涉及到不宜公开的法人信息?
YX:我们现在确实是这样界定的,因为我们的客户有很多法人
刘东华:不同粒度的使用数据,隐私问题的敏感性也会表现得程度不同,粗粒度的统计展示不到个体数据,隐私就不敏感,一旦细粒度的展示隐私就凸显了。
Q12 YX:原始数据应该无所谓颗粒度。
皇上:粒度粗细如何评判,不同粒度的差异是定性问题,还是定量问题,值得讨论。
Q13 齐红威:不好意思,我岔开了话题到隐私上,本来聊版权的。相对版权,隐私问题还不难解决。
YX:隐私权法律上有严格定义,欧美的理解略有不同。就不展开说了。
刘东华:版权是在“交易”中得到体现的。
齐红威:是的,数据不发生交易价值,版权就无实质意义。
刘东华:拣来的树叶就是没版权的,买来的树叶就是有版权的。不知道理解的对不对。拣来的树叶就是没产权的,买来的树叶就是有产权的。不知道理解的对不对——马上改。
Q14齐红威:是不是可产权不明的数据分为把“所有权”和“使用权”,就像农村的宅基地,所有权是国家的,但使用权是农户的。数据也一样,微博数据所有权是大众的,使用权是新浪的。所有权者保留权利,可以不主张权利。
皇上:@数据堂-齐红威 ,这个解释很棒
楚人怀玉:@数据堂-齐红威 所有权和使用权的解释很棒
Q15楚人怀玉:能在大量实践例证之前完全弄懂数据产权需要大智慧。
YX:@楚人怀玉:同意。法律需要寻找最佳实践
楚人怀玉:音乐也是。但是音乐会泄露出来,被侦测到,数据却作为生产要素躲在后台。
吴小兵:如果数据不是为了赚钱可能就简单多了?
楚人怀玉:@吴小兵 高校师生多欢乐。
楚人怀玉:@YX 也许数据的使用需要统一的可管控可检测的接口去实现。@YX 对数据调用情况的大数据分析。
吴小兵:@楚人怀玉 我已经脱离研究所(病毒病所)了,在管理一个生物医药园。整天也关注医疗、医药、健康等领域和生物技术产业的大数据,生怕一不小心就与这伟大的机遇擦肩而过了。
楚人怀玉:@吴小兵 我们也在探索大数据如果走文创项目,政府补贴这条路是否走的通,钱来了,氛围更像个研究所而不是公司。
吴小兵:@楚人怀玉 我现在有两个工作,一是在北京亦庄生物医药园做管理,另一个是在张江高科技园区美中生物技术产业集群创新联盟做志愿者。很有意思的是,我发现企业和NGO组织的角 度很不一样,企业必须有商业模式,需要考虑股东利益,而NGO组织则只需要一定的资金维持自身生存和组织壮大~
楚人怀玉:@吴小兵 NGO很共产主义~~创新活力不会被资本所阻碍。
Q16花甲青年:@刘东华 能否先讲讲可交易、能交易大数据在何处?
刘东华:@花甲青年 阎主任出的题好难。
花甲青年:@刘东华 这是交易的前提,不知道是否有,能否交易,就不存在产权和隐私等问题了。一直在困惑中,盼高人指点迷津!
Q17刘东华:我个人其实是有个疑虑的:大数据的价值,来源于数据本身还是对数据的分析结果?假如我这里有10万条数据,你想知道什么,我告诉你结果,而不一定非得把我这10万条数据卖给你,是不是就能解决问题?
齐红威:数据+分析=价值。数据=nothing;分析=nothing;数据+分析=价值。
YH@Peng:@数据堂-齐红威 数据价值模型是:数据+创新+分析+新应用=数据价值,没有创新,无价值可言!数据产品的价值60-80来自创新!
苑Lee:@数据堂-齐红威 @楚人怀玉 我觉得这种解释也不错。
苑Lee:@YH@Peng同意应用和创新的加入。如果仅数据加分析,相对还是传统的数据挖掘,在此之上开发出创新的应用程序,有的应用程序的应用使用户 需求理解更为精细化,营销推广更为精准化,产生了全新的商业模式,改变了消费习惯,可能由此激发的变革更有价值。
YH@Peng:没有创新,所有的精准显得多余!
Q18花甲青年:@刘东华 大数据的价值在能利用他得到有价值的结果。不被分析和挖掘的数据再大也只是存在潜在价值。
刘东华:那天白硕老师提到比特币原理,虽然我不是很懂,大概揣测是不是这个意思:相当于所有的数据拥有者之间并不需要直接交易数据,而是数据应用需求方给出需求(假设理解为一个计算公式,里面需要调用N多中函数),数据拥有者分别给出我能计算出来的函数值即可。
楚人怀玉:@刘东华 10万条数据如何去解决误判,是数据本身造成的还是分析方法造成的。然后从此甲乙方掰扯不清。
刘东华:比如我最近在做薪酬体系,我要向咨询公司买数据。咨询公司并不是把他数据库里的原始数据给我,而是问我需要选择什么样的标杆、多少家,然后把统计出来的结果给我。
刘东华:@楚人怀玉 大数据的价值核心真的很在意“精准”吗?
楚人怀玉:@刘东华 或者说。。。数据对咨询结果负责
Q19花甲青年:我认为在相当一段时间内,大数据的分析和挖掘能力是交易的主体,而不一定是数据本身。一次性购买数据只能有限次使用,只有持续购买才能持续发挥作用。有几个单位能永远持续购买数据。又有几个部门能持续出售数据?只有政府能行
刘东华:@花甲青年 貌似您成功的把问题引回到商业模式上了
楚人怀玉:@花甲青年 微博 淘宝 运营商能,当然最大的寡头是政府
刘东华:就想大家担心的,数据本身是可以被轻松复制的。那么以“出售大数据”为生的行当,岂不是自己断自己后路了。。。
楚人怀玉:@花甲青年 如果数据的应用分析方式在国内能够申请专利,大量的数据屌才可能有逆袭寡头的机会
花甲青年:政府拥有大数据,肯定会开放数据,只是时间问题。政府肯定会很快地转到大数据思维的状态,政府部门不可能养很多大数据的专业人士,一定会通过社会化服务来解决问题。这就是各位的机遇
苑Lee:同意!
YH@Peng:政府大数据不逐步开放,吃亏的是整个国家,一起建言!
葛忠海:不公开或者有限公开不是国家意志而是部门利益割据的问题,就看部门利益服从国家意志的进展速度了。
花甲青年:如同信息公开一样,数据开放不会太久。大家看看国家发改委关于信息惠民文件,已经明确提出数据开放的工作。
追逐自由:@花甲青 年 现在关于大数据,大多数人更多的在讨论什么算大数据,数据的价值到底是什么,大数据的价值究竟有何意义。另一拨人则在基于有限的开源软件开始鼓吹大数 据对现有IT系统的颠覆。传统数据厂商则在痛苦的思考如何革自己的命。数据,包括大数据中的价值是毋庸置疑的,总有一天需要落地。我们的方法是默默的潜伏 和韬光养晦,努力推出处理各种形式和规模数据及发掘其价值的系统,默默等待那个时刻的来临。
YH@Peng:在努力、在前进,比如他们已经入驻群里,这就是大数据时代的魅力!
皇上:@追逐自由 嗯,其实我觉得,也不必凡事必“大数据”,从我目前观察到的情况来看,很多其实还未必达到“大数据”的层面,我们没有大数据,把手里有的“小数据”先用好。
花甲青年:@追逐自由 现在更多的是大数据人士在讨论大数据,还是要把大数据的拥有者和使用者成为大数据的主体,大数据才能更快发展,甚至是才有可能发展。
刘东华:有“小数据”的朋友们,说说你们看待小数据的心态:是否会出售?
楚人怀玉:@刘东华 真心不会,太便宜了
花甲青年:有用的数据不在乎大或小,大也是从小开始和积累的。
YH@Peng:建言极是!数据产品!非数据内部转圈!
老丁:其实政府的大数据有用,但是不够精准,因为政府的大数据有时只是一个统计整理存档备案的目的,并没有想过其他用途,所以要用政府的数据创新还需要具体问题具体分析。
花甲青年:@老丁 关键是政府转到大数据思维,大数据决策,基于大数据的精细化管理,基于大数据的精准化服务,当这些成为政府的常态化和程序化的工作时,各位还愁无用武之地吗?
皇上:我们其实有一些数据,很多涉及用户隐私数据,目前主要在公司内部使用,虽然也有过思考,但是想到交易,确实有很多实际的问题
追逐自由:其实,现在很多行业数据化思维和数据化运营理念和方法论都比较弱,只是大数据产生了很大的刺激。其实很多行业走的不踏实,突然需要跑了。
皇上:@追逐自由 是的,我们在企业内部,也在不断推进数据思维,希望领导、业务部门,都重视起数据化运营的概念。
Q20刘东华:咱群里有没有哪位朋友所处的机构是“大量产生原始数据”的?可以参与讨论,是否认可“出售数据”的商业模式?
齐红威:对,数据拥有者最有发言权。
楚人怀玉:@刘东华 把“大量”两个字去掉,偶们也算一个
皇上:我们公司其实每天也都在产生一些我们认为比较有价值的原始数据,但是目前来看很难进行数据交易
Q21白硕:数据一旦可用,怎么用是很难事先预测的吧?
皇上:@白硕 很难预测,基础数据就像石油,能够加工出的变形太多了
齐红威:@白硕 同意白老师观点,所以就带出了交易中数据定价难的问题。
Q22葛忠海:出售数据肯定是最终的模式,不同挖掘能力的群体对数据的价值理解是不同的,经过挖掘的数据再出售给挖掘企业价值就小很多,对于这类公司肯定需要原始数据更好。
刘东华:@葛忠海-软交所 有挖掘能力的向有原始数据的买数据,有使用需求的向买了数据的挖掘商买结果?
楚人怀玉:@刘东华 曾经有一个数据应用,利用音乐大数据指导潜在热门歌曲的版权收购,再利用通路炒高。
葛忠海:大数据只是个概念,任何能从中无限发现价值的数据都可以为大数据,不论他的体量有多大他占用存储空间有多大。
楚人怀玉:@刘东华 我们更愿意的方式是用数据参股而非直接卖,同时保留60%的数据留作自用。
花甲青年:@刘东华 建议软交所立即开展大数据处理能力和大数据结果入场交易的研究和部署工作。这是大数据最大的商机。
刘东华:@数音堂-楚人怀玉 数据入股,这是真正的产权交易范畴了。
YH@Peng:@数音堂-楚人怀玉 BBC 2012制作了一个“大数据时代”(The Age of Big Data)记录片,里面有些想像力。
Q23 YH@Peng:我在新开设的“大数据科学与技术”硕士课程中特别强调数据产品的“设计”与“创新”。 以凸显大数据科学是多学科综合的。
花甲青年:@YH@Peng 现在奇缺的是懂政务&懂大数据的符合人才。
YH@Peng:需要培养,我国的教育需要有快速相应机制!
花甲青年:@YH@Peng 数据也是生产力。数据产品更能凸显数据的价值。数据产品价值取决于数据挖掘能力或数据创新能力。
阮彤:这活是培训公司做的,教育不负责这个问题。
YH@Peng:培训公司与高校培养人才的方向与责任不同。培训公司目前填补了大量高校的不足,高校更新太慢!
刘东华:没关系,咱们O2O,从群里到现实业务,大家集思广益,通力合作@YH@Peng 。
齐红威:今天从版权聊到隐私,又回到版权,又议论了很多合作的可能。非常感谢大家。