0539-75574332

YOCSEF广深思辨:复杂大数据聚类分析的机遇与挑战在何处?2021-06-22 00:08

本文摘要:2019年6月2日,YOCSEF广州分论坛、深圳分论坛在广州大学城中山大学数据科学和计算机学院顺利举办了简单大数据分类分析的机遇和挑战在哪里?大湾区IT创造论坛。本次论坛由YOCSEF广州AC委员、华南农业大学黄栋博士、YOCSEF深圳AC委员、深圳大学陈小军博士联合担任执行董事长。广州分论坛副主席王昌栋博士,广州分论坛主席邓天永博士深度参与,AC委员韦光、杜透、李冠彬等参与。

芭乐app下载污幸福宝

2019年6月2日,YOCSEF广州分论坛、深圳分论坛在广州大学城中山大学数据科学和计算机学院顺利举办了简单大数据分类分析的机遇和挑战在哪里?大湾区IT创造论坛。本次论坛由YOCSEF广州AC委员、华南农业大学黄栋博士、YOCSEF深圳AC委员、深圳大学陈小军博士联合担任执行董事长。广州分论坛副主席王昌栋博士,广州分论坛主席邓天永博士深度参与,AC委员韦光、杜透、李冠彬等参与。

论坛共有北京理工大学、澳门大学、中山大学、华南理工大学、华南师范大学、华南农业大学、广东外语对外贸易大学、广东工业大学、广东药业大学、深圳大学、哈尔滨工业大学(深圳)等十几所大湾区大学、深圳市公共卫生健康委员会和众多着名IT企业的60多人参加。广州图普网络科技有限公司获得活动赞助商。论坛分为先导报告和辩论光明日报两个阶段。

先导报告阶段由陈小军博士主持人。王昌栋博士以多视图非线性集团为题,重点说明了非线性集团、多视图集团、多视图非线性集团的理论、方法和进展。陈小军博士以面向大数据的聚集方法为题,说明了大数据场景下的聚集模型的构建和优化,以及在大数据的聚集问题中的应用。张晓峰博士以基于半监管聚类结构调整的分类方法研究为题,阐述了不具备自动调整模型结构能力的半监管聚类模型。

黄栋博士以从构筑聚集类到大规模聚集类:限制资源下的大规模聚集类问题并存为题,从构筑聚集类的几个最重要的问题开始,进一步将话题延伸到通常的单一环境下,可以应对千万级数据的大规模聚集类和大规模构筑聚集类研究。经过先导报告的多角度说明,论坛以简单大数据集中的机会和挑战为中心,进行了与议题有关的辩论光明日报。

辩论光明日报的一环由黄栋博士主持人,参加者对以下三个议题展开了合理有据、针锋相对思考性的正反方面辩论。在大数据时代,无监管自学的重要性更加明显,还是慢慢消失?深度自学正在进行,集体分析合作,还是各部门的职务?各公司的工作是什么?大数据集中分析,最需要解决的瓶颈是硬件、数据还是算法?光明日报议题1:无监督自学的重要性更加明显还是逐渐消失?广州分论坛主席郝天永指出,无监管自学的重要性不会更加明显。大量数据的兴起往往预示着缺乏标签或难以标签的问题。

例如,在医学领域和金融领域,无监督自学可以在没有类别的目标的情况下更好地解决问题,因此更加明显。华南农业大学黄栋博士在一定程度上站在正方形,指出少量标签信息可能会让无监管模式效果深刻提升,但有时候模式设计好不好比否特少量监管信息更重要。

对于一个好的无监管模式,甚至可能在许多数据场景下比一些半监管模式表现出更好的性能。更重要的问题是模型本身是好是坏,实验和数学是否有更好的支持。王昌栋则站在反,以中山大学校园卡数据实际项目为例,标签不足的情况下,不同的监督模型得出结论的差异非常大,之后要求将不监督模型更换为半监督模型。

陈小军博士也站在反方面,提到以前实现的腾讯金融风触数据,规模特别大的只有没有监督自学的结果,没有类别的目标,无法评价,业界也批评这个结果。陈小军博士补充反应,反对半监督的方式,在现有的半监督作法中,将有监督的loss函数和没有监督的loss函数展开人群是典型的手段,但这样的人群好坏也是他最近思考的问题。光明日报议题2:深度自学朝着,集体分析合作,还是各司其职?深圳大学陈小军博士回答说,深度自学与自学数据密切相关,之后可以用通常的分类算法进行分析,但对分类分析中的近距离自学没有贡献,如何利用深度自学提高近距离自学,或者如何利用深度自学对非线性分类数据进行线性空间的密切相关中山大学邓志鸿同意利用深度自学的方法来自学习数据的低维度传达,完全一致地合作。

根据回应,黄栋指出,一些深度自学聚类分析与研究有关,但仅在图像数据集(或高维数据)上进行实验,对图像这一低维度、有效特征无法提取的简单数据,深度自学在特征回应上的优势明显,但对于大规模低维度数据,未来也是各部门的职务。邓天永指出,深度自学在特征提取和其他领域发挥最重要的作用,合作可以达到目标,但道路还很长,现在两者职。澳门大学冯绮颖先生提到自己现在正在进行深度集中的研究,用深度自学提取高维数据的特征进行集中分析显然可以取得良好的效果,但同时计算复杂度下降的问题和深度自学必须参加提高模型效果的问题。

陈小军指出,集体分析的想法是无监督的,如果不合理的征集推荐违反无监督自学的本质。王昌栋指出,深度模型在参与特定数据后进行聚集,与没有监督的原作不同,另一方面在特定领域效果好,但普及性好,转换其他类型数据的可能性很高。

黄栋交换参考问题明确提出了不同的意见,算法分为专用算法和标准化算法,专用算法对某种数据有效,标准化算法限于广泛数据,两者都有意义广州大学姜誉博士指出深度自学和集体分析各有所长,深度自学可能应用于集体分析,但更好地应用于其他领域,两者仍将各司其职。光明日报议题3:大数据集中分析,最需要解决的瓶颈是硬件(计算能力)、数据还是算法?陈小军指出,目前仅次于瓶颈是算法,数量众多,硬件计算能力非常强。

例如,微信每天缴纳十几亿的交易次数,仅次于瓶颈就在算法上王昌栋指出,大数据集中的只次于瓶颈就在数据上,应该从数据分布的角度来考虑,根据数据的特征来设计适当的算法的何宝华明确提出赞成王昌栋博士的结论,但是赞成正式成立的理由,从数据的取样和信赖度来考虑陈小军博士从另一个角度问这个问题,他指出数据清除仍然是算法的一部分。但是,除了算法之外,数据清除往往需要专家的科学知识,如医学专家、金融专家等,专家的科学知识可以解读为数据的范畴。广东药科大学傅城州博士认为,数据不好,我们的目标是在数据中找到问题,解决问题,瓶颈不是数据,而是需要很好地解决问题的数据问题的算法。

芭乐app下载污幸福宝

黄栋博士用生动的比喻说:炒菜不好炒,不能做原料,要反省的是烹饪技术不炼!广东工业大学杜透射博士表示,以前的项目经验,大部分时间都花在数据清除上,但这部分不顺利,不能积极开展以前的核心算法工作,数据的整理和清除只适合公司的人,学者可以更加专注于核心算法的设计。中山大学李佩珍指出,在尊重算法和数据的同时,不能忽视计算力。硬件和算法仅次于瓶颈,计算能力的瓶颈不是太大,而是太accessible,很多人都知道超计算是如何使用的。论坛光明日报议题讨论后,大家的意图还没有结束,讨论了议题三产生的派生议题数据孤岛问题大数据大,哪个多,最可怕?大样本,大维度,大噪音,还是其他大?讨论联邦自学和入学问题,讨论跨医院、跨银行数据共享问题。

参加辩论的人各自持有的观点,从不同的角度展开白热化分析,冲击出有很多思想的火花。这次广深领导大湾区IT创造论坛圆满成功。中国计算机学会是计算领域对外开放的专业学术社区,坚决以会员为本的宗旨,致力于推进计算技术的发展和应用,致力于专业人员的职业发展。

CCFYOCSEF是中国计算机学会青年计算机科学技术论坛的全称,是中国计算机学会(CCF)于1998年成立的一系列专业活动。总部设在北京,目前在广州、上海、杭州、长沙、成都、深圳等26个城市建立了分论坛。

活动形式主要包括主题论坛、学术报告会、学术评价、评价、贫困地区助理等。


本文关键词:YOCSEF,广深,思辨,复杂,大,数据,聚类,分析,的,芭乐app下载污幸福宝

本文来源:芭乐app幸福宝下载-www.eldarscripts.com