科技部落

  • 数据标注丨AI技术背后的力量

    随着AI技术的发展,大量NLP问题得以解决。并且针对不同任务,有了与之对应的模型。然而,这些模型往往需要大量带标注的数据去训练,这导致在很多任务中模型变得难以使用。在项目中,由人工…

    2020年10月30日 699 0
  • 基于滑动窗口的实时同步架构简介

    背景 随着业务场景的不断丰富,基于T+1天的数据决策显得捉襟见肘,而深度分析与挖掘的实时性要求也越来越强烈。当数据规模较小时,使用事务性数据库(Oracle, Mysql)进行数据…

    2020年10月29日 557 0
  • 深度学习在篇章级文本分类中的应用

    文本分类是NLP领域最经典同时也是最基础的应用场景之一,有很多种方法可以实现这个任务。我们常见的是对句子进行分类,而篇章级别的分类则会更复杂一点。常见的篇章级别分类有针对文档或文章…

    2020年10月28日 1238 0
  • 智能外呼场景下的核心通信能力探索

    趋势与背景 在智能语音领域,语音AI是最早落地且应用场景最为广泛的技术之一,自引入深度学习后进一步蓬勃发展,变得更加炙手可热。作为重要切入点,语音AI一方面整合了底层算法与能力调用…

    2020年10月27日 650 0
  • 埋点浅析丨用户行为事件晴雨表

    这不是一篇纯技术文章,仅仅是个人对埋点经验的分享,希望通过浅显易懂的说明,让非技术的伙伴能快速了解这些埋点概念。 埋点是什么 在业务逻辑中嵌入数据采集代码的过程,就是“埋点”。它是…

    2020年10月26日 429 0
  • FD-Triangle Count——前景有向图三角计数算法

    常用的社区发现类图算法有联通子图,标签传递,Louvain Modularity及三角计数。每种算法侧重点不同,复杂度也有较大差异,实际应用中需要考虑计算时间和资源状况。针对目前项…

    科技部落 2020年10月19日 517 0
  • Hudi框架丨数据服务实时化利器

    近些年,随着业务场景的不断变化,企业对数据服务实时化的需求日益增多。为了满足这一点,需要在分布式文件系统(如HDFS)实现高效且低延迟的数据摄取及数据准备,从而构建面向分钟级延时场…

    2020年10月19日 481 0
  • 揭秘海象分布式存储系统

    第一章 前言 延续了大数据海洋生物的产品系列,海象在海水中靠着流线型的身体、发达的肌肉以及强有力的鳍状肢,行动自如,大而不笨。就如同我们的海象系统一样,在承载了成千上万的文件之后依…

    2020年10月19日 750 0
  • 一站式人工智能平台建设实践

    AI是目前互联网行业的“顶流”,无论老牌巨头还是流量新贵,都在大力研发AI技术,为业务赋能。然而,要将机器学习/人工智能技术在实际工业应用中持续高效地使用,并推广到更多的场景,仍然…

    2020年10月19日 686 0
  • 产品经理眼中的数据治理

    什么是数据治理? 我们时常听到周围同事如下的声音: 数据分析师小A:这个表里面的字段连个注释都没有,不知道如何用,也不知道要问谁。 数据分析师小B:为啥这两个统计出来的数据对不上呢…

    2020年10月19日 601 0