这两天,一匹创业“黑马”冲进了人们的视野。

抽样一下其中一个类:

可以增加许多步骤提升事件提取的效果,诸如更好的预处理包括POS tagging和NER,使用更好的句子向量模型等等。不过本文的方法,已经可以快速达到理想的结果。

由于每天关于同一主题会产生许多标题,会用一个条件去过滤。该句子将最好的表达事件,也就是蕴涵着这些标题代表的核心内容。

对此,Zoom在其文件中写道:“我们的产品开发团队主要在中国,那里的人力成本比其他许多地区的成本都要低。如果我们将我们的产品开发团队从中国转移到其他地区,那么我们可能需要承担更高的运营费用,这将对我们的运营利润率造成不利影响,并损害我们的业务。

现在看一下每个类中包含的数量:

现在用聚类算法分组不同的主题。

35本世界顶级原本教程限时开放,这类书单由知名数据科学网站 KDnuggets 的副主编,同时也是资深的数据科学家、深度学习技术爱好者的Matthew Mayo推荐,他在机器学习和数据科学领域具有丰富的科研和从业经验。

公司2017-2019财年(每年1月31日为财年末),Zoom的收入分别为6080万美元、1.5亿美元和3.3亿美元。

Zoom成立于2011年,主要从事ToB业务,为客户提供企业云视频会议解决方案。

社长今日推荐:AI入门、大数据、机器学习免费教程

根据同方数据研究表明,目前财富500强公司的三分之一和美国Top2000大学的90%都是Zoom的客户。

雷锋网原创文章,。详情见转载须知。

2011年,zoom在美国成立,并且获得外部种子基金投资。

2007年,思科以32亿美元的价格收购WebEx,随后,袁征任为思科工程副总裁。在他的带领下,WebEx从最初的10名工程师发展到800多名,收入从0增长到8亿多美元。

想要继续查看该篇文章相关链接和参考文献?

对于每个分类我们得到如上形式的data frame。接下来是以时间线排列这些句子,并过滤掉相似的句子。每天只呈现一篇文章,这样实现出来的时间线就干净而统一。

4月13日,导演泽维尔·勒格朗一身帅气利落西装亮相北京电影节开幕式现场,举手投足展现优雅绅士风度,从容中自带气场,将红毯变成大型圈粉现场。4月14日,导演又马不停蹄的出现在《监护风云》映后交流会现场,与到场的中国妈妈以及妇女儿童服务机构志愿者就影片所反映的家庭问题与社会话题进行了深度的交流与互动,充分表达了自己的创作初衷及理念。见面会期间,影片中国推介大使——内地著名女演员陶红、知名音乐人程琳更是倾情为影片站台,跟导演表达了对影片的喜爱与支持。陶红认为电影很惊艳,自己作为推广大使有义务去推荐这部极具社会意义的影片,希望让更多人看到。程琳更是被电影中母爱的真实性打动,更是动情的分享了自己作为母亲的感受。

1997年,袁征进入美国WebEx公司工作,成为其创始工程师之一。

SpaCy中默认将词向量的平均值作为句子向量,这是一种简易处理方法,忽略了句子中的词序信息。如想使用更精巧的策略,可以看一下Sent2Vec、SkipThoughts等模型。这篇文章 详细介绍了SkipThoughts如何用无监督方法提取摘要。

本文中使用SpaCy自带的方法:

不小的市场规模下,吸引了不少的企业入驻。

随着神经网络算法的改进、计算机算力的显著提升以及大量涌现的理解框架,自然语言处理的能力正被前所未有的探索。其中一个常见应用称为事件提取,即处理收集蕴藏在文本中的一个阶段内发生的事件,自动识别发生了什么和什么时候发生。

颜艺俱佳导演亮相北京国际电影节 影片获名人观众盛赞

算法中 epsilon 参数决定两个样本间的最大距离,以此决定是否临近,这意味着如果 eps 设置太大形成的簇就比较少,如果设置太小大多数点都无法被临近聚类,于是被分到默认簇 (-1)里,产生的簇也不多。下图显示聚类簇的数量与的epsilon关系:

2013年,视频会议软件Zoom Meetings第一个公开版本发布,至今年底已经支持2亿分钟的视频会议时长。

一鸣惊人的导演处女作 一片成器的国际大奖收割机

“海水稻真正的意义在于对盐碱地的治理。”从事农业机械研究和推广工作的中国工程院院士陈学庚指出,中国一直在提倡发展高效农业,其根本在于土地治理。通过研发推广海水稻等系列举措,可新辟出规模化的可耕种土地,因而盐碱地将是中国建设高标准农田的重要组成部分。

据悉,自成立以来,Zoom公司四轮公开融资筹集了约1.5亿美元。其中2013年1月A轮600万美元;2013年9月B轮650万美元;2015年2月C轮3000万美元;2017年1月1亿美元,投资方包括红杉资本等知名风险投资公司。

SpaCy的预训练词嵌入模型,可帮助获取独立词语的含义,进一步获得整句句子的含义。具体来说用的是SpaCy large model (en_core_web_lg), 其中包含了685k英语单词的预训练词向量。当然也可以用任意其他预训练词向量表示 (诸如Word2Vec, FastText, GloVe等等)。

本文将构建一个简单的事件提取脚本,接收新闻输入处理后输出事件。

“盐碱地也是财富。”宁夏自治区政协农业和农村委员会副主任许兴经研究发现,适度改良的盐碱地,有利于高品质农产品的生产。

例如,Atlassian的研发成本占收入的超四成,而小规模的公司如Zendesk和Hubspot占比也超20%,是Zoom支出的两倍。

值得一提的是,2017年D轮融资下,Zoom的估值仅10亿美元,短短两年时间翻了16倍。

未来云视频会议(包括公有云、私有云、混合云)有望成为苏州科达的增长亮点。

论坛现场。王晓斌 摄

总的来说,由于我们期望同一组中包含非常相似的句子,也就是得到一个较高的分类数。因此选取 0.08 ~ 0.12之间。参见 Scikit Learn 中关于 eps 和其他参数的说明。

2016年,Zoom与微软Skype在业务合作上进一步加强。公司提供的年度视频会议时长达到60亿分钟。

海水稻即耐盐碱水稻。一段时间以来,由中国工程院院士袁隆平担任首席科学家的海水稻研究团队在山东、浙江等多个省份建立区域试验种植基地,示范种植海水稻近两万亩。据介绍,今年各基地平均亩产达400多公斤。

4月15日,在“为何与何为”艺术电影论坛上,导演分享在法国艺术电影与商业电影的发展与面临的困境,阐述了他杰出的艺术理念与追求,现场观众给予了最大的鼓励与支持,并称赞《监护风云》实至名归。

有人称其为云计算垂直行业的技术+服务新典范。那么,这个Zoom究竟为何方神圣?本文将一探究竟。

Zoom云会议将移动协作系统、多方云视频交互系统、在线会议系统三者进行无缝融合,为用户打造出便捷易用的一站式音视频交互、数据共享技术服务平台,提供统一通信技术解决方案。

点击【一文带你读懂自然语言处理-事件提取】即可访问:

苏州科达品牌部公关总监庞向南告诉方向以及中小企业(SMB)的渗透率仍然偏低,早期主要应用于巨头厂商,未来渗透率有望随着网络速率的提升以及视讯技术的发展进一步提升,目前仍然处于发展初期,优质的视频会议厂商有望不断开拓新的增量市场。 

截止2019年1月,Zoom拥有344个为其贡献营收超过10万美元的客户。

本例中,我使用DBSCAN算法,该算法不需要指定聚类簇的数量。算法自己决定聚类簇的数量和规模。

2019年,公司提供的月度视频会议时长超过50亿分钟。

电影《监护风云》在第九届北京国际电影节展映期间备受关注,影片讲述了一对离异夫妇就儿子抚养权而展开的一场惊心动魄的“监护之战”。影片在各大评分网站评分也十分不错,烂番茄新鲜度高达94%,北影节展映后更是陆续收到来自各方的赞扬。如今电影确认引进国内,相信这部口碑极佳的影片很快就能在中国银幕与观众见面。

2017 年 9 月,他们还发布视讯混合云,并已在湖北住建厅落地应用,全面实现沟通互联。

2018年财年、2019年财年Zoom的研发支出仅约占了当年收入的10%,远远低于行业平均水平,甚至不到同业平均研发支出水平中位值的一半。

值得一提的是,早在2013年导演便执导了《监护风云》的前传短片《末路丢失》,并因此提名第86届奥斯卡金像奖最佳真人短片奖,同时获得第39届法国凯撒电影奖最佳短片奖。在获得认可后,承接前传的长片《监护风云》在导演的努力下应运而生。《监护风云》获得了更多的赞誉,作为导演的首部长片在第74届威尼斯电影节上亮相,一举夺得最佳导演银狮奖和最佳处女作银狮奖,随后影片又获得了包括多伦多电影节、美国国家评论协会、法国凯撒电影奖等多个重磅电影节颁出的21项国际大奖、27项提名,成为名副其实的“国际大奖收割机”。

感谢阅读本文。本文聚焦NLP及事件提取。如果想了解更多有关数据科学和机器学习的信息,请follow我的账号。有任何想法、评论或问题,请给我留言。

最后一个函数,返回特定查询的结果列表,大约包含2000篇文章。我们的目的是抽取这些文章总的事件。为简化这一过程,只保留文章标题 (理论上,标题应该蕴涵新闻的核心内容)。

提到企业云视频会议解决方案提供商,中国有一家泛安防企业不得不提——苏州科达。

未来成长之路漫漫兮,对于Zoom来说,机遇与挑战并存,一切才刚刚开始。雷锋网雷锋网雷锋网(公众号:雷锋网)

即便采用搜索方式过滤获取数据,同一查询中会出现不同的主题。比如,搜索关键词 “Paris” 可以得到:

“很多研究表明,适度盐碱等逆境条件,能促进植物的次生代谢物的积累。”许兴说,在轻盐碱地上生产出的农产品均有着较高的品质及与众不同的风味。(完)

按天聚类句子,在每个组中选择其最靠近中心的句子。以下是从一组向量中找出中心向量的函数:

首先需要收集数据。我们可以用任何形式的文本,只要这些文字的内容可通过时间线表示。本文选用 newsapi,从该数据源获取数据很容易,其开发者计划每天可获取500个免费请求。以下是处理请求的代码:

袁征(Eric Yuan)是这家公司的创始人兼CEO,毕业于山东科技大学,于上世纪90年代前往美国。

论坛期间袁隆平接受记者采访。王晓斌 摄

雷锋网原创文章,。详情见转载须知。

2018财年净亏损382万美元,但2019年财年已实现盈利758万美元。Zoom的毛利率高达80%。

科达之外,Zoom竞争对手还包括WebEx,企业版Skype等,此外还会面临谷歌Hangout,苹果Facetime等。

他们于2011 年便推出云视讯,提供公有云、私有云视频会议解决方案,2012 年云视讯升级为摩云视讯品牌。

2017年,发布Zoom开发者平台,公司在澳大利亚和英国设立办公室。

据申万宏源研究表明,业务方面,苏州科达的视频会议/视频监控营收各占约50%,综合毛利率高达60%。

云视频会议提供商Zoom(ZM.O)本周四在纳斯达克上市,首日开盘报65美元,较IPO发行价36美元涨80%(注:收盘涨幅为72%),总市值突破160亿美元。

每天产生的文本信息令人叹为观止。数百万数据源以新闻稿、博客、消息、手稿和无数其他形式发布,因而自动组织和处理就必不可少。

可以看到每篇文章被表示为300维的数组,如下:

-1 类表示未明确聚类的句子,其他是已被分类的句子。我们分析一下最大的类,表示最重要的主题 (或者评论最多的那个)。

执行后得到一个data frame,其内容如下,包括日期、标题和描述

给 eps 调参是最为精巧的一步,因为聚类的结果会改变很多,也就是如何确定句子是相似的。通过试验找到恰当的值,能保持句子间的相似度,同时不把相近的句子分到不同组去。

前面拿到了文章的标题,现在需要将其转换为算法能理解的形式。注,本文跳过了整个文本预处理环节,因为与本文不太相关。不过,如果你是新手,应用模型前务必作预处理 → 请打开原文查看一篇很好的教程。

对于大多数硅谷华人工程师来说,走到这个位置已是人生巅峰。但袁征并不满足,2011年决定创业,40多名工程师跟随他离职创办Zoom。

就是这样,用一个脚本从2000篇文章中提取和组织事件。现在可以想象每天将这一技术应用于上百万篇文章有多大用处。仅以股票市场每日新闻影响为例,事件提取可以说非常有价值。

凭借获得信息上下文的能力,可以关联时间上互相独立的事件,汲取其影响,发现事件序列如何随着时间推移展开。这些科技洞见力正驱动诸如 EventRegistry和 Primer.AI等组织,用科技服务各个市场。

对比起销售和管理费用,研发费用简直微不足道。2019年财年Zoom将56%的销售收入用于销售和管理,使得收入同比翻一番,达到3.3亿美元。极低研发支出是ZOOM盈利的最重要驱动力之一。