现在申请

科技力量在抗疫之战中的运用

新的冠状病毒正在全球范围内爆发。诸如大数据之类的新兴技术在阻止和遏制新冠病毒在中国的肆虐传播中发挥了重要作用。

科技力量在抗疫之战中的运用
分享文章
我们的技术是如何帮助这场抗疫之战的?

它们背后用到了哪些工具和方法?

今天我们盘点了此时此刻在这场战疫中
正在运用中的五个案例。


AutoNavi

北京地铁交通监控
阿里巴巴,高德地图


这几周大家慢慢开始复工,很多人最关心的问题之一就是乘坐公共交通工具的人流

除了地铁线路和乘客的实时交通流量外,高德地图计划在不久的将来发布更多实时交通信息,以帮助用户做出更好的出行安排计划。之前高德地图已在包括北京在内的数十个主要城市中启动了实时公交服务,通过提供精准的公交车到达时间来为大家最大程度地减少等待时间。 

功能:
实时跟踪地铁/火车上的交通密度

数据集:
数据由北京市交通委员会提供,涵盖了该市所有地铁线路和车站。与地图API集成以形成GIS位置地图

方法:

使用的技术工具:
实时流传输(很可能取决于其内部技术堆栈)

数据通道:

MIT researchers used a machine-learning algorithm to identify a drug called halicin that kills many strains of bacteria. Halicin (top row) prevented the development of antibiotic resistance in E. coli, while ciprofloxacin (bottom row) did not. (Image from courtesy of the Collins Lab at MIT)
MIT: 使用ML开发潜在的新药

机器学习计算机模型,可以训练该模型来分析化合物的分子结构,并将其与特定特征(例如杀死细菌的能力)相关联。


方法:
此数据驱动的建立模型以使药物能够杀死细菌的预测是一个分类问题,随机森林是一个很好的基线,SVM可能是候选算法之一。随机森林是应用于自举版本的训练数据的回归树的集合。典型的机器学习应用程序设置分类阈值以选择多数票(表示森林中的整体树木),即分类阈值为0.8。绘制接收器工作曲线(ROC)。当分类阈值从0变为1时,真实阳性率相对于阴性阳性率的接收器工作曲线图。接收机工作曲线越靠近左上角,预测质量越好。因此,用来衡量整体预测准确性的通用指标是ROC下的面积,即AUC。


对于数据准备,收集和组合相关类型的数据至关重要,大多数情况下可以使用样本数据。该模型正在训练大约2,500个分子,包括大约1,700种FDA批准的药物以及800种具有不同结构和广泛生物活性的天然产物。分为训练,验证和测试数据集,训练数据集用于训练预测算法,验证是在训练期间固定参数,测试数据集可用作“现实世界”数据集,以评估生产结果。


该应用程序使用来自Broad Institute的Drug Repurpose Hub的大约6,000种化合物的库作为测试数据集,并从AINC15数据库中选择1亿个分子。在正常情况下,如果数据集相对较高维度上具有更多特征,则可以使用特征工程技术来查看哪些变量是更重要的预测指标。Scikit学习库提供了API,用于根据要素和类之间的相关性来获取所有属性的要素重要性得分。


Security staff members check passengers’ temperature at Jinggangshan Airport in Ji’an, East China’s Jiangxi province, Feb 10, 2020. The airport has taken measures such as increasing disinfection frequency and testing passengers’ temperature to curb the spread of the novel coronavirus. Photo from Xinhua.
XH-TI: 非接触式ID和温度测量系统

功能:
筛选、识别和体温预警系统。这是一种典型的计算机视觉应用,结合了热成像技术来监测人体温度。

数据集:
FLIR数据集

工具:
名为FLIR(Forward Looking Infrared)的热像仪

算法:
YOLO可以用作对象检测;darknet是很好的备选。


模型训练推荐运用转移学习开始,更偏行业风格,只有大型实验室更有可能从头开始训练自己的模型。因为使用预先训练的卷积权重,可以在训练模型(onImageNet)上训练自定义数据集时节省时间和成本。 


TensorFlow及其模型区域提供了预训练算法,这可以是在模型训练和推理阶段中实现的选项之一。基本的CNN是该模型生成神经元,卷积层和密集层的基础。训练后,使用测试数据集检查mAP和IOU分数。训练、测试步骤需要迭代直到达到模型性能(项目开始之前定义的业务问题,通常PoC是在该阶段建立的,因此模型应满足该阶段设定的目标)。将模型部署到应用程序通常使用AWS部署工具。 

作者

Chloe Ji
一个自学成才的程序媛,主要使用Python编写代码,也用JavaScript编写代码,Scala新手。目前,她是区块链行业的数据科学家,之前曾从事计算机视觉化工作。她对开源代码项目和大数据很感兴趣,也是个疯狂爱骑车的姑娘。
Solomon Soh

Solomon Soh是新加坡UpLevel的数据科学顾问。他擅长于运营,市场营销和财务分析,擅长运用ML和RL模型来推导消费者的行为。之前作为管理顾问,他深知运用DS权限解决业务或社会问题的重要性。


目前,来自世界各地的数百名数据科学家正在努力进行着有关冠状病毒的数据科学项目的研究。

希望大家保持健康和乐观,春天就快到啦!


想进一步了解Le Wagon的九周编程训练营?
继续阅读
Learn to code

为什么MBA应该学习编程?

改变你的人生,学习 编程.

Learn to code

来自顶尖人才的创业秘密

在训练营期间我们收获了大量令人敬畏的演讲人,他们来自不同背景,发表了他们对科技、创业、设计、初创公司、工程等不同领域的看法!今天我们会分享一些来自这些顶尖人才的有价值的建议。

Graduate stories

科技女性聚焦:Lin, The lady who tech

凭借在数据和行业洞察方面的背景,Lin的大部分职业生涯都在以不同角色为各种全球组织工作,建立团队、制定战略并提高其运营效率。作为一名技术爱好者,与开发团队一起工作的经验和对构建产品的热情让她受到鼓舞,不断学习新技能并进一步深入探索编程的世界。

想要加入排名第一的编程训练营吗?

我们分布在全世界39个城市。