【猎云网(微信号:ilieyun)】 11 月 14 日报道(编译:张璐璐) 猎云网注:本文的作者Ivy Nguyen是Zetta Venture Partners的投资者,曾为NewGen Capital的高级助理,并在ImageH2O管理创业加速器项目。本文中,作者基于当前数据爆炸时代的背景,探讨了数据对初创企业的重要性,并从数据收集、存储、管理、建模等各个过程中分析成本问题,同时提出了一些可能节约成本的方式。 目前,数据逐步成为AI创企的“金钟罩铁布衫”:初创企业收集的数据越多,就越能训练出更好的AI模型,使得新的市场竞争者难以与之匹敌。然而,这些数据并非免费获取,许多AI创企认为,这笔额外的费用大大侵蚀了他们的利润。随着时间的推移,这些公司可能希望降低在数据上的投入,但目前尚不清楚如何预测这种情况出现的时间,以及降低至何种程度,这就增加了公司对未来增长进行建模的难度。 在软件创企中,产品开发费用在损益表上归属于研发成本,而AI创企则将数据成本作为销售成本(cost of goods sold,COGS)的一部分,后者这种做法有助于企业发掘扩大规模同时降低成本的机遇,从而提高利润率。 下面的数据价值链流程图显示了大多数AI创企获取和使用数据的方式。首先,企业将基础事实的片段作为原始数据进行记录。企业可将原始数据存储在某处,然后建立流程或途径进行维护和访问。在运用于AI模型之前,企业需要对数据进行标注,以便AI模型实施处理每个数据点的行为。随后,训练有素的模型接收数据并产生反馈,企业便可以使用这种反馈来执行驱动终端用户某种行为的操作。该过程可以分为三个不同的步骤:获取数据、存储数据和为了训练模型而标注数据。每一步都会产生相应的成本。 数据采集成本在所有的数据价值链中,任何传感器(无论是物理设备还是人类)在收集原始数据时,首先需要捕捉对现实的观测。在这种情况下,数据采集的成本将来自于传感器的创建、分配和操作。如果该传感器是一种硬件,企业必须考虑材料和制造的成本;如果传感器是人,则成本来自于人员的招募以及提供他们制作和记录观察结果所需的工具。根据覆盖范围的不同,企业可能需要支付大量的费用来分布传感器。不仅如此,在某些用例中还可能需要进行高频率的数据收集,这也可能会增加人工和维护成本。例如,受众测量公司尼尔森(Nielsen)就需要承担上述所有成本,因为它既提供收视率收集盒,也需承担获取参与者电视节目观看情况的许可费。这样一来,随着覆盖范围越来越广泛,尼尔森的数据就越有价值,规模经济也就自然而然降低了单位数据采集成本。 在某些用例中,企业向终端用户提供管理工作流程的工具(例如,自动电子邮件响应生成器),将他们捕获的数据存储在他们的工作流程中,或者观察他们与工具的交互并将其记录为数据,从而将数据采集的工作和成本转移给终端用户。如果企业选择免费分布这些工具,那么数据采集的成本就将是获取用户的成本。或者企业可以选择对工作流工具进行收费,这种方式可能会减慢和限制客户采用率,从而在抵消数据采集成本的同时减少数据采集,具体的降低和限制程度将取决于企业对该工具的定价。 例如,我们公司的投资组合之一,大数据公司InsideSales为销售代表提供了一个可直接与销售线索建立联系的平台。在销售代表使用的过程中,平台会自动记录互动的相关数据,例如时间、模式、其他元数据,以及该销售渠道中的销售线索是否有进展。这些数据将被运用于AI模型的训练,从而计算出联系潜在客户最佳的通信时间和通信方式。在这种情况下,随着越来越多用户入驻该平台,网络效应就有可能会提高工具的实用性,从而降低获取用户的成本。 另外一种方式是,在另一个实体已经建立了数据收集渠道的情况下,确保建立战略伙伴关系可以进一步降低成本。例如,我们的另一家公司Tractable采用计算机视觉来实现汽车保险调节器的自动化。该公司目前正与几家业内出色的汽车保险公司合作,致力于研发获取受损汽车图像的技术。除此之外,我们无需使车主下载应用程序,从而节约了应用程序推广所需的成本。 存储和管理成本在数据存储和访问方面,初创企业也面临着一个成本问题。除了数据收集之外,企业可能还需要客户提供其他相关数据来丰富模型。由于许多行业近期才逐步实现数字化,因此任何拥有企业所需数据的潜在客户都不容小觑。为了获取这些数据,企业可能会在低利润率的数据准备工作中花费大量的人力。 (责任编辑:admin) |