当前位置：首页 >新闻动态 >新媒体服务

朴实从技能视点看智能飞轮和常常说的算力、算法、数据三要素相关

2023-09-01

在前面开源大模型LLaMA 2会扮演相似Android的角色么？咱们提到过AlphaGo基于数据飞轮，到达了人工智能一个现在还后无来者的高度，它用自己生成的数据练习自己，迅速到达围棋范畴高点，远超人类。

但实际上用数据飞轮来形容这个进程有点以偏概全，数据飞轮是智能飞轮的一个部分。我有个做人工智能算法的朋友常常把自己的工作形容为大号炼丹师，依照这个类比智能飞轮是什么呢？基本上是九转金丹的方剂（算法）、炉子（算力）和材料（数据飞轮）的综合。拿到了大概率炼出九转金丹，而吃了后基本马上成仙。

那智能飞轮究竟是什么，有那些要害影响要素，什么样的范畴更或许出现新的智能飞轮呢？

一、智能飞轮

（AlphaGo的数据飞轮）

朴实从技能视点看智能飞轮和常常说的算力、算法、数据三要素相关。（比技能更要害的是场域拜见：究竟什么是OpenAI成功的要害点，究竟谁能干好大模型？这儿不重复了。）算力基本上依赖于资本，算法依赖于团队，数据就复杂些，不单是有钱就行的。

从智能飞轮的视角来看，算力确实是炼丹炉、算法决议了这个轮子多大或许说究竟是个什么样的轮子，数据飞轮则决议了智能飞轮转不转的起来。比方AlphaGo转起来了，但局限于围棋；chatGPT还没转起来，假如转起来，国际整个会被转进去，因为它这个轮子太大了，涵盖了国际太多方面的内容。

算力算法和过去其它商业场景的其实相似，人工智能与其它不同的中心就在于数据。坏消息是数据因为出产和消费的失衡而潜在的很快会干涸。

把模型练习当作消费端，把人和物的一切行为当作出产端，那耗费的速度明显大于生成的速度。几十年堆集的数据能够在几次练习中被耗费掉。

而数据的生成并不像想的那么容易。

并不是一切的数据都对模型有用。比方咱们练习小爱同学这样的唤醒词时，假如你有海量数据但都是铁岭人的，那不论数据多到什么程度，练习成果到了广东都肯定不好使。

所以数据首先要有效，其次才是海量。

关于人工智能语境里的数据，用玄学和哲学一点的视角或许更容易抓到要害。

假设咱们有一个“元真”国际，元真国际里边只有实质，比方圆的规则周长、面积、原点等的联系这类，而咱们真实的国际其实是实质的各种体现（希腊前贤管这个叫：苍白摹本）。

现在大模型是经过海量的实际数据反向迫临实质和元真国际，那这个时候获取的实际表达品种越全，那无疑的迫临的间隔就越近。比方爬虫类品种给的越多，每个品种下给的特征越丰富，模型就越能找到爬虫类实质的部分并囊括它。只给一条鳄鱼或许全给鳄鱼就很难迫临到爬虫类的这个实质。

这是智能飞轮中最大的应战，能够花钱把过往的数据整理出来都给模型，问题是然后呢？

关于上面爬虫类的例子，后续的增量大多还是鳄鱼的话，那和过去便是堆叠的，堆叠的关于迫临实质协助就很小，协助很小智能就不会提高，自然也就没有智能飞轮。（老给鳄鱼会导致导致不像鳄鱼就不是爬虫类这类成果）

算法不解决这个问题。

有新算法更或许是扩大轮子的巨细或许构造，对飞不飞的起来协助不大。对构建出更好的应用协助却是很大。