第314章 Y搜出海（6143）_我真的有一座法师塔

较有利。

“Y搜所用的搜索技术和传统搜索技术完全不同，传统的搜索技术是下载链接后对链接赋权索引建立数据库。”

“而Y搜，是通过大模型分析学习目前互联网上十七亿个网页的数据连接，针对于哪些链接的质量可能更高进行概率性的判定，依据这种概率，给出搜索结果。”

“因此，Y搜并不需要特别多的服务器来存储这些网页具体数据，只是这些链接的索引都被大模型‘学习’了而已。我们只需要储存链接就可以了。”（注1）

“当用户进行搜索的时候，大模型会自动依据用户的意图或自己的判断，给出其认为符合用户需求的链接。”

“至于说爬取频率的问题，其实这并没有这么难，根据internetlivestats实时数据，互联网目前有13亿网页，其中百分之五十都是空链接或失效链接。”

“去掉这些，只有六亿多，六亿的链接中，又有接近四个亿网页是‘非活跃网站’。”

“橘子的算法是依据‘数据标记’进行判断，已经爬取的‘数据标记’并未改变的情况下并不会重复爬取，在‘数据标记’被改变后，橘子大模型才会主动爬取更新的网页，确保自身的数据处于最新，同时再新建一个‘数据标记’。”

“这种技术的好处在于，我们不需要像千寻和古狗一样，建立那么多那么大的数据中心。”

“一个占地两万平米的单层数据中心，应该就足够满足全大周用户的搜索需求，投入可能只相当于古狗的百分之一不到，目前Y搜使用的是阿狸云。”

“当然，如果还要开发其他业务的话，比如目前的千寻和古狗的网盘、百科、文库、地图、邮件等功能，还是需要很大的数据中心来做支撑。”

“另外这个技术还有一个好处就是非常便于审核和过滤，在审核过滤规则确定的情况下，Y搜可以更为精准的过滤需要审核的信息，避免误伤。”

“AI时代，未被污染的数据太重要了，但现在大周互联网上的周文数据污染情况过于严重，训练大模型的效果很差。”

“这其中相当一部分是由于审核误伤所导致的，造成周文数据可训练度差，因此在Y搜的算法之下，可以精准识别需要过滤的搜索结果，降低97.98%的数据误伤。”

“这一条虽然短时间内看不出来什么，但时间长了，对整个大周的互联网数据资源都有相当大的好处。”

“带宽和千寻目前的带宽需求

　　本章未完，请点击下一页继续阅读！

看了《我真的有一座法师塔》的书友还喜欢看

作者：林夭夭

简介：嗨～休假不？去异世界体验废柴逆袭的那种？又名《我靠开挂，在星际成为修仙大佬》

更新时间：2025-02-05 14:02:00

作者：流浪的蛤蟆

简介：胡山落帽千年事，人情时事半悲欢！我是胡欢，一头七八百岁的老狐狸，看过法兰西人砍皇后，...

更新时间：2025-02-05 15:36:58

作者：龙巽

简介：秦霜穿越大唐双龙传武侠世界，成为扬州城一个家道中落的少年，和未婚妻洛云儿在‘老冯包子...

更新时间：2025-02-05 14:00:04

作者：傲娇的牛奶麦片i

简介：重生东京，成为黄毛学生，觉醒系统。可他朋友很少，不仅周围同学躲着他，风纪委员见他也要...

更新时间：2025-02-05 14:35:00

作者：张廉

简介：狄芸穿越醒来时，头上裹着纱布，身体虚如狗。救她的人说，她头上有伤，背后有箭，定是遭了...

更新时间：2025-02-05 14:52:00

作者：树下揍猫

简介：【军旅+特种兵+轻松+热血+搞笑】林辉意外重生，成了一名超级纨绔。

更新时间：2025-02-05 15:28:17