第1741章 别被技术细节吓住

章节报错(免登陆)
下载APP,无广告、完整阅读

顶点小说(dingdian666.com)更新快,无弹窗!

拍桌子,“爬虫可以先从几个固定的网站开始,比如新闻网站。
    这些网站结构规范,容易抓取。
    分词可以先做基于词典的简单版本,复杂的以后再说。”
    团队的气氛活跃起来。
    年轻人就是这样,不怕困难,就怕迷茫。
    一旦有了方向,哪怕方向不完美,他们也敢往前冲。
    三天后,新的问题来了。
    这次是王磊提出的。
    他在研究分词算法时,遇到了一个具体难题。
    “贾总,我们试了基于词典的方法,但遇到一个问题。”王磊在白板上写了个例子,“比如‘乒乓球拍卖完了’这句话。
    怎么分?”
    他画出两种分法:“‘乒乓球/拍卖/完了’,这是说乒乓球被拍卖掉了。
    但也可以是‘乒乓/球拍/卖完了’,这是说球拍卖光了。
    同一个句子,两种分法,意思完全不一样。”
    贾瀞雯看着白板上的句子,也皱起眉。
    确实,这太难了。
    当晚的电话汇报,她重点说了这个问题。
    陈浩听完,没有马上回答。
    “这个问题很关键。”他说,“中文的歧义切分是搜索引擎必须要解决的。
    这样,你让团队等一下,我想想。”
    电话挂断了。
    贾瀞雯以为陈浩要思考几天,没想到第二天一早,她就接到了电话。
    “瀞雯,我画了个图。”陈浩的声音听起来有些疲惫,像是熬了夜,“我让助理去传真给你,你看一下。”
    半小时后,传真机响了。
    五页纸,上面是手绘的流程图和说明。
    贾瀞雯拿起来看。
    第一页是总览,标题是“中文分词歧义处理逻辑”。
    后面四页是详细的流程图,每一步都有说明。
    她看不懂技术细节,但能看懂思路。
    陈浩提出了一个“双向最大匹配”的方法。
    从左到右扫描一遍,从右到左再扫描一遍,比较两种结果。
    如果一致,就用这个结果。
    如果不一致,就启用歧义处理规则--检查上下文,查词典,甚至用简单的概率统计。
    最下面还有一行小字:初期可用简单规则,后续逐步完善。
    贾瀞雯把传真复印了五份。
    团队看到后,会议室里炸开了锅。
    【跪求礼物,免费的为爱发电也行!】
章节报错(免登陆)
下载APP,无广告、完整阅读
验证码: 提交关闭