一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

深度學習自然語言處理 ? 來源:FudanNLP ? 2023-04-25 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了助力大模型研究,復旦大學自然語言處理實驗室開源了中文圖書數據集合CBook-150K,包含15萬本中文圖書的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領域。

當前很多研究表明,高質量數據對于訓練大規(guī)模語言模型具有至關重要的作用。圖書中的內容在質量、專業(yè)水準、可靠性等方面遠高于互聯網數據。OpenAI在訓練GPT 3時,也使用了大量圖書資源。但是目前還缺乏大規(guī)模的中文圖書開放集合。此外,由于絕大多數電子書籍的保存方式為PDF格式,從其中抽取文本內容也需要分析工具支持。復旦大學自然語言處理實驗室結合此前自主開發(fā)的相關PDF分析工具,開源了中文語料圖書集合CBook-150K。

復旦大學自然語言處理實驗室,自2019年起,自研了PDF處理工具DocAI,針對非掃描件PDF,具有能夠處理復雜格式、高效、高準確率、可私有化部署等特點。DocAI在全CPU解決方案下,單核CPU處理100頁文檔僅需10秒。提取字符準確率100%,結構分析準確率95%。DocAI智能文檔解析系統(tǒng)支持對DOC、PDF等常見電子文檔進行智能解析,對文檔中的標題、段落、表格等半結構化數據進行結構化分析還原。該應用場景具有文件類型多,格式復雜,兼容性要求高等特點,特別是對于跨頁表格,多欄排版等復雜場景的支持。是目前支持段落、表格融合識別的為數不多的智能文檔解析工具之一。DodAI不依賴第三方資源,支持離線環(huán)境下的私有化部署和使用,確保文檔隱私與安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

結合DocAI工具以及搜索引擎,復旦大學自然語言處理實驗室從互聯網中篩選了大量中文圖書資源鏈接,并構造了內容抽取算法,助力廣大學者NLP大模型研究,同時也在實踐與操作中不斷迭代更新,完善大型語料庫的部署。

下載鏈接:

https://github.com/FudanNLPLAB/CBook-150K

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3688

    瀏覽量

    43829
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14157
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22621

原文標題:NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數的稠密模型、盤古Pro MoE 720億參數的混合專家模型和基于昇騰的模型推理技術。 此舉是華為踐行昇騰生態(tài)戰(zhàn)
    的頭像 發(fā)表于 06-30 11:19 ?471次閱讀

    構建開源OpenVINO?工具套件后,模型優(yōu)化器位于何處呢?

    構建開源OpenVINO?工具套件后,模型優(yōu)化器位于何處?
    發(fā)表于 03-06 08:18

    超過150萬個大模型,DeepSeek全球最受歡迎

    ,中國開源模型 DeepSeek-R1 在 huggingface 平臺上超過 150 萬個模型中脫穎而出,成為該平臺最受歡迎的開源
    的頭像 發(fā)表于 02-25 00:13 ?3053次閱讀
    超過<b class='flag-5'>150</b>萬個大<b class='flag-5'>模型</b>,DeepSeek全球最受歡迎

    AI開源模型庫有什么用

    AI開源模型庫作為推動AI技術發(fā)展的重要力量,正深刻改變著我們的生產生活方式。接下來,AI部落小編帶您了解AI開源模型庫有什么用。
    的頭像 發(fā)表于 02-24 11:50 ?430次閱讀

    模型訓練:開源數據與算法的機遇與挑戰(zhàn)分析

    最近,開源中國 OSCHINA、Gitee 與 Gitee AI 聯合發(fā)布了《2024 中國開源開發(fā)者報告》。 報告聚焦 AI 大模型領域,對過去一年的技術演進動態(tài)、技術趨勢、以及開源
    的頭像 發(fā)表于 02-20 10:40 ?618次閱讀
    大<b class='flag-5'>模型</b>訓練:<b class='flag-5'>開源</b>數據與算法的機遇與挑戰(zhàn)分析

    階躍星辰開源多模態(tài)模型,天數智芯迅速適配

    近日,頭部大模型創(chuàng)業(yè)公司階躍星辰在行業(yè)內引起了軒然大波,宣布正式開源兩款Step系列多模態(tài)模型——Step-Video-T2V視頻生成模型和Step-Audio語音交互
    的頭像 發(fā)表于 02-19 14:30 ?513次閱讀

    開源模型DeepSeek的開放內容詳析

    當大家討論為什么 DeepSeek 能夠形成全球刷屏之勢,讓所有廠商、平臺都集成之時,「開源」成為了最大的關鍵詞之一,圖靈獎得主 Yann LeCun 稱其是「開源的勝利」。模型開源
    的頭像 發(fā)表于 02-19 09:48 ?1448次閱讀
    <b class='flag-5'>開源</b>大<b class='flag-5'>模型</b>DeepSeek的開放內容詳析

    C#集成OpenVINO?:簡化AI模型部署

    什么是OpenVINO 工具套件? OpenVINO 工具套件是一個用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經網
    的頭像 發(fā)表于 02-17 10:03 ?1990次閱讀
    C#集成OpenVINO?:簡化AI<b class='flag-5'>模型</b>部署

    開源模型在多個業(yè)務場景的應用案例

    在人工智能發(fā)展浪潮中,大模型開源與閉源之爭一直是業(yè)內的熱點話題。隨著技術的不斷進步和應用場景的日益豐富,如何降低大模型的使用門檻,讓更多人能夠便捷地應用于實際業(yè)務場景,成為了推動行業(yè)發(fā)展的關鍵所在。而
    的頭像 發(fā)表于 12-30 10:16 ?1107次閱讀

    開源AI模型庫是干嘛的

    開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經過訓練,能夠執(zhí)
    的頭像 發(fā)表于 12-14 10:33 ?787次閱讀

    阿里云開源推理大模型QwQ

    近日,阿里云通義團隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現了開源。這一舉措標志著阿里云在AI推理領域邁出了重要一步。 據評測數據顯示,QwQ預覽版本已具備研究生水平的科學
    的頭像 發(fā)表于 11-29 11:30 ?1166次閱讀

    阿里通義千問代碼模型全系列開源

    近日,阿里云通義大模型團隊宣布了一項重大決策:將通義千問代碼模型全系列正式開源。此次開源模型系列共包含6款Qwen2.5-Coder
    的頭像 發(fā)表于 11-14 15:26 ?990次閱讀

    科技云報到:假開源真噱頭?開源模型和你想的不一樣!

    查看、修改、分發(fā)。開源自此深刻影響了互聯網行業(yè)的每一個角落。 在大模型和GenAI崛起的當下,開源再次成為業(yè)界關注焦點,對于開源和閉源的爭論也久久未能平息。然而,大
    的頭像 發(fā)表于 11-03 10:46 ?590次閱讀

    搭建開源大語言模型服務的方法

    本文我們將總結5種搭建開源大語言模型服務的方法,每種都附帶詳細的操作步驟,以及各自的優(yōu)缺點。
    的頭像 發(fā)表于 10-29 09:17 ?693次閱讀

    Llama 3 與開源AI模型的關系

    在人工智能(AI)的快速發(fā)展中,開源AI模型扮演著越來越重要的角色。它們不僅推動了技術的創(chuàng)新,還促進了全球開發(fā)者社區(qū)的合作。Llama 3,作為一個新興的AI項目,與開源AI模型的關系
    的頭像 發(fā)表于 10-27 14:42 ?775次閱讀