浙江省人工智能領域數據知識產權登記申請
指引(2025版)
?。ㄕ髑笠庖姼澹?/p>
為貫徹落實《浙江省人民政府印發(fā)關于支持人工智能創(chuàng)新發(fā)展若干措施的通知》《浙江省人民政府辦公廳關于深化數據知識產權改革推動高質量發(fā)展的意見》精神,進一步深化數據知識產權改革,推動人工智能領域數據知識產權登記保護,提高人工智能數據供給質量,助力打造人工智能創(chuàng)新發(fā)展高地,根據《浙江省數據知識產權登記辦法(試行)》等有關規(guī)定,制定本指引。
一、適用范圍
本指引所指人工智能領域數據知識產權登記對象包括:
?。ㄒ唬┗谌斯ぶ悄艽竽P?,通過預訓練等方式形成適配專項能力或特定任務解決能力要求,所形成的算法、參數、模型等數據處理規(guī)則和數據集合,符合數據知識產權登記要件的;
?。ǘ┗谌斯ぶ悄芟嚓P技術,通過智能體、腦機接口、具身智能、生物啟發(fā)等應用創(chuàng)新技術,所形成的算法、參數、模型等數據處理規(guī)則和數據集合,符合數據知識產權登記要件的。
二、登記前存證公證
?。ㄈ┮詘ls、csv等表格文件格式存儲的數據。數據為結構化數據,存證時申請人應根據數據結構規(guī)模,列舉數據字段名稱、并輔以示例。數據集合字段較為復雜的,應說明字段間的關聯(lián)關系。數據規(guī)模以“條”為單位進行記錄。
?。ㄋ模┮苑潜砀裎募袷酱鎯Φ臄祿?。數據可以為結構化或非結構化數據,存證時申請人應清楚描述數據結構并輔以示例。數據規(guī)模以“KB”“MB”“GB”“TB”等為單位進行記錄。數據結構的描述主要包括:
1.數據形態(tài)。如文本、圖像、語音、視頻等;
2.基礎元數據。如存儲格式、數據量、關鍵指標、讀取方式等;
3.主關鍵字段等。
?。ㄎ澹┒嗄B(tài)異構數據組合。存證時申請人應根據數據存證要求進行操作,同時清楚描述各類數據結構,并記錄數據規(guī)模。
涉及不同數據格式、數據規(guī)模和動態(tài)數據集合(過程數據)的,數據結構描述信息應能夠準確反映數據集合的核心特征。
申請人也可以對人工智能領域的數據進行公證存證,以公證書作為數據存證公證的內容提交數據知識產權登記申請。
三、登記申請
?。┥暾堉黧w。申請登記人工智能領域數據知識產權的數據處理者包括但不限于:原始數據采集方、加工處理方,以及在數據處理全流程中投入實質性技術資源或智力勞動的模型開發(fā)者、服務提供者等。
?。ㄆ撸┑怯浬暾埾嚓P業(yè)務平臺。申請登記人工智能領域數據知識產權,應通過登記申請相關業(yè)務平臺提交申請,如實填寫登記申請表并提供必要的證明文件。申請人可以登錄浙江省數據知識產權一體化服務平臺(數知通)提交人工智能領域數據知識產權登記申請。
?。ò耍┡c數據知識產權一體化服務平臺貫通的相關平臺。數據知識產權一體化服務平臺現(xiàn)已與科學數據銀行、中國科學院科學數據總中心知識產權登記服務平臺、浙江省財政廳數據資源治理實驗平臺、阿里云平臺等實現(xiàn)互聯(lián)互通,并作為中國科學院計算機網絡信息中心科技資源標識服務平臺節(jié)點單位對外提供科技資源標識賦碼服務。
?。ň牛┑怯浬暾埍碇饕獌热?。登記申請表主要包含以下內容:
1.數據知識產權名稱。名稱格式為“應用場景+數據”。
例1:某科研機構申請的主要用于地學領域大語言模型訓練的數據知識產權名稱為“多語言、高精度的地學大模型訓練語料數據”。
例2:某企業(yè)申請的主要用于AI大模型領域中代碼生成大模型訓練的數據知識產權名稱為“代碼生成大模型訓練用代碼編程題算法數據”。
例3:某企業(yè)申請的能有效縮小CCTV探測范圍,提高CCTV探測工作效率的數據知識產權名稱為“降低CCTV探測成本的管道淤積負荷預測大模型分析數據”(注:?CCTV探測(Closed Circuit Television Detection)?是一種利用閉路電視技術對地下管道進行檢測的方法)。
2.所屬行業(yè)。按照國民經濟行業(yè)分類,選擇數據知識產權所屬行業(yè),如“信息傳輸、軟件和信息技術服務業(yè)”“科學研究和技術服務業(yè)”等。
3.應用場景。說明與人工智能相關的數據知識產權適用的條件、范圍、對象,清楚反映數據知識產權應用所能解決的主要問題,包括已有場景和預期場景。
例4:某企業(yè)申請的名稱為“低空經濟軌道保護巡檢數據”的數據知識產權,應用場景為:通過無人機結合AI算法針對軌道沿線的工程車輛、施工人員安全帽、煙火識別以及軌道人員入侵檢測等業(yè)務場景,判斷工程車輛是否正常、人員是否佩戴安全帽、是否發(fā)生煙火及是否發(fā)生人員入侵等狀態(tài),可以實現(xiàn)軌道區(qū)域內的狀態(tài)預警與報警,減少人工巡檢的風險并降低運營維護成本。
例5:某企業(yè)申請的名稱為“基于醫(yī)學視覺大模型的息肉影像分割數據”的數據知識產權,應用場景為:基于視覺大模型的圖像分割技術,能夠精準地從醫(yī)學圖像中提取息肉等病變區(qū)域,對醫(yī)生的診斷決策具有重要意義。此技術可廣泛應用于胃腸道疾病的篩查、臨床輔助診斷、自動化影像標注和健康管理等方面。
4.數據來源。說明數據類型屬于個人數據、企業(yè)數據或公共數據。注明數據來源屬于自行產生、協(xié)議獲得、公開收集、公共數據授權、多來源或其他來源。
?。?)數據來源為自行產生,需要嚴格保證數據集搜集過程符合《數據安全法》《個人信息保護法》等相關法律法規(guī),確保數據采集的合法合規(guī),必要時需提供相關采集能力證明材料(如說明數據采集的具體方法、工具和技術手段以及數據采集過程中的質量控制措施等);
例6:某公司申請的名稱為“某省網格化機會挖掘數據”的數據知識產權,數據來源為自行產生(企業(yè)數據)。
?。?)數據來源為協(xié)議獲得,若數據處理者非共同申請人,需提供相關協(xié)議進行證明,協(xié)議中可以約定數據使用范圍、期限、數據權益或數據知識產權權屬等相關事宜;
例7:某公司申請的名稱為“醫(yī)學影像教學病例題庫數據”的數據知識產權,數據類型為企業(yè)數據,數據來源為協(xié)議獲得,提交申請時上傳了數據轉讓協(xié)議等相關授權材料。
?。?)數據來源為公開收集,一般基于人工智能相關公開數據集、開源社區(qū)、競賽平臺等公開渠道獲得,可以采取以下方式處理:
1)對于能夠明確說明采集渠道的,需提供數據集實際權益人的數據使用許可證(如CC協(xié)議、Apache License等)作為授權證明。
例8:某單位申請的名稱為“大規(guī)模、多模態(tài)、多任務的天基遙感大模型指令微調數據”的數據知識產權,數據類型為企業(yè)數據,數據來源為公開收集,提交申請時上傳了列明的各數據集持有方的數據使用許可證。
2)對于合法利用公開數據進行處理生成的數據集合,需在應用場景等中進行公開聲明。
數據知識產權審查員應重點審查數據來源合規(guī)性。對于申請人提供的數據使用許可證、爬蟲協(xié)議、網站鏈接、公開聲明等材料,核實驗證其內容是否與采集渠道數據使用條款相符。
?。?)數據來源為公共數據授權,應當提供公共數據開放利用協(xié)議或授權運營協(xié)議等可以表明數據合法來源的證明材料;
例9:某公司申請的名稱為“個人信貸寶數據”的數據知識產權,數據類型為公共數據,數據來源為公共數據授權,申請時提交了公共數據授權運營協(xié)議等相關材料。
?。?)數據來源為多來源,需明確數據來源的具體情況,并提交各數據來源對應的相關證明材料。
5.結構規(guī)模。說明數據知識產權的數據結構(數據字段名稱、格式)、數據結構的描述、數據規(guī)模等內容。目前對于數據規(guī)模原則上要求達到500條及以上,或者50MB及以上。數據規(guī)模少于500條或50MB的,省數據知識產權登記中心可以要求申請人補充數據稀缺性的說明文件。
根據《人工智能生成合成內容標識辦法》等規(guī)定,對于涉及人工智能技術生成、合成的文本、圖片、音頻、視頻、虛擬場景等信息的,應在數據結構對生成合成內容添加顯示標識或在文件元數據中添加隱式標識。數據知識產權審查員應當核驗其生成合成內容標識相關材料。
例10:陳某申請的名稱為“面向某省旅游大模型的知識注入數據集”的數據知識產權,數據規(guī)模為:共計81萬余組三元組,涉及3萬余個實體和10余種關系類型(具體數字編寫時已進行處理);數據結構如表2-1所示。因數據結構中數據字段表征模糊、數據規(guī)模錯誤以及數據知識產權名稱錯誤等原因,數據知識產權審查員發(fā)出不予登記通知書進行處理。
例11:某企業(yè)申請的名稱為“圖像生成AI定制平臺線上推廣ROI分析數據”的數據知識產權,數據規(guī)模為:650條;數據結構顯示包含“策略優(yōu)化結論”在內的11個字段,數據知識產權審查員進行審查后,認為符合數據知識產權登記要件,審查予以通過。
6.更新頻次。說明數據或部分數據、部分數據單元的更新頻率、更新期限,如“每月更新”“每年更新”等。
基于數據的動態(tài)變化特性,申請人可以從已存證公證的數據及發(fā)展趨勢兩個角度闡述更新頻次,也可對更新時間的不確定性或依據需求更新作出說明。對于有明確的數據失效時間或不涉及數據更新的,也應當作出說明。
7.算法規(guī)則簡要說明。簡要說明數據處理過程中算法模型構建、處理規(guī)則等情況。算法規(guī)則要與數據結構、應用場景所解決的主要問題等要件相對應,清楚表述將原始數據轉變?yōu)閿祿系倪^程。
對于使用支持向量機、決策樹、貝葉斯網絡、神經網絡等算法,應說明所用算法在業(yè)內公開發(fā)表的中英文標準名稱及關鍵結構參數,如還涉及特定處理規(guī)則、策略的,應一并說明。
對于涉及大模型等生成式人工智能處理的數據集合,應明確訓練數據來源、模型名稱、特征工程處理及參數調優(yōu)過程記錄等,以證明其與通用模型存在顯著差異性。若僅直接使用模型生成數據且未附加創(chuàng)造性處理,一般不予登記。
根據《生成式人工智能服務管理暫行辦法》《互聯(lián)網信息服務算法推薦管理規(guī)定》等規(guī)定,對于涉及具有輿論屬性或者社會動員能力的生成式人工智能服務或深度合成服務的,應就相關備案情況進行說明,注明模型名稱、備案號或上線編號等信息。
數據知識產權審查員可根據審查需要,重點核實數據來源、模型建?;蛳嚓P技術說明是否清晰,以及對于不同領域的數據處理是否符合其特定領域安全定級標準等。必要時可以進行電話溝通和實地審查。
例12:某企業(yè)申請的名稱為“某市包裝企業(yè)管道蒸汽用量智慧管控數據”的數據知識產權,算法規(guī)則簡要說明中提到的“神經網絡模型”的主要描述為:
構建神經網絡模型,步驟1:采用多層感知機(MP)結構,包括一個輸入層、兩個隱藏層和一個輸出層。輸入層節(jié)點數為9,分別對應時間、總累積質量、總累積熱量、瞬時流量、瞬時熱量、瞬時溫度、瞬時壓力、密度、輸入電流。兩個隱藏層分別有64個和32個節(jié)點,激活函數采用ReLU。輸出層節(jié)點數為1,對應預測的蒸汽用量。
步驟2:選擇損失函數和優(yōu)化算法。使用均方誤差(MSE)作為損失函數,優(yōu)化算法選擇Adam,學習率設置為0.001。
步驟3:將數據集劃分為訓練集、驗證集和測試集,比例為7:2:1。使用訓練集對神經網絡進行訓練,設置訓練輪數為100輪,批次大小為32。在訓練過程中,實時監(jiān)控驗證集的損失,當驗證集損失連續(xù)10輪沒有下降時,提前停止訓練,防止過擬合。
步驟4:對模型進行超參數調整,嘗試不同的隱藏層節(jié)點數、學習率和批次大小等參數,找到最佳的模型性能。
步驟5:神經網絡模型輸出預測蒸汽流量值和最高臨界值為17.12t/h,當預測蒸汽流量值>17.12th,管道狀態(tài)顯示“管道異?!?,當0≤預測蒸汽流量值≤17.12t/h,顯示“管道正?!薄?/p>
8.存證公證情況。根據存證證書、公證文書相關信息自動生成或填寫,對已存證的數據說明存證途徑、存證編號、哈希算法、哈希值等,對公證存證的數據說明公證機構、公證書文號等,并提供公證文書的復印件或掃描件作為附件,必要時數據知識產權審查員可以聯(lián)系申請人查閱公證書正本。如寫明存證平臺為“浙江省知識產權區(qū)塊鏈公共存證平臺”、數據存證編號為“CZ20240221XXXXXX”、哈希算法為“SHA-256”、并注明哈希值。
9.其他需要說明的情況。申請人對數據的合規(guī)性及申請信息的真實性作出承諾,并從已存證公證的數據中選取樣本數據,作為登記審核的樣例數據。樣例數據要符合登記申請表中對數據結構的描述。
申請人可以對所登記申請數據知識產權主要貢獻人員,登記后的交易、許可、融資等轉化運用的意向等事項的說明。數據知識產權一體化服務平臺將根據申請人轉化運用意向推送服務信息、提供增值服務。
申請人還可對其他必要信息進行說明:
?。?)申請人認為其登記申請內容涉及核心算法敏感參數,可作出說明并申請不對外公開;
?。?)針對個人數據、公共數據以及金融數據等特定領域的數據處理,需補充說明數據合規(guī)情況,申請人可提供倫理審查證明、合法數據授權證明、基準模型測試及性能報告等材料進行佐證。
四、集合申請
?。ㄊ┘仙暾埖倪m用。為便利登記申請,提高審查效率,根據人工智能領域數據創(chuàng)新特點,在單個數據知識產權申請基礎上開設集合申請通道。集合申請主要適用于以下幾個方面:
1.同一個數據知識產權構思方案下,多個登記申請具有關聯(lián)性的且具有相對獨立的實用價值的數據字段或描述,不同登記申請間既相互具有關聯(lián)性且具有獨立存在的價值,算法規(guī)則基于同一個思路的。
2.同一個數據知識產權構思方案由于數據采集地域、型號、技術領域等不同,放在同一個登記申請中有利于數據關聯(lián)利用,算法規(guī)則基本相同的。
3.數據知識產權登記申請基于同一個數據存證公證結果,集合申請有利于節(jié)儉申請手續(xù),算法規(guī)則有一定差異的。
4.源于同一個源數據,初步處理和深加工處理的數據集合分別有不同實用價值,算法規(guī)則有相互關聯(lián)度的。
?。ㄊ唬┘仙暾埖奶岢?。符合人工智能領域數據知識產權集合申請要求的,申請人可以通過數據知識產權一體化服務平臺、省數據知識產權登記中心電話(0571-87356595)等提出需求、預約申請。
?。ㄊ┘仙暾埛?。為便利企業(yè)申請、提高登記效率,省數據知識產權登記中心推出集合申請點對點服務機制,依申請為申請人提供實地走訪、申請指導和“審查前置”等專門服務。
五、登記審查
(十三)部門協(xié)同。省知識產權局將會同省經信廳、省財政廳、省數據局、浙江金融監(jiān)管局等部門,加大對人工智能領域數據知識產權資產化、市場化、價值化推廣力度。為提高人工智能領域數據知識產權登記質量,根據涉人工智能領域數據知識產權特點,完善登記審查規(guī)則。
?。ㄊ模祿热莸男r?。省數據知識產權登記中心加強對人工智能領域xls、csv等格式的數據存證進行內容校驗,包括但不限于:無效字段檢測驗證、樣例數據抽樣核查等。校驗結果將作為數據規(guī)范性檢測、存證質量、數據知識產權價值度等評價內容的參考依據。
(十五)必要的實地核驗。省數據知識產權登記中心根據數據存儲規(guī)模大小、數據存證公證情況、登記申請信息等,對人工智能領域非xls、csv等格式的數據信息進行必要的實地核實或驗證。
附件1:
數據知識產權相關平臺鏈接
1.數據知識產權一體化服務平臺(數知通)
https://zscqyjs.zjamr.zj.gov.cn/dip/official/home
https://zjdip.cn/
2.科學數據銀行
https://www.scidb.cn/
3.中國科學院科學數據總中心知識產權登記服務平臺
https://dataip.casdc.cn/home
4.浙江省財政廳數據資源治理實驗平臺
https://dataexp.orginone.cn/#/auth
5.阿里云平臺
https://wanwang.aliyun.com/qualificationrec/registration?spm=5176.27804673.sub-nav-dropdown-wanwang-menu-5.d_main_3_1.379a1f584Ks9m6