丁曉東：論人工智能增進型的數查包養app據軌制

【摘要】數據融會會聚不只是人工智能成長的基本，並且抵消除人工智能成見、增進社會公正具有主要意義。但小我信息維護中的若干軌制、著作權允許、企業數據圍墻能夠妨害數據會聚。此類題目的本源在于市場掉效與傳統途徑依靠。法令應重視從數據事前確權邁向數據事后確權，建構數據公道應用機制，重構數據的公個性。對小我信息與著作權作品，應在數據搜集端過度放寬。對企業數據，應答應合適行動規范的數據爬蟲，加重某些法令義務，施展數據爬蟲的橋梁感化。同時，法令應強化人工智能對小我信息的事中事后維護義務，避免天生式人工智能對于全體數據庫的抄襲性應用。數據會聚相似水庫對于水滴的會聚，應摸索合適年夜範圍微型權益融會的數據法令軌制。

【要害字】人工智能；小我信息；著作權；數據互聯；年夜範圍微型權益

一、題目的提出：人工智能成長的數據基本

跟著人工智能聊天機械人法式（ChatGPT）等天生式人工智能的問世，人工智能的成長再次惹起全球追蹤關心。在法令層面，大批的研討與會商開端追蹤關心人工智能所帶來的風險與監管計劃，例如，人工智能帶來的小我信息維護、虛偽信息等題目。這些會商無疑很是主要和急切，對于預防人工智能的風險具有主要意義。[1]但另一個主要題目卻仍較少會商：什么樣的法令軌制可以或許增進人工智能的成長？除了科技成長程度之外，法令軌制在增進人工智能的成長中飾演了何種腳色？

從要從來看，算力、算法與數據是人工智能成長的三年夜焦點。而在這三年夜焦點要素中，數據值得特殊追蹤關心，由於算力重要觸及硬科技題目，算法例與數據親密相干。[2]以比來幾年最為熱點并且落地的人工智能天然說話處置模子（NLP）中的天生式預練習模子（GPT）和人工智能（AI）繪畫分散模子（Diffusion）為例，2021年天然說話處置模子（GPT-3）是那時最為宏大的模子，其練習應用了約300字節（300B）個詞元，也即約4000億字節（400GB）的數據，涵蓋精簡后的網站抓取數據集（Common Crawl）以及網頁文本數據集（WebText）、圖書語料庫和英語維基百科三個特別謀劃的高東西的品質數據集，該模子在機械進修中所設定的參多少數字到達了1750億個。[3]AI繪畫穩固分散模子（Stable Diffusion）應用了圖文多模態數據集（LAION）組織搜集的、來自收集的跨越30億張圖像文本對（text pair），設置了跨越11億個參數；文本天生圖像體系（DALL-E 2）在對照說話圖像多模態預練習模子（CLIP）中應用了約4億個圖像文本對，設置了跨越35億個參數，極為宏大的數據和參多少數字為二者供給了強盛的圖像天生才能。[4]海包養量數據之于人工智能的感化，就像人類從嬰兒到兒童再到成人所接觸到的萬事萬物。包養沒有海量的經歷性數據，純真依附人類的心理性發育，人類無法從嬰兒時的懵懂蒙昧生長為具有認知與幻想才能的個別。

海量數據不只對于人工智能的練習與成長具有主要感化，並且對于人工智能的公正性與社會管理也具有主要意義。[5]例如，假如某平生成式人工智能所練習的數據都依靠于英語世界的數據，則該類人工智能產物的內在的事務輸入必定會遭到英語世界內在的事務的影響。異樣，假如人臉辨認技巧所依靠的練習數據依靠于某個種族，那么該辨認技巧就能夠會對其他種族發生輕視與成見；而擁有分歧種族人臉練習數據的人工智能則能夠更為公正地停止人臉辨認。[6]例如，良多手機brand以白人或亞裔的人臉為基本停止練習，招致對黑人的攝影後果很是無限；而我國生孩子的傳音手機由于其練習數據以黑人人臉為基本，在非洲其攝影後果就要遠超其他brand。[7]

對于我國的人工智能成長來說，數據的海量會聚尤其具有主要意義。我國事今朝多數可以和美國停止人工智能競爭的國度，但全體而言我國的人工智能依然處在落后美國的狀況。這此中既有芯片算力和算法模子建構的緣由，更有人工智能練習數據缺乏的題目。例如，以英文內在的事務為主的Common Crawl等公共數據項目以及維基百科（Wikipedia）、社交消息站點（Reddit）等網站為國外人工智能成長供給了充足的高東西的品質練習數據，而高東西的品質中文數據集扶植卻仍不成熟，難認為中文人工智能供給劃一程度的練習數據。同時，在美國發布ChatGPT等人工智能技巧之后，我國的百度等internet公司也發布了“文心一言”等產物，但其成長程度間隔美國產物依然具有不小的差距，並且并包養未完成中文練習數據的自力性。例如，在圖像天生範疇，輸出“土耳其”的要害詞，其輸入會呈現“火雞”圖片；輸出“仙鶴”的要害詞，會呈現“起重機”圖片。在英文世界中，“土耳其”與“火雞”的英文都是“turkey”，“仙鶴”與“起重機”的英文都是“crane”。這闡明“文心一言”的練習數據顯然依然較為倚重外網數據或英文標注數據。

形成中文人工智能練習數據題目的緣由具有多重原因，但法令軌制是此中主要緣由。由于良多數據被標注為小我信息數據，或許受著作權維護，良多人工智能企業在應用數據時面對很年夜的法令風險。同時，由于internet企業之間彼此封鎖與數據爬蟲風險的日益進步，數據的互聯互通也面對浩繁妨礙。若何既維護小我、著作權一切人和企業的符合法規權益，又design出增進人工智能成長的數據軌制，成為急切需求答覆的題目。本文將對這一題目停止法令軌制層面的剖析；同時，本文也將深刻相干題目的背后，在法理層面停止剖析。本文指出，以後數據軌制的焦點題目在于數據搜集真個情勢性風險防范與確豪門檻過低，招致所有人全體舉動的掉敗與數據會聚艱苦。在人工智能時期，法令應該在搜集端放寬數據的融會會聚，但在應用端對人工智能施加更為嚴厲的義務。

二、現行數據法令的窘境

人工智能的衝破依靠于數據的迸發性增加，但現有的數據立法卻能夠妨害數據的會聚與融會。在小我信息維護、數據爬蟲、著作權等範疇，現行立法在具有其本身公道性的同時，對人工智能練習所需的年夜數據構成發生了不少挑釁。

1.小我信息

小我信息維護軌制中的告訴批准起首對數據搜集構成了挑釁。作為一種數據隱擅自我治理的軌制東西，[8]告訴批准軌制可認為個別供給必定的自我維護，避免信息處置者過度搜集小我信息所帶來的風險。但這一軌制也存在不少窘境。當小我面臨信息處置的復雜實行，小我往往難以懂得其真正面臨的風險是什么，[9]小我經常要么是無法選擇批准信息處置者的隱私政策，要么能謝絕的盡量謝絕。在有的情況下，這種個別認知與選擇的窘境會形成維護缺乏，使個別難以真正預防相干風險。在其他情況下，則能夠存在維護過度的題目。例如，internet企業搜集小我信息停止年夜數據剖析，但采取嚴厲維護辦法，這類做法帶來了“長尾效應”，增進了花費者福利。但在告訴批准軌制下，人工智能卻能夠無法對這類數據停止公道應用。

其次，需要性準繩也能夠對數據搜集與應用構成挑釁。需要性準繩誇大搜集小我信息的限制與處置最小化。例如，我國《小我信息維護法》第6條規則：“處置小我信息應該具有明白、公道的目標，并應該與處置目標直接相干，采取對小我權益影響最小的方法。搜集小我信息，應該限于完成處置目標的最小范圍，不得過度搜集小我信息。”歐盟的《普通數據維護條例》也規則，“小我數據的搜集應該具有特定的、清楚的和合法的目標，對小我數據的處置不該當違背初始目標”，“小我數據的處置應該是為了完成數據處置目標而恰當的、相干的和需要的”。這類規則將使得數據很難被用于人工智能練習。由於除了少少數專門采集的小我信息，盡年夜部門小我信息被搜集時，其目標都只和生涯、花費、資訊、出行、文娛、辦事等小我目標相干。假如嚴厲說明需要性準繩，則即便信息處置者停止告訴并獲取小我批准，此類人工智能練習也將屬于守法。由於需要性準繩作為小我信息處置的全體性準繩，不克不及經由過程告訴批准而停止躲避。[10]

最后，公然小我信息的處置也存在挑釁。傳統隱私侵權法普通并不維護公然小我信息，但小我信息維護軌制將其歸入維護范圍。尤其是歐盟的《普通數據維護條例》，其對公然小我信息維護停止一體維護，僅在無限的條目中停止規則，[11]并重要經由過程談吐不受拘束、大眾知情權等準繩在個案中答應此類信息的處置。[12]相較之下，我國的《小我信息維護法》對于公然小我信息停止了破例規則，將“小我自行公然或許其他曾經符合法規公然的小我信息”作為破例規則。[13]但即便是我國，也依然規則小我可以“明白謝絕”處置小我信息，“對小我權益有嚴重影響的”應該獲取其批准。[14]假如對于這一軌制停止嚴厲說明，則人工智能練習數據將遭到嚴重影響。今朝，人工智能練習的數據中的年夜部門數據都來自于公然數據，例如，ChatGPT的重要練習數據是公然的Common Crawl數據項目和Reddit等公然網站數據，百度“文心一言”的重要練習數據也來自于百度百家號、百度了解等一系列公然網站。[15]而公然數據往往缺少交互場景或聯絡接觸方法，信息處置者很難聯絡接觸到小我和獲取小我批准。假如人工智能對于公然小我信息的應用實用小我信息維護的普通規定，則人工智能將很難獲取足夠的數據聚集。

2.著作權

著作權也會對人工智能練習數據的會聚和融會構成挑釁。起首，當人工智能企業試圖應用收集上的文字、圖片、聲響等素材停止練習時，這些文字、圖片、聲響很能夠曾經遭到著作權維護。著作權維護的門檻并不高，只需“具有首創性并能以必定情勢表示的”作品，均能取得著作權維護。[16]例如，weibo、知乎上頒發的文字或問答，微信、小紅書、抖音上用戶上傳的音樂、圖片、錄像，在到達首創性的門檻后，都能夠取得著作權維護。一旦人工智能企業應用這些內在的事務數據，就有能夠對這些數據組成著作權侵權。對于人工智能企業而言，單次侵權的賠還償付額度或允許以累贅，但假如大批用戶提起著作權侵權訴訟，人工智能企業將面對宏大的訴訟壓力和賠還償付壓力，同時還能夠面對很年夜的社會名譽壓力。

對于人工智能企業而言，取得每項作品的著作權允許極端艱苦。良多作品的作者難以直接聯絡接觸到，例如，一些用戶能夠頒發了文字或上傳了圖片與錄像，但并不常常檢查其郵箱或賬戶新聞，或許對企業請求取得其允許的懇求充耳不聞。還有良多作品則能夠完整找不到作者，屬于“孤兒作品”（orphan works）。[17]對于這些作品，假如著作權人不主意權力，人工智能企業能夠沒有什么風險；但假如著作權人忽然“站出來”，則其能夠“面對侵權訴訟的風險”。[18]此外，即便人工智能企業聯絡接觸到上述情況中的著作權人，也能夠遭受分歧理的要價題目。良多通俗用戶能夠會感到，人工智能企業可以發明巨額利潤，是以應該付出較高所需支出來獲取其著作權。但對于人工智能企業而言，單項作品所能帶來的利潤很是無限，人工智能企業將很難和著作權人告竣允許協定。

數據庫和各類著作所有人全體治理組織可以在必定水平上處理大批作品的著作權允許題目，但其感化無限。對于數據庫而言，數據庫所擁有的數據能夠依然較少，難以知足人工智能數據練習所需求的數據量。並且良多數據庫并不擁有此中年夜部門作品的著作權，這些作品的著作權能夠依然回疏散的著作權人一切。上文提到的著作權人難以聯絡接觸、戰略性要價題目就仍將存在。對于各類著作所有人全體治理組織而言，這些組織重要集中于傳統著作權維護的範疇，對于大批internet等通俗用戶所發明和上傳的數據很少維護。例如，我國的中國音樂著作權協會、中國音像著作權所有人全體治理協會、中國文字著作權協會、中國攝影著作權協會、中國片子著作權協會，美國的作曲家、作家與出書商協會（American Society of Composers, Authors and Publishers, ASCAP），播送音樂結合會（Broadcast Music Incorporated, BMI），其維護對象都難以囊括大批internet上的著作權作品。

3.數據互聯

對數據會聚構成另一挑釁的是數據互聯題目。互聯互通被以為是internet的焦點精力之一，自internet的前身阿帕網（ARPAnet）到后來的傳輸把持協定/網際協定（TCP/IP），以及一系列收集管理機制和技巧尺度組織，都默許了internet的公個性特征。[19]除非企業或小我設置password等維護辦法，用戶終端一旦接進internet，就意味著終端數據向一切用戶開放。收集的互聯互通帶來了溢出效應（Spillover Effect），極年夜增進了數據的共享。[20]但跟著internet的成長和貿易化，收集互聯也呈現了新的題目，使得數據公地從頭面對挑釁。

起首，越來越多的internet企業開端設置“柵欄”或“高墻”，避免其他企業特殊是競爭企業獲取其數據。例如，淘寶很早就對百度封閉端口，避免百度搜刮其店展頁面的信息；微信對滴滴、淘寶、抖音等競爭敵手停止選擇性的屏障；百度也試圖經由過程爬蟲協定（Robots）謝絕360搜刮。internet企業的這類做法有各自目標，有的是為了打造本身的封鎖生態體系，有的是為了競爭目標，有的是為了平安目標，但無論若何，這類做法都使得internet呈現了數據孤島景象，數據無法互聯互通。[21]對于人工智能成長而言，此類情況曾經形成了顯明的影響，例如，我國的internet企業紛紜發布相似ChatGPT的天生性人工智能，但無論是百度、阿里仍是京東，其數據的匱乏都使得其產物難以到達ChatGPT的後果。如百度發布的“文心一言”，其練習數據的重要構成部門是百度了解、百度常識圖譜等百度自己所把握的數據與收集公然數據，缺少其他internet內在的事務企業“獨占”的高包養東西的品質數據，在練習的後果上天然存在必定的局限性。[22]

其次，數據爬蟲的法令規制也帶來挑釁。假如說企業自我設置的圍墻是一種自我割據機制，那么法令關于數據爬蟲的規制則對數據橋梁機制發生了挑釁。今朝，我國對數據爬蟲存在競爭法、刑法等多種分歧的法令規制手腕。在企業之間，大批的數據爬蟲案件經由過程反不合法競爭法來完成。由于internet企業被以為常常可以跨界運營，即便營業很是分歧的兩個internet企業，也能夠會由於數據爬蟲而被認定為不合法競爭。[23]在刑法上，我國《刑法》第285條規則了不符合法令侵進盤算機信息體系罪、不符合法令獲取盤算機信息體系數據、不符合法令把持盤算機信息體系罪。在實行中，當數據爬蟲形成網站宕機，就能夠由於冒犯刑法而進罪。假如法令答應公道的數據爬蟲，則數據爬蟲就可以充任分歧數據孤島之間的橋梁。相反，在刑法等法令的嚴格規制下，中小企業和小我用戶的數據爬蟲變得極為謹嚴，不再充任數據共享的銜接者。

三、題目剖析：年夜範圍微型權益聚合

從道理層面剖析，數據會聚所面對的困難在于市場機制的掉靈，微型權益的聚合難以經由過程市場機制完成。而其深層法令軌制緣由則在于小我信息維護、著作權、數據互聯等軌制對傳統法令軌制的途徑依靠。為了完成年夜範圍微型權益的聚合，有需要重構數據的公個性。

1.市場機制的掉靈

從法令道理看，數據聚合的困難在于內部性題目。內部性題目重要指個別決議計劃對內部形成的影響，例如，周遭的狀況淨化、公共衛生等，其焦點是私家舉動能夠對別人或社會形成所有人全體負面后果。例如，某一面包房企業發生樂音，影響四周鄰人；或人由於本錢、風險等擔心而謝絕打疫苗，影響沾染病防治。針對內部性，一種處理計劃是經由過程國度規制停止調劑，如經由過程庇古稅來增添邊沿私家本錢，從而完成社會本錢等外部化（internalization of social cost）。[24]而另一種處理計劃則是依靠市場機制。科斯定理指出，在買賣本錢為零的情況下，內部性題目可以經由過程私家之間的協商或買賣而處理，如面包房企業會和四周鄰人停止協商，設定公道的樂音抵償機制。[25]自從科斯定理提出以來，經由過程市場和財富權等機制處理內部性題目，成了更受偏好的途徑。有研討者以為，產權的清楚界定可以削減買賣所需支出、增進市場不受拘束協商。[26]

但在數據題目上，數據確權與市場買賣難以處理數據聚合題目。早在20世紀60年月，肯尼斯·阿羅（Kenneth Arrow）就在相干研討中指出，信息與數據買賣經常面對多重艱苦，如買家在購置之前起首需求清楚或試用數據，以斷定數據的價值，而清楚或實用數據即意味買家可以不消再停止購置；當數據的價值不斷定時，買家和賣家也更難告竣協定。[27]在常識產權範疇，數據型專利的買賣也表白，企業之間經常面對很高的買賣本錢。[28]在本文提到的小我信息、用戶天生內在的事務（User Generated包養網 Content, UGC）等範疇，這類題目將更為嚴重，由於此類情況具有年夜範圍微型數據會聚的特征。在小我信息維護立法與著作權維護的佈景下，企業更難與海量個別停止有用買賣。

市場機制下的數據庫或專利池等方法也難以完整處理這類題目。數據庫或專利池經由過程對大批作品或專利停止匯集，為應用者供給集中允許，簡直可以年夜幅削減數據應用者的買賣本錢。[29]但數據庫或專利池所搜集的經常是具有零丁應用價值的作品或專利，而非大批普通性數據。對于具有零丁應用價值的作品或專利，數據庫或專利池的一切者可以更不難和權力一切者停止會談，其作品或專利也更不難找到買家。[30]人工智能所要應用的會聚型數據遠遠超越此類范圍，其依靠的重要是用戶所發生的內在的事務數據，這些數據經常不具有特殊明白的價值，也并未被各類數據庫或專利池所收錄。並且，人工智能所依靠的數據還經常需求實時更換新的資料，包管其對的性，而數據庫或專利池所搜集的數據則經常不具有這類特征。[31]就此而言，數據庫或專利池可以部門處理傳統常識產權範疇中的數據聚合題目，但對于人工智能所請求的海量數據聚合，依然面對很年夜妨礙。

2.軌制的途徑依靠

與市場機制掉靈相干的是，小我信息、著作權、數據互聯存在途徑依靠的困難。這些範疇的軌制來源于人工智能時期之前，其軌制design以產業社會甚至是傳統農業社會為模板。這些軌制在具有公道性的同時，也面對與信息時期脫節的題目，特殊是與人工智能所需求的數據年夜範圍會聚存在沖突。

以小我信息維護為例，小我信息維護軌制來源于20世紀六七十年月，在理念上與小我信息把持論或自決論親密相干，[32]其軌制則來源于美國的“公正信息實行”（fair information practices）。[33]這一軌制在那時具有很強的公道性，由於在20世紀六七十年月，小我信息維護所面對的重要題目是小我檔案性信息被國度規制機構處置。就知情批准而言，那時小我被搜集信息的次數很是無限，並且搜集小我檔案類信息往往很是顯明，小我往往有很強的意愿清楚信息搜集的情形。就需要性而言，那時的小我信息沒有會聚的需求，甚至其重要目標就是避免數據的過度搜集和會聚，美國國會甚至還在1988年制訂了盤算機婚配和隱私維護法，以避免分歧規制機構婚配數據，泄露小我隱私。[34]但到了年夜數據特殊是人工智能時期，小我信息所面對的場景曾經年夜不雷同。現在，小我天天都面對大批小我信息在不知情的情況下被搜集的處境，假如每次搜集均請求獲取小我知情批准，小我將不得不面對信息過載和決議計劃過頻的困難，[35]很難真正作出有興趣義的決議。並且，年夜數據與人工智能時期所需求的恰好是數據的會聚融會。假如說傳統社會重要避免小我信息的婚配與融會，煩惱其融會帶來負內部性，那么人工智能剛巧是要完成數據婚配與融會后帶來的正內部性。

再以著作權為例。著作權軌制來源于二百多年前，這一軌制自己具有很強的公道性，尤其對于農業社會與產業社會的常識生孩子，著作權可以維護發明者的人格與休息，供給無限鼓勵。[36]在農業社會與產業社會，作品發明、印刷、傳佈都需求很高本錢，假如此類作品無法獲得法令維護，作品發明者和運營商所支出的本錢得不到報答，則此類常識生孩子與傳佈都能夠缺少動力。[37]但在收集與信息社會，常識生孩子的方法產生了深入的平易近主化轉型，通俗大眾能將本身所發明的產物停止年夜范圍分送朋友，不再需求依靠傳統的出書社、音樂公司停止制作和傳佈。並且即便缺少著作權鼓勵，良多用戶也依然會有動力停止發明和分送朋友。[38]也是以，假如將傳統著作權延長到收集周遭的狀況下的一切數據，如對用戶天生內在的事務也都完整實用傳統著作權維護，就能夠構成過度維護的窘境，使得海量的數據難以被搜集、會聚和應用。[39]尤其對于天生性的人工智能，其練習數據高度依靠Reddit、Wikipedia、知乎等社區的高東西的品質內在的事務。假如此類數據都遭到排他性的著作權維護，消除人工智能對這類數據的公道應用，則天生性人工智能將很難成長，或許很難練習出高東西的品質的產物。

收集互聯機制也面對途徑依靠的困難。在私家自治與公共互聯之間，傳統社會的法令更誇大前者。在法令上，財富的公有制是更為普通性的準繩，公共互聯的財富則重要限于某些特定物品，例如，公共途徑包養網、公共食堂、湖泊、河道。在internet的成長過程中，這種以不動產和動產為基本的法令想象也深入影響了internet規制。盡管internet一向秉持互聯互通的理念，但跟著internet的貿易化，法令也逐步為企業供給財富權維護。我國《刑法》第285條的規則，以及美國的《盤算機訛詐和濫用法案》（Computer Fraud and Abuse Act, CFAA），[40]都將internet企業的盤算機視為相似私家財富，一切未獲允許的拜訪都屬于守法行動。不外，法令實行也敏捷認識到，internet中的私家盤算機與數據和傳統私家財富有很年夜差別，并非一切未獲允許的拜訪都屬于守法行動。[41]假如說傳統社會是以私家自治為普通規定、以公共互聯為破例，那么在收集社會中則是以公共互聯為規定、以私家自治為破例。在人工智能時期，法令更需求解脫傳統途徑的依靠，在保護企業自治的同時保護數據的互聯互通。

3.公個性的重構

為處理數據會聚的困難，有需要從頭建構數據的公個性。對于數據的公個性，法理學、常識產權和信息法範疇的良多學者曾經停止了很多無益的摸索。例如，麗貝卡·艾森伯格（Rebecca S. Eisenberg）和邁克爾·A.赫勒（Michael A. Heller）兩位傳授指出，在數據範疇，過多的排他性權力維護招致了社會對它們的應用缺乏，組成了一種“反公地喜劇”（The Tragedy of Anti-Commons）。[42]卡羅爾·羅斯（Carol M. Rose）在其關于私有物的研討中指出，對數據停止私有物維護，更能增進社會的全體福利，從而帶來所謂的“公“花姐，你怎麼了？”席世勳很快冷靜下來，轉而採取情緒化的策略。地笑劇”（Comedy of the Commons）。[43]在internet鼓起后，數據的公個性特征獲得了進一個步驟追蹤關心。例如，哈佛法學包養網比較院的尤查·本科勒（Yochai Benkler）對internet的常識生孩子機制停止了從頭闡釋，在他看來包養網，internet作為公共範疇為社會的自覺協作供給了平臺，增進了常識與數據的年夜範圍會聚。[44]

當然，數據不只具有正內部性，也具有負內部性。小我信息維護不只觸及小我，也能夠觸及第三方，如小我的基因信息也會提醒第三方信息。正如奧姆瑞·本·沙哈（Omri Ben-Shahar）傳授指出的，缺少小我信息維護，數據的會聚將相似數據淨化（data pollution），對這類數據停止應用不只能夠對小我的人格莊嚴、財富、人身形成風險，並且能夠危及別人。[45]再如，常識產權的學者也指出，對數據或信息停止公道維護，有利于激起私主體的發明，激勵個別公然其具有價值的數據。[46]企業對其數據停止公道維護，有利于企業建構良性生態體系，避免惡性競爭。在這個意義上，數據的公道維護也是一種公共善（public good）。[47]數據的公個性并不料味著任何數據都應該完整共享，無論是小我信息類數據的法令維護、作品類的著作權維護，仍是企業對于其數據的自我維護，都具有很強的公道性與合法性。

數據的公個性也并不否定數據應用的公正性。有不雅點煩惱，下降數據搜集與會聚的門檻，將帶來數據應用的非公正性，招致大批中小企業和小我無法對數據停止應用，多數人工智能企業則壟斷數據應用。這些不雅點指出，數據會聚型的法令軌制將招致人工智能企業取得數據的盡年夜部門收益，而小我信息主體、著作權一切者和數據企業則無法分送朋友收益。這些擔心無疑是公道的。現實上，良多學術研討和法令實行對此都做出了回應。例如，納德日達·普托娃（Nadezhda Purtova）傳授重提小我數據的財富化價值，[48]歐盟的數據法草案和我國的《中共中心、國務院關于構建數據基本軌制更好施展數據要素感化的看法》（通稱《數據二十條》）都提出了“數據用戶”的公正應用權或數據起源者權力，[49]歐盟人工智能法草案為了應對ChatGPT等天生式人工智能的挑釁，請求人工智能公司表露其體系開闢經過歷程中應用的一切著作權作品。[50]

但數據的公正性不該經由過程微型權益確權或強化企業的數據排他性確權來完成。這類確權不只妨害數據的年夜範圍會聚，並且能夠對中君子工智能企業帶來不成比例的艱苦，構成更嚴重的數據不公。究竟，良多超年夜型的internet企業都擁有本身的數據源，無論是百度、谷歌（Google）如許的搜刮引擎企業，微信、臉書（Facebook）如許的社交企業，仍是阿里、京東、亞馬遜（Amazon）如許的電商企業，都可以經由過程海量用戶所上傳的內在的事務而獲取大批可以供人工智能停止練習的數據。相反，良多中小企業由于沒有此類數據，往往墮入無米之炊的困難。若有的學者所言，假如不克不及對公共範“夫君還沒回房，妃子擔心你睡衛生間。”她低聲說。疇的數據停止公道應用，那么其成果將是“臉書、微軟和谷歌等公司將永遠主導人工智能範疇”。[51]當其他中小企業難以獲取數據時，這些超年夜型企業老是可以應用用戶協定和生態體系而取得海量數據。今朝，這一題目曾經反應在我國的通用人工智能成長上。由于本文所提到的數據會聚困難，今朝我國的通用人工智能重要局限于百度、阿里等多數幾家年夜型internet企業。相反，美國由于其數據公共範疇的絕對發財，相似OpenAI如許的獨角獸企業也能取得足夠練習數據，成長出比微軟、谷歌等年夜型企業更為傑出的ChatGPT。數據的公正性理應成為法令尋求的目的，但在完成手腕方面，應該經由過程其他更具有立異性的手腕處理這一題目。[52]經由過程微型權益確權將招致數據無法會聚，并招致更為嚴重的數據不公正。

四、人工智能時期的數據法令重構

為了重構數據的公個性，應對小我信息、著作權與數據互聯的法令軌制停止重構。這種重構一方面應增進數據的年夜範圍會聚融會，防止在數據的搜集與融會端對人工智能搜集數據停止過多限制。另一方面，在人工智能的數據應用端，應對人工智能施加更為嚴厲的數據維護職責，請求人工智能承當更多的社會義務。

1.小我信息

就小我信息維護軌制而言，應起首防止過度依靠小我批准軌制。數據隱私的大批研討曾經指出，等待小我應用批准機制維護小我信息并不實際，實行中的批准往往同化為小我信息處置的“不受拘束通行證”。[53]信息處置者不只可以經由過程小我批准而等閒搜集小我信息，並且其處置也經常可以由於告訴批准而免責。從人工智能增進的角度，可以進一個步驟指出，過度依靠小我批准將把大批并不存在風險的數據消除在應用之外，晦氣于小我信息的會聚與公道應用。為此，對于從internet等道路搜集的信息，法令應過度削減對小我批准的依靠。請求用戶停止過多的批准，或許不竭復雜化批准的情勢，請求企業采取零丁彈窗、選擇參加（Opt-in）等形式獲取用戶批准，[54]不單能夠形成小我信息維護流于情勢，並且能夠妨害數據的會聚。

當然，加重對小我批准的依靠，并不料味著廢棄告訴批准軌制。[55]對于與人工智能停止直接交互的小我信息數據，此時依然應該堅持告訴批准請求。例如，ChatGPT、“文心一言”等天生式人工智能在應用用戶聊天記載停止練習時，就應該取得用戶的明白受權，由於用戶聊天記載經常包括小我敏感信息或私密信息，對此類小我信息的不妥應用將傷害損失用戶對于天生式人工智能的信賴。[56]此外，對于其他從收集上搜集的小我信息，對告訴批准軌制停止公道化design，也依然可以施展其保證小我知情權、獲取用戶信賴的感化。尤其是告訴批准中的隱私政策，其可以施展告訴小我之外的多種感化。例如，隱私政策可以成為企業外部的合規章程，增進企業樹立一體化的自我規制系統；[57]隱私政策可以成為小我申述、小我訴訟、當局監管的根據，為小我信息維護的接濟與法律供給線索與證據；隱私政策也可認為市場主體與非交互場景下的小我供給信息，為市場與社會監視供給前言。綜合而言，法令應在加重小我批准請求的同時，堅持甚至強化企業的告訴任務。當企業在其隱私政策中供給具體的小我信息處置規定闡明，則即便小我很難在交互場景下懂得，這類隱私政策也能飾演主要的溝通訊任的腳色。

其次，在人工智能實用場景下，應對小我信息處置的需要性準繩停止過度擴大說明。對于需要性準繩中的目標限制準繩，應將其說明為不違背小我的公道預期，而非說明為必需與小我信息搜集時的目標堅持分歧。對于需要性準繩中的最小化準繩，也不該將其視為否認一切二次應用。正如英國信息委員會辦公室（ICO）在《年夜數據、人工智能、機械進修和數據維護》的陳述中所指出的，“決議一個新的目標能否與本來的目標不兼容的”，需求“斟酌新的目標若何影響相干小我的隱私，以及他們的數據能否在公道預期范圍內可以以這種方法應用”。[58]即便是小我信息維護極為嚴厲的歐盟，也在《普通數據維護條例》的“重述”中規則，在剖析目標限制與最小化準繩時，“有需要斟酌原始處置和新處置之間的任何聯絡接觸、數據主體的公道希冀、數據的性質、進一個步驟處置的后果以及能否存在平安維護”。[59]假如對需要性準繩停止過度嚴厲的說明，則人工智能對于大批小我信息將無法公道應用。

對需要性準繩作過度擴大性說明，對我國《小我信息維護法》尤其具有主要意義。我國的《小我信息維護法》在立法草擬階段，正值小我信息亟待規范的汗青階段，立法者出于政策考量，并未在此中包括“合法好處”條目，即信息處置者的合法好處不克不及成為小我信息處置的符合法規性基本之一。我國《小我信息維護法》的這一特征，使我國人工智能對于小我信息的公道應用面對更年夜妨礙。歐盟的《普通數據維護條例》固然被以為是史上最嚴厲的法令之一，但其將“把持者或第三方的合法好處”作為處置小我數據的符合法規性基本之一，為小我信息的公道應用供給了更多道路。在合法好處條目下，良多沒有取得小我批准或沒有其他符合法規性基本的小我信息處置都可以被視為符合法規。對于用于人工智能練習的數據處置，這一條目也能夠成為人工智能企業的符合法規性基本之一。

再次，法令應對公然小我信息維護實用特別規定。在小我信息維護中，對此類信息停止特別規則，合適小我信息維護的普通道理。由於小我自行公然意味著個別對此中的風險有較強的事前預期與預防，而符合法規公然則經常是當局所為，此類公然經常是為了知足大眾知情權或增進公共好處。人工智能的成長需求數據的年夜範圍會聚，這進一個步驟強化了對公然信息停止特別規制的需求。今朝，美歐對公然小我信息采取了完整分歧的退路，美國基礎大將小我公然信息消除在維護范圍之外，[60]歐盟則未明白區分公然小我信息與非公然小我信息。而我國則在制訂法上對其采取了特別規制的退路，在答應處置的同

時付與了小我的謝絕權，并規則“對小我權益有嚴重影響的”應該獲取其批准。這一規則與本文的主意具有分歧性，但在說明與實用上可以進一個步驟重視與會聚型數據的連接。對于小我的謝絕權，應依據小我信息的往標識化水平、信息的敏理性等特征在詳細場景中停止界定。由於一旦小我信息停止了往標識化處置，或許信息不具有任何敏理性，則此類信息的會聚應用與小我權益之間的聯繫關係就較弱。反之，即便是公然小我信息也將影響小我權益。而在告訴批准方面，法令在強化告訴請求的同時，加重批准請求。公然小我信息中的年夜部門信息都很難直接聯絡接觸到小我，很少有交互頁面可以對小我停止告訴并獲取其批准。並且，請求小我批准能夠對小我信息形成更年夜要挾，由於告訴批准自己就意味著需求聯絡接觸和辨認小我。

最后，應強化人工智能企業在數據應用環節的小我信息維護義務。上述告訴批准、需要性準繩和公然小我信息的軌制design，有利于放松小我信息在搜集真個法令限制，增進數據的年夜範圍會聚。但在數據會聚后，法令就應施加更多監管，強化人工智能的處置者義務。例如，在數據清洗（Data Clean- ing）、數據標注（Data Annotation）、模子練習和評價（Model Training and Evaluation）、模子安排與利用（Model Implementation）等階段，應該對小我信息數據停止全性命周期的監管。

尤其對于天生性人工智能，其信息輸入假如包括小我信息，就相似于公然小我信息，更應遭到法令的嚴厲規制。[61]今朝，我國和域外小我信息維護的軌制東西箱中曾經具有了多種軌制東西，例如，企業外部合規、數據維護專員、合規審計與小我信息影響評價、隱私design、算法審計、數據倫理等。[62]法令應聯合人工智能的特征與詳細場景，在小我信息的存儲、應用、加工、傳輸、供給、公然等環節強化人工智能企業的主體義務和國度維護任務。[63]

2.著作權

對于觸及著作權數據的人工智能應用，可以起首將人工智能區分為天生式人工智能與非天生式人工智能。非天生式人工智能并不直接產出作品，其對數據的復制與練習必定長短表達性（non-expressive）或非花費性（non-consumptive）應用。[64]例如，人臉辨認應用人臉照片數據停止練習，是為了更為精準辨認個別；主動駕駛應用路況照片數據停止練習，包養網是為了對各類分歧情況停止更正確猜測。而表達性的人工智能除了應用數據停止練習，也輸入與練習數據具有同類屬性的作品，例如ChatGPT、“文心一言”等可以天生各類文字、圖片、音樂與錄像。

對于非天生式人工智能，其對著作權作品數據的應用應被視為公道應用。非天生式人工智能對于著作權作品的應用目標是獲取此中的現實性常識，而非發明性表達。當非天生式人工智能應用人臉照片或路況照片停止練習時，其對比片中的創意性表達或創意性原因并不感愛好。現實上，過于發明性的作品反而晦氣于非天生式人工智能獲取有用信息，由於這類作品往往帶有創作者個別的特征，與真正的世界相差較年夜，從而對人工智能練習形成攪擾。而在著作權的法令實行與法令道理上，列國都保持現實/表達（或思惟/表達、經過歷程/表達）二分法，保持著作權僅維護思惟的表達，不維護思惟或現實自己。[65]例如，我國《著作權法》第5條將“純真現實新聞”消除在維護范圍之外，歐美也在相干案例和法令規則中確立了該準繩。[66]答應非天生式人工智能應用著作權數據停止練習，合適列國著作權的普通規則與基礎道理，也將有利于處理本文所提到的數據年夜範圍會聚題目。

天生式人工智能對于數據的應用更為復雜，由於其對著作權作品數據的應用經常既觸及現實，也觸及表達，其天生作品有能夠對原作品構成替換。但全體而言，天生式人工智能對著作權作品數據的應用也應被視為公道應用。從法理上看，這一計劃更合適著作權的基礎道理。從著作權所包括的人格性權益來看，天生式人工智能對于著作權作品的應用，是應用海量數據停止練習，并不會侵略特定作者的人格權。從鼓勵機制來看，天生式人工智能所發明的作品也不會對特定作品構成替換，不會削減作者的發明性表達。大批的用戶天生內在的事務都是用戶的自動發明，其發明并非特定鼓勵機制下的產品。至于天生式人工智能能夠替換大批繪畫從業者，這一題目也不該經由過程著作權加以處理。在技巧提高的時期大水中，個人工作的變遷是不成防止的景象，並且也能夠催生更有發明力的藝術任務。就像攝影技巧的發現替換了傳統的人像繪包養網畫師，但并未替換具有發明力的各類畫家。天生式人工智能能夠產出大批通俗用戶可以完成的作品，但這一景象也會增進internet用戶成長更具有特性特征、更具有創作力的作品。

當然，無論是哪品種型的人工智能，其對數據的搜集與應用都不克不及損壞有用協定或技巧辦法。在實行中，著作權人或數據庫持有者經常應用用戶協定、機械人協定等方法停止自我維護。當相干協定具有法令效率，就應該為此類自我維護辦法供給接濟。此外，著作權人或數據庫持有者也可以應用侵權法提告狀訟或權力主意，當人工智能對于數據的應用具有錯誤并發生詳細傷害損失，法令應該為相干行動供給侵權法接濟。但無論是合同法維護仍是侵權法維護，其對著作權或數據庫的維護包養行情都應該以義務規定為基本，不該將著作權作品或數據庫作品視為排他性的財富性權力。[67]當非天生式人工智能對這類數據停止應用，或許天生式人工智能對其停止應包養用后的產出作品并不傷害損失作品或數據庫權益時，[68]此類應用都應屬于符合法規應用。

人工智能在對著作權作品停止廣泛公道應用的同時，也應承當與此響應的更多義務。起首，人工智能應承當社會義務，防止數據與算法輕視、價值不雅等方面的風險與損害。[69]例如，人臉辨認技巧不克不及對某些特定種族的人群構成輕視，主動駕駛不克不及將風險不公正地轉移到某類群體，天生性人工智能應該防止呈現色情、冤仇談吐。對于此類風險，我國與歐盟都停止了相似規則。我國《天生式人工智能辦事治理措施》第4條規則，“應用天生式人工智能天生的內在的事務應該表現社會主義焦點價值不雅”，應“在算法design、練習數據選擇、模子天生和優化、供給辦事等經過歷程中，采取辦法避免呈現種族、平易近族、崇奉、國別、地區、性別、年紀、個人工作等輕視”。[70]

其次，人工智能企業應對具有本質類似性的天生作品承當侵權義務。上文提到天生式人工智能企業對于著作權作品的應用應該被視為公道應用，但這種公道應用不該被懂得為完整免責。究竟，有的天生式人工智能對于著作權作品的應用不只僅提取其現實性常識，並且提取其表達。[71]更有甚者，則能夠以人工智能的名義對原始作品停止簡略剪切和拼接。對人工智能施加此類義務，既有利于公道維護作品原創者的好處，避免其作品被相似作品替換，也有利于鼓勵人工智能企業的成長。假如人工智能對于著作權作品的應用不是獲取其現實性常識，或許沒有在原有基本長進行發明性應用，那么人工智能就能夠成為躲避著作權維護的東西，滋長剽竊與抄襲之風。

最后，應防止對各類天生類作品付與著作權。對于人工智能天生作品的著作權題目，今朝實務與實際界的主流看法否決付與人工智能作品以著作權，但也有部門國度和地域規則，人工智能的design者可以擁有著作權。[72]在學術研討範疇，也有部門學者以為應該付與人工智能企業以著作權。[73]但這類見解與本文的基礎道理存在沖突，與其取得大批著作權作品停止練習與應用的權力并不婚配。並且，對天生式人工智能的作品停止著作權確權，也會形成大批的作品無法被從頭應用的困難。更為公道的軌制design是，將這類作品視為公共範疇作品，答應大眾與企業對其停止普通應用。人工智能企業可以發布用戶付費版本，經由過程用戶協定來取得報答，但無權在其天生作品上設定著作權。

從比擬法的經歷來看，也可以得出上述結論。總體而言，美國對著作權作品的公道應用范圍規則較寬。美國對于公道應用的判定根據“四要素”尺度，經由過程多年的司法實行，[74]法院逐步將“機械瀏覽消除在著作權法之外”。[75]非天生性人工智能對于著作權作品的應用，在美國被視為公道應用。此外，自從皮埃爾·萊瓦爾（Pierre Leval）法官頒發《邁向公道應用原則》一文以來，應用目標成為了美國司法裁判的壓服性尺度。包養[76]對著作權作品的應用能否屬于公道應用，重要取決于能否轉換性應用（transformative use），便是否“添加了新的工具，具有進一個步驟的目標或分歧的特征，以新的表達、意義或信息轉變了本來的內在的事務”。[77]在這種尺度之下，天生式人工智能所天生的作品，很能夠會在美國被認定屬于公道應用。[78]至于美國常識產權學術界，則年夜多主意將人工智能“我有事要和媽媽說，所以就去找媽媽聊了一會兒，”他解釋道。應用數據視為公道應用，如萊姆利傳授（Mark A. Lemley）以為，人工智能對著作權作品的應用是一種“公道進修”（fair learning），著作權不該維護以進修為目標的版權力用。[79]

相較之下，歐盟固然也為天生式人工智能的著作權力用供給能夠，但全體更為謹嚴。歐盟2019年的《數字化單一市場版權指令》（Digital Single Market, DSM）為人工智能應用數據供給了公道應用的根據。[80]該指令第3條規則，研討機構和文明組織為了“文本和數據發掘”（text and data min- ing）研討而復制著作權作品，應該為法令所答應。第4條進一個步驟規則，任何機構都應該有此種復制權力，但當著作權一切者明白保存其“文本和數據發掘”權力時，機構就無權停止復制。[81]上述規則為人工智能應用數據供給了法令根據。但在2023年頭天生式人工智能惹起追蹤關心后，歐盟最后一刻在《人工智能法案》參加了請求天生式人工智能對其應用的著作權作品堅持通明性的條目，[82]該條目固然沒有明白請求應用著作權作品都必需取得允許，但依然為著作權一切者提出權力主意埋下了伏筆。

我國《著作權法》第24條規則，在“法令、行政律例規則的其他情況”中，在“不得影響該作品的正常應用，也不得分歧理地傷害損失著作權人的符合法規權益”的條件下，“可以不經著作權人允許，不向其付出報答”。在中國與美國人工智能競爭白熱化的佈景下，綜符合法規理與比擬法，我國應將人工智能對于著作權作品的應用歸入公道應用范圍。[83]這一計劃不只合適著作權的基礎法理，並且將使我國的人工智能成長在中美歐的競爭中追逐美國，對歐盟持續堅持搶先位置。

3.數據互聯

就數據互聯而言，應起首防止對收集公然數據停止盡對化與排他性簡直權。[84]跟著數據價值的凸顯，數據的好處分派成為各方追蹤關心的核心，有聲響呼吁經由過程數據確權完成此類分派。但從數據軌制的道理來看，數據確權應該重視數據的分歧類型與場景，不宜對一切有價值的數據都停止財富權維護。法令可以對合適著作權、專利前提的數據停止常識產權維護，也可以對采取保密辦法、有價值的貿易數據停止維護，但不該對不合適前述前提的收集公然數據停止排他性確權維護。曩昔幾十年來，恰是收集公共空間的鼓起招致了數據的迸發性增加，為人工智能的成長供給了堅實的數據基本。[85]假如此類數據成為排他性的財富，則無論此類數據是私家企業一切仍是國度一切，數據城市走向封鎖，發生報酬制造的“數據孤島”景象。對于收集公然數據，分歧企業可以對其本身發明的數據停止自我維護，法令也可以對一些守法或分歧理的數據爬蟲停止行動主義規制，但此類規制差別于排他性的數據確權。排他性的數據確權預設了數據的孤立性，請求數據的獲取與互聯都必需獲得事前允許；而數據的行動主義規制則預設數據的互聯，將某些行動消除在外。

其次，法令應過度加重各類數據爬蟲的義務，應用各類公道的爬蟲機制買通分歧企業之間的數據壁壘。從動產或不動產的角度看，數據爬蟲經常被想象為盜用，甚至從常識產權的角度，數據爬蟲也很不難被類比為侵權或不合法競爭。[86]但數據爬蟲自己具有技巧上的中立性，[87]對于不受常識產權維護的數據，數據爬蟲具有增進互聯的主要感化。尤其在數據企業紛紜設置壁壘、相互防范的情況下，數據爬蟲可以成為分歧企業數據融會的橋梁。為此，對于公道的數據爬蟲不該施加過多限制。對于形成宕機等后果的數據爬蟲，法令也應更多依靠侵權義務法加以應對，慎用刑事辦法。從比擬法看，不少國度和地域也經過的事況了此種改變。美國的盤算機訛詐和濫用法案將未獲允許的爬蟲都視為犯法行動，將其類比為線下的不符合法令侵進（trespass）行動。但法院逐步認識到，盤算機訛詐和濫用法案是一部前internet時期的法令，在internet時期，對其停止實用應該合適internet的特征。在實行中，美國的各級法院逐步將良多數據爬蟲往罪化。[88]在學術研討和會商中，良多學者也指出，數據爬蟲應該類比進進對大眾開放的商舖，其符合法規性應該依照此類空間中的社會規范決議，而非類比為侵略私家財富。[89]

最后，法令應經由過程行業自律等方法，在答應internet企業自治的同時推進企業之間的互聯互通。包養internet企業自治與互聯各有利害。一方面，固然internet具有公個性，但答應internet企業停止公道自治，特殊是對本身生態體系停止半封鎖性治理，有利于打造多樣性的internet生態。例如，在科技與操縱體系行業，蘋果體系采取半封鎖的生態體系，使得蘋果體系在開放性方面減色于安卓體系，但在平安性穩固性方面卻遠勝安卓體系。internet的自治與互聯亦是這般，請求internet企業完整開放，也能夠對企業的公道生態治理形成要挾。另一方面，在internet企業各設柵欄圍墻的佈景下，internet面對所有人全體舉動掉敗的困難，應積極推進數據互聯與數據融會。尤其是在人工智能成長的佈景下，企業浮現史無前例的數據融會需求，更應激勵企業自動發掘數據互聯融會的價值，加速增進數據互聯與數據融會。近期作為美國人工智能練習數據起源之一的Reddit宣布將有償供給網站數據以供人工智能預練習等用處，[90]這一數據共享方法既可以或許為人工智能相干企業的數據獲取下降風險并供給方便，也為internet內在的事務企業的估值和變現道路困難供給了全新的處理途徑。[91]應用法令與行業自律的方法助推數據互聯，打破internet企業之間的窘境，可認為人工智能成長供給其亟須的數據源，也有助于數據價值的充足應用。

五、結語

人工智能所依靠的數據公個性并非全新題目，在信息社會之前，這類題目就廣泛存在。大批所有藍玉華仰面躺在床上，一動不動，眼睛盯著眼前的杏色帳篷，沒有眨眼。人全體舉動掉敗的例證表白，感性個別的投票、選舉等運動不克不及發生合適公共好處的成果。在財富權的研討中，也有大批研討表白，對草場、河道、湖泊等天然資本設定排他性權力，能夠妨害此類資本的公個性應用，構成反公地喜劇。[92]數據可謂人工智能時期的公個性困難，此類困難的要害在于，若何在維護個別或企業符合法規權益的同時，完成數據的聚合與互聯。

現稀有據法令軌制的題目在于過度依靠財富性或排他性賦權。例如，小我信息維護軌制高度依靠小我把持論或小我信息自決論，著作權上的人格性權益與財富性權益也具有較高的排他性，internet企業也對其數據主意排他性把持的權力。在人工智能時期之前，這些軌制曾經遭到不少批評。好像前文所述，不少研討指出過度依靠賦權不只妨害數據的公道應用，並且也無法真正維護權力主體。人工智能的成長進一個步驟凸顯了上述題目，缺少了數據的會聚互聯，人工智能成長將面對無源之水的窘境。

無疑，數據的會聚互聯會帶來良多風險，並且也會形成權益分派不公的題目，就像水庫必定會對下流形成泄洪風險，或獨占水資本收益。但是以而對下游水流停止賦權，試圖經由過程賦權來完成風險自信與權益分派，并非此類題目的處理之道。更為適當的方式是請求水庫承當更為嚴厲的平安保證任務，同時請求水庫承當更多社會義務。人工智能增進型的數據法令軌制更應這般，由於分歧于水資本，數據資本具有可再生、可重復應用、復制本錢極高等特征，其會聚并不會直接削減數據的價值。[93]為了增進人工智能的成長，施展數據會聚互聯的公個性價值，數據法令軌制的重心應該疇前端賦權轉向公道應用與后端義務。[94]就像公道建造的水庫與義務分派將終極有利于每一小我，數據法令的這一重構將不只有利于人工智能的成長，並且終極也將為各類權力主體供給更多福利。

丁曉東，中國國民年夜學法學院傳授、將來法治研討院副院長。

【注釋】

[1]相干研討，拜見馬長山：《人工智能的社會風險及其法令規制》，載《法令迷信》2018年第6期；季衛東：《人工智能開闢的理念、法令以及政策》，載《西方法學》2019年第5期；龍衛球：《人工智能立律例范對象與規范戰略》，載《政法論叢》2020年第3期；於興中、鄭戈、丁曉東：《天生式人工智能與法令的六年夜議題：以ChatGPT為例》，載《中法律王法公法律評論》2023年第2期。

[2]各類練習模子算法經過的事況不竭的迭代進級，此中要害在于海量湊集使得各類數學算法被不竭優化組合。以（GPT-3）的模子算法為例，早在1998年出生的留意力機制直到2014年才被應用于（NLP）範疇，2017年谷歌提出了完整基于留意力機制的轉換器模子（Transformer），再加上開放人工智能（OpenAI）每一代的小修小改，終極鑄成了現在的GPT-3。從另一種角度看，也可以以為GPT-3的算法模子早在2017年便曾經被OpenAI的競爭敵手所提出，而其內涵的留意力機制更已出生二十余年，但終極仍得益于OpenAI應用了極為宏大的練習數據和參多少數字，才得以在2020年景功練習出GPT-3與ChatGPT兩個才能異常出眾的人工智能。See Chongren Wang, et al., A Deep Learning Approach for Credit Scoring of Peer-to-Peer Lending Using Attention Mechanism LSTM, IEEE Access, Vol.7, p.2161-2168(2019); Itti, L., Koch, C., & Niebur, E., A Model of Saliency-Based Visual Attention for Rapid Scene Analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.20(Issue 1), p.12541259(1998); Tom B. Brown, et al., Language Models are Few-Shot Learners, Advances in Neural Information Processing Systems, Vol.包養33, p.1877-1901(2020).

[3]See Tom B. Brown, et al., Language Models are Few-Shot Learners, Advances in Neural Information Processing Systems, Vol.33, p.1877-1901(2020).

[4]See Andy Baio, Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion’s Image Generator, at https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/, Last visited on May 5, 2023; Radford, A.et al., Learning Transferable Visual Models From Natural Language Supervision, International Conference on Machine Learning, July 2021, p.8748-8763.

[5]See Orly Lobel, The Equality Machine: Harnessing Digital Technology for a Brighter, More Inclusive Future, Hachette UK, 2022, p.1-34.

[6]See Ryan Merkley, Use and Fair Use: Statement on shared images in facial recognition AI CREATIVE COMMONS, at https://creativecommons.org/2019/03/13/statement-on- shared-images-in-facial-recognition-ai/, Last visited on May 5, 2023.

[7]拜見夏媛媛：《傳音打造非洲國民最愛好的手機》，載北京周報網2018年12月11日，http://www.beijingreview.com.cn/caijing/201812/t20181211_800151135.html?

[8]See Daniel J. Solove, Introduction: Privacy Self-Management and the Consent Dilemma, Harvard Law Review, Vol.126(Issue 7), p.1880-1991(2013).

[9]See Alessandro Acquisti & Jens Grossklags, What Can Behavioral Economics Teach Us About Privacy?, Auerbach Publications (Taylor and Francis Group), 2007, p.363.

[10]See Paul M. Schwartz, Global Data Privacy: The E. U. Way, N. Y. U. Law. Review, Vol.9包養網4(No.4), p.771-819(2019)；劉權：《論小我信息處置的符合法規、合法、需要準繩》，載《法學家》2021年第5期。

[11]例如在第9條對特別類型小我數據的處置條目，第（e）條。

[12]最為典範的是有關小我數據刪除權或被遺忘權，對于搜刮引擎等公共範疇的小我信息刪除，歐盟依然施加了浩繁限制，拜見Robert C. Post, Data Privacy and Dignitary Privacy: Google Spain, the Right to be Forgotten, and the Construction of the Public Sphere, Duke Law Journal, Vol.67(No.5), p.981-1072(2018)。

[13]《小我信息維護法》第13條第6項、第27條。

[14]《小我信息維護法》第27條。

[15]Yu Sun, et al., Ernie 3.0: Large-scale knowledge Enhanced Pre-training for Language Understanding and Generation, Cornell University(5 Jul 2021) at https://arxiv.org/abs/2107.02137, Last visited on 15 May, 2023.

[16]《著作權法》第3條。

[17]See Matthew Sag, Orphan Works As Grist for the Data Mill, Berkeley Technology Law Journal, Vol.27, p.1503-1550(2012); Matthew L. Jockers, Matthew Sag & Jason Schultz, Don't Let Copyright Block Data Mining, Nature, Vol.490, p.29-30(2012).

[18]See Olive Huang, U. S. Copyright Office Orphan Works Inquiry: Finding Homes for the Orphans, Berkeley Technology Law Journal, Vol.21(Issue 1), 包養網p.265-288(2006).

[19]See Barbaravan van Schewick, Internet Architecture and Innovation, MIT Press, 2010, p.37-82.

[20]See Brett M. Frischmann & Mark A. Lemley, Spillovers, Columbia Law Review, Vol.107(No.1), p.257-301(2007).

[21]域外也有相似情況，拜見Julie E. Cohen, From Lex Informatica to the Control Revolution, Berkeley Technology Law Journal, Vol.36(No.3), p.1017-1050(2022)?

[22]Yu Sun, et al., Ernie 3.0: Large-scale knowledge Enhanced Pre-training for Language Understanding and Generation, Cornell University(5 Jul 2021), at https://arxiv.org/abs/2107.02137, Last visited on 15 May, 2023.

[23]例如在北京百度網訊科技無限公司與上海漢濤信息徵詢無限公司不合法競爭膠葛上訴案和淘寶（中國）軟件無限公司訴安徽美景信息科技無限公司不合法競爭膠葛案，民眾點評與百度、淘寶與美景之間并不是直接競爭關系，分辨拜見上海常識產權法院（2016）滬73平易近終242號平易近事判決書、杭州鐵路運輸法院（2017）浙8601平易近初4034號平易近事判決書。

[24]See Cecil Pigou, The Economics of Welfare, Macmillan, 1920, p.1-18.

[25]See R. H. Coase, The Problem of Social Cost, The Journal of Law and Economics, Vol.3, p.1-44(1960).

[26]See Henry E. Smith, Property and Property Rules, New York University Law Review, Vol.79(No.5), p.1791-1793(2004).

[27]See Kenne包養網排名th J. Arrow, Economic Welfare and the Allocation of Resources for Invention, Macmillan Publishers Limited, 1972, p.618.

[28]See Robert E. Scott?Ronald J. Gilson & Charles F. Sabel, Contracting for Innovation: Vertical Disintegration and Interfirm Collaboration, Columbia Law Review, Vol.109(No.2), p.431-502(2009).

[29]See Robert P. Merges, Contracting into Liability Rules: Intellectual Property Rights & Collective Rights Organizations, California Law Review, Vol.84(No.5), p.1293-1394(1996).

[30]See Michael Mattioli, Power and Governance in Patent Pools, Harvard Journal of Law & Technology, Vol.27(No.2), p.421-466(2014).

[31]See Avishalom Tor & Amitai Aviram, Overcoming Impediments to Information Sharing, Alabama Law Review, Vol.55(Issue 2), p.231-279(2004).

[32]See Alan F. Westin, Privacy and Freedom, Atheneum Press, 1967, p.7; Arthur R. Miller, The Assault on Privacy: Computers, Data Banks, and Dossiers, University of Michigan Press, 1971, p.189; Spiros Simitis, Privacy—An Endless Debate?, California Law Review, Vol.98(包養網花園Issue 6), p.1989-2006(2010).

[33]U. S. Department of Health, Education & Welfare, Records, Computers and the Rights of Citizens, ,ASPE(30 June 1973), https://aspe.hhs.gov/reports/records-computers-rights-citizens.

[34]該法案為對1974年《隱私法案》的修正，拜見The Privacy Act of 1974(5 U. S. C.552a), as amended by the Computer Matching and 包養Privacy Protection Act of 1988(Pub. L.100-503), Federal Register, https://www.federalregister.gov/documents/2011/08/09/2011-20019/computer-matching-and-privacy-protection-act-of-1988#:~:text=The%20 Privacy%20Act%20of%201974%20%285%20U. S. C.%20552a%29%2C, with%20other%20Federal%2C%20State%2C%20 or%20local%20government%20records?

[35]See Susan Athey, Christian Catalini & Catherine Tucker, The Digital Privacy Paradox: Small Money, Small Costs, Small Talk, Stanford University. Graduate School.of Bus, Research Paper, p.14-17(2018).

[36]See William W. Fisher,包養 Theories of Intellectual Property, Cambridge University Press, 2001, p.1-8.年夜致而言，歐洲地域更誇大前者，而美國等國度則更重視后者，我國的著作權體系體例則兼具二者特征。

[37]See Robert P. Merges, Justifying Intellectual Property, Harvard University Press, 2011, p.1-27.

[38]See Yochai Benkler, Sharing Nicely: On Shareable Goods and the Emergence of Sharing as a Modality of Economic Production, 包養網比較The Yale Law Journal, Vol.114(No.2), p.273-358(2004).

[39]See Mark A. Lemley, IP in a World Without Scarcity, New York University Law Review, Vol.90(No.2), p.460-515(2015).

[40]The Computer 包養網Fraud and Abuse Act (CFAA), 18 U. S. C.§1030(2012).

[41]See Orins S. Kerr, Norms of Co包養網mputer Trespass, Columbia Law Review, Vol.116(Issue 4), p.1143-1184(2016).

[42]See Michael A. Heller & Rebecca S. Eisenberg, Can Patents Deter Innovation? The Anticommons in Biomedical Research, Science, Vol.280(Issue 5364), p.698-701(1998).

[43]See Carol M. Rose, Surprising Commons, Brigham Young University Law Review, Vol.2014(Issue 6), p.1257-1282(2014).

[44]See Yochai Benkler, Coase’s Penguin, or, Linux and The Nature of the Firm, The Yale Law Journal, Vol.112(No.3), p.369-446(2002).

[45]See Omri Ben-Shahar, Data Pollution, Journal of Legal Analysis, Vol.11, p.104-159(2019).

[46]See William M. Landes & Richard A. Posner, An Economic Analysis of Copyright Law, The Journal of Legal Studies, Vol.18(No.2), p.325-363(1989).

[47]See Joshua A. T. Fairfield & Christoph Engel, Privacy as a Public Good, Duke Law Journal, Vol.65(No.3), p.385-457(2015).

[48]See Nadezhda Purtova, Do Property Rights in Personal Data Make Sense after the Big Data Turn?:Individual Control and Transparency, Journal of Law and Economic Regulation, Vol.10(Issue 2), p.64-78(2017).

[49]See European Commission, Proposal for a Regulation of the European Par包養liament and of the Council on Harmonised Rules on Fair Access to and Use of Data (Data Act), COM (2022)68 final, Brussels, 23 Febrary 2022；丁曉東：《論數據起源者權力》，載《比擬法研討》2023年第3期。

[50]Supantha Mukherjee, Foo Yun Chee & Martin Coulter, EU Proposes New Copyright Rules For Generative AI, at https://www.reuters.com/technology/eu-lawmakers-committee-reaches-deal-artificial-intelligence-act-2023-04-27/, Last visited on May 5, 2023.

[51]See Amanda Levendowski, How Copyright Law Can Fix Artificial Intelligence's Implicit Bias Problem, Washington Law Review, Vol.93(No.2), p.579-630(2018).

[52]鑒于主題和篇幅，本文將不合錯誤數據公正性這一題目睜開剖析。對數據公正性的立異計劃包含數據信托、數據稅收等，拜見Aziz Z. Huq, The Public Trust in Data, The Georgetown Law Journal, Vol.110(Issue.2), p.333-402(2021)?

[53]See Elettra Bietti, Consent as a Free Pass: Platform Power and the Limits of the Informational Turn, Pace Law Review, Vol.40(Issue 1), p.310-398(2020).

[54]See Hans Degryse & Jan Bouckaert, Opt in Versus Opt Out: A Free-Entry Analysis of Privacy Policies, at https://www.cesifo.org/en/publications/2006/working-paper/opt-versus-opt-out-free-entry-analysis-privacy-policies.

[55]拜見張新寶：《小我信息搜集：告訴批准準繩實用的限制》，載《比擬法研討》2019年第6期。

[56]以ChatGPT為例，其用戶隱私政策曾經將小我輸出數據從默許可以應用改為需求取得用戶明白受權。拜見New Ways to Manage Your Data in ChatGPT, Open AI (25 April 2023), at https://openai.com/blog/new-ways-to-manage-your-data-in- chatgpt?

[57]See Peter P. Swire, The Surprising Virtues of the New Financial Privacy Law, Minnesota Law Review, Vol.86, p.1263-1324(2002).

[58]See Big Data, Artificial Intelligence, Machine Learning and Data Protection, ICO, at https://ico.org.uk/media/for-organisations/documents/2013559/big-data-ai-ml-and-data-protection.pdf?LinkSource=PassleApp, Last visited on May 5, 2023.

[59]拜見《普通數據維護條例》，“重述”第50條。

[60]如美國加利福尼亞州花費者隱私權力法案明白將其消除在外，拜見Civil Code section 1798.140。

[61]今朝，意年夜利等歐友邦家對于ChatGPT的監管重要集中于數據隱私範疇，拜見Ravie Lakshmanan, ChatGPT is Back in Italy After Addressing Data Privacy Concerns, The Hacker News(29 April 2023), at https://thehackernews.com/2023/04/chatgpt-is- back-in-italy-after.html。

[62]See Ari Ezra Waldman, Privacy as Trust: Sharing Personal Information in a Networked World, University of Miami Law Review, Vol.69(No.3), p.560-590(2015).

[63]拜見張吉豫：《人工智能良性立異成長的法制構建思慮》，載《中法律王法公法律評論》2018年第2期；王錫鋅：《小我信息國度維護任務及睜開》，載《中法律王法公法學》2021年第1期。

[64]See Matthew Sag, Copyright and Copy-Reliant Technology, Northwestern University Law Review, Vol.103(No.4), p.16071682(2009).

[65]正如保羅·戈爾茨坦和伯恩特·胡根霍爾茨所言，“對于思惟和其他文學藝術表達的基石，每一個成熟的版權系統都防止對其停止維護”。See Paul Goldstein & Bernt Hugenholtz, International Copyright: Principles, Law, and Practice, Third Edition, Oxford University Press, 2013, p.220.

[66]美國與歐盟的相干案例，拜見Baker v. Selden, 101 U. S.99(1879); C-406/10 SAS Inst., Inc.v. World Programming, Ltd., ECLI:EU:C:2012:259[2012]at 30-31。

[67]關于財富規定與義務規定的差別，拜見Guido Calabresi & A. Douglas Melamed, Property Rules, Liability Rules, and Inalienability: One View of the Cathedral, Harvard Law Review, Vol.85(No.6), p.1089-1128(1972)。

[68]當然，著作權作品假如產生年夜範圍泄漏，能夠會讓這類作品呈現“不難被盜版”（exposure-to-piracy）的風險，但這類傷害損失普通不被法院承認，拜見Authors Guild v. Google, Inc., 804 F.3d 202, 227(2d Cir.2015)。

[69]拜見李成：《人工智能輕視的法令管理》，載《中法律王法公法學》2021年第2期；鄭智航、徐昭曦：《年夜數據時期算法輕視的法令規制與司法審查——以美法律王法公法律實行為例》，載《比擬法研討》2019年第4期。

[70]拜見《天生式人工智能辦事治理措施》第4條。

[71]最新案例為蓋蒂圖片社告狀Stability AI（英國的一家AI圖像天生器研發商），蓋蒂圖片社以為Stability AI對相干圖片的應用不只用于文本進修，並且組成了作風上的侵權。See Blake Brittain, Getty Images Lawsuit Says Stability AI Misused Photos to Train AI, Reuters(6 February 2023), at https://www.reuters.com/legal/getty-images-lawsuit-says-stability-ai-misused- photos-train-ai-2023-02-06/.

[72]例如在英國，其著作權、design與專利法案規則，盤算機天生作品的版權回“創作作品所需設定的人”，拜見Copyright, Designs and Patents Act, 1988, c.48, §9(3)(U. K.)?

[73]See Colin R. Davies, An Evolutionary Step in Intellectual Property Rights— Artificial Intelligence and Intellectual Property, Computer Law & Security Review, Vol.27(Issue 6), p.601-619(2011); Annemarie Bridy, Coding Creativity: Copyright and the Artificially Intelligent Author, Stanford Technology Law Review, Vol.5, p.1-28(2012); Ryan Abbott, I Think, Therefore I Invent: Creative Computers and the Future of Patent Law, Boston College Law Review, Vol.57(Issue 4), p.1079-1126(2016).

[74]在1992年的Sega Enterprises Ltd.v. Accolade, Inc.案中，美國聯邦第九上訴法院答應企業在反向工程中復制軟件，將“基于非調用目標”的機械瀏覽歸入公道應用范圍。其后在2002年的Kelly v. Arriba Soft Corp案中，美法律王法公法院又將搜刮引擎復制原圖并以“縮略圖”（thumbnails）的方法顯示視為公道應用。See Sega Enterprises Ltd.v. Accolade, Inc., 977 F.2d 1510(9th Cir.1992); Kelly v. Arriba Soft Corp., 280 F.3d 934(9th Cir.2002).

[75]See James Grimmelmann, Copyright for Literate Robots, Iowa Law Review, Vol.101(Issue 2), p.657-682(2016).

[76]See Pierre N. Leval, Toward a Fair Use Standard, Harvard Law Review, Vol.103(No.5), p.1105(1990).

[77]皮埃爾·萊瓦爾法官在1990年頒發了經典論文，主意將“轉換性應用”作為判定公道應用的要害尺度，這一論文極年夜影響了美國司法，成為美包養法律王法公法院判定公道應用的要害性尺度。See Pierre N. Leval, Toward a Fair Use Standard, Harvard Law Review, Vol.103(No.5), p.1105(1990).

[78]當然，也存在必定的不斷定性，see Rishi Bommasani et al., On the Opportunities and Risks of Foundation Models, at https://arxiv.org/abs/2108.07258,Last visited on 5 May, 2023?

[79]See Mark A. Lemley & Bryan Casey, Fair Learning, Texas L包養aw Review, Vol.99(Issue 4), p.743-786(2021).

[80]比起美國著作權法的公道應用，這一規則依然較為嚴厲，特殊是第4條付與著作權人選擇加入（opt-out）的權力，遭到了不少學者的批評，拜見Thomas Margoni & Martin Kretschmer, A Deeper Look into the EU Text and Data Mining Exceptions: Harmonisation, Data Ownership, and the Future of Technology, GRUR International, Vol.71(Issue 8), p.685–701(2022)?

[81]Directive (EU)2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC (Text with EEA relevance)[2019]OJ L130/92(CDSM).

包養網[82]《人工智能法案》新增的第28條規則：“在design和開闢基本模子時，應確保采取足夠的保證辦法，以避免內在的事務的天生違背歐盟法令的內在的事務，合適廣泛公認的行業進步前輩實行，并且不傷害損失包含談吐不受拘束在內的基礎權力，以及記載并公然供給受版權法維護的練習數據的應用情形。”

[83]拜見吳漢東：《人工智能天生作品的著作權法之問》，載《中外法學》2020年第3期。

[84]拜見高富平：《數據暢通實際數據資本權力設置裝備擺設的基本》，載《中外法學》2019年第6期；梅夏英：《企業數據權益原論：從財富到把持》，載《中外法學》2021年第5期。

[85]拜見周漢華：《數據確權的誤區》，載《法學研討》2023年第2期。

[86]See Maureen A. O’Rourke, Property Rights and Competition on the Internet: In Search of an Appropriate Analogy, Berkeley Technology Law Journal, Vol.16(Issue 2), p.561-630(2001).

[87]See Cyrus Y. Chung, The Computer Fraud and Abuse Act: How Computer Science Can Help with the Problem of Overbreadth, Harvard Journal of Law & Technology, Vol.24(No.1), p.233-256(2010); Patricia L. Bellia, A Code-Based Approach to Unauthorized Access Under the Computer Fraud and Abuse Act, The George Washington Law Review, Vol.84(No.6), p.14421476(2016); Michael J. Madison, Authority and Authors and Codes, The George Washington Law Review, Vol.84(No.6), p.1616-1643(2016).

[88]See Jonathan Mayer, The “Narrow” Interpretation of the Computer Fraud and Abuse Act: A User Guide for Applying United States v. Nosal, The George Washington Law Review, Vol.84(No.6), p.1644-1671(2016).

[89]代表性研討，拜見Orin S. Kerr, Vagueness Challenges to the Computer Fraud and Abuse Act, Minnesota Law Review, Vol.94, p.1561-1587(2010);Niva Elkin-Koren, Let the Crawlers Crawl: On Virtual Gatekeepers and the Right to Exc包養網lude Indexing, Journal of the Copyright Society of the U. S. A., Vol.49(No.1), p.165-194(2001); Christine D. Galbraith, Access Denied: Improper Use of the Computer Fraud and Abuse Act to Control Information on Publicly Accessible Internet Websites, Maryland Law Review, Vol.63(Issue 2), p.320-368(2004);Jeffrey K. Hirschey, Symbiotic Relationships: Pragmatic Acceptance of Data Scraping, Berkeley Technology Law Journal, Vol.29(Issue 4), p.897-928(2014)?

[90]See Mike Isaac, Reddit Wants to Get Paid for Helping to Teach Big A. I. Systems, The New York Times(18 April 2023)at https://www.nytimes.com/2023/04/18/technolog包養y/reddit-ai-openai-google.html/(Last visited on May 15, 2023).

[91]See Anita Ramaswamy, Data-hungry AI Models Could Help Reddit Valuation, Reuters(22 April 2023)at https://ww包養w.reuters.com/breakingviews/data-hungry-ai-models-could-help-reddit-valuation-2023-04-21/.

[92]See Michael Heller, The Tragedy of the Anticommons: A Concise Introduction and Lexicon, The Modern Law Review, Vol.76(No.1), p.6-25(2013).

[93]拜見王利明：《論數據權益：以“權力束”為視角》，載《政治與法令》2022年第7期。

[94]拜見丁曉東：《數據公正應用的法理反思與軌制重構》，載《法學研討》2023年第2期。

留下一個回覆 取消回覆

留下一個回覆取消回覆