熱線電話:0755-23712116
郵箱:contact@shuangyi-tech.com
地(dì / de)址:深圳市寶安區沙井街道(dào)後亭茅洲山工業園工業大(dà)廈全至科技創新園科創大(dà)廈2層2A
首先談談什麽是(shì)數據标注。數據标注有許多類型,如分類、畫框、注釋、标記等等,我們會在(zài)下面詳談。要(yào / yāo)理解數據标注,得先理解AI其實是(shì)部分替代人(rén)的(de)認知功能。回想一(yī / yì /yí)下我們是(shì)如何學習的(de),例如我們學習認識蘋果,那麽就(jiù)需要(yào / yāo)有人(rén)拿着一(yī / yì /yí)個(gè)蘋果到(dào)你面前告訴你,這(zhè)是(shì)一(yī / yì /yí)個(gè)蘋果。然後以(yǐ)後你遇到(dào)了(le/liǎo)蘋果,你才知道(dào)這(zhè)玩意兒叫做“蘋果”。類比機器學習,我們要(yào / yāo)教他(tā)認識一(yī / yì /yí)個(gè)蘋果,你直接給它一(yī / yì /yí)張蘋果的(de)圖片,它是(shì)完全不(bù)知道(dào)這(zhè)是(shì)個(gè)啥玩意的(de)。我們得先有蘋果的(de)圖片,上(shàng)面标注着“蘋果”兩個(gè)字,然後機器通過學習了(le/liǎo)大(dà)量的(de)圖片中的(de)特征,這(zhè)時(shí)候再給機器任意一(yī / yì /yí)張蘋果的(de)圖片,它就(jiù)能認出(chū)來(lái)了(le/liǎo)。這(zhè)邊可以(yǐ)順帶提一(yī / yì /yí)下訓練集和(hé / huò)測試集的(de)概念。訓練集和(hé / huò)測試集都是(shì)标注過的(de)數據,還是(shì)以(yǐ)蘋果爲(wéi / wèi)例子(zǐ),假設我們有1000張标注着“蘋果”的(de)圖片,那麽我們可以(yǐ)拿900漲作爲(wéi / wèi)訓練集,100張作爲(wéi / wèi)測試集。機器從900張蘋果的(de)圖片中學習得到(dào)一(yī / yì /yí)個(gè)模型,然後我們将剩下的(de)100張機器沒有見過的(de)圖片去給它識别,然後我們就(jiù)能夠得到(dào)這(zhè)個(gè)模型的(de)準确率了(le/liǎo)。想想我們上(shàng)學的(de)時(shí)候,考試的(de)内容總是(shì)不(bù)會和(hé / huò)我們平時(shí)的(de)作業一(yī / yì /yí)樣,也(yě)隻有這(zhè)樣才能測試出(chū)學習的(de)真正效果,這(zhè)樣就(jiù)不(bù)難理解爲(wéi / wèi)什麽要(yào / yāo)劃分一(yī / yì /yí)個(gè)測試集了(le/liǎo)。
我們知道(dào)機器學習分爲(wéi / wèi)有監督學習和(hé / huò)無監督學習。無監督學習的(de)效果是(shì)不(bù)可控的(de),常常是(shì)被用來(lái)做探索性的(de)實驗。而(ér)在(zài)實際産品應用中,通常使用的(de)是(shì)有監督學習。有監督的(de)機器學習就(jiù)需要(yào / yāo)有标注的(de)數據來(lái)作爲(wéi / wèi)先驗經驗。
在(zài)進行數據标注之(zhī)前,我們首先要(yào / yāo)對數據進行清洗,得到(dào)符合我們要(yào / yāo)求的(de)數據。數據的(de)清洗包括去除無效的(de)數據、整理成規整的(de)格式等等。具體的(de)數據要(yào / yāo)求可以(yǐ)和(hé / huò)算法人(rén)員确認。
1.分類标注:分類标注,就(jiù)是(shì)我們常見的(de)打标簽。一(yī / yì /yí)般是(shì)從既定的(de)标簽中選擇數據對應的(de)标簽,是(shì)封閉集合。如下圖,一(yī / yì /yí)張圖就(jiù)可以(yǐ)有很多分類/标簽:成人(rén)、女、黃種人(rén)、長發等。對于(yú)文字,可以(yǐ)标注主語、謂語、賓語,名詞動詞等。
适用:文本、圖像、語音、視頻
應用:臉齡識别,情緒識别,性别識别
2.标框标注:機器視覺中的(de)标框标注,很容易理解,就(jiù)是(shì)框選要(yào / yāo)檢測的(de)對象。如人(rén)臉識别,首先要(yào / yāo)先把人(rén)臉的(de)位置确定下來(lái)。行人(rén)識别,如下圖。
适用:圖像
應用:人(rén)臉識别,物品識别
3.區域标注:相比于(yú)标框标注,區域标注要(yào / yāo)求更加精确。邊緣可以(yǐ)是(shì)柔性的(de)。如自動駕駛中的(de)道(dào)路識别。
适用:圖像
應用:自動駕駛
4.描點标注:一(yī / yì /yí)些對于(yú)特征要(yào / yāo)求細緻的(de)應用中常常需要(yào / yāo)描點标注。人(rén)臉識别、骨骼識别等。
适用:圖像
應用:人(rén)臉識别、骨骼識别
5.其他(tā)标注:标注的(de)類型除了(le/liǎo)上(shàng)面幾種常見,還有很多個(gè)性化的(de)。根據不(bù)同的(de)需求則需要(yào / yāo)不(bù)同的(de)标注。如自動摘要(yào / yāo),就(jiù)需要(yào / yāo)标注文章的(de)主要(yào / yāo)觀點,這(zhè)時(shí)候的(de)标注嚴格上(shàng)就(jiù)不(bù)屬于(yú)上(shàng)面的(de)任何一(yī / yì /yí)種了(le/liǎo)。(或則你把它歸爲(wéi / wèi)分類也(yě)是(shì)可以(yǐ)的(de),隻是(shì)标注主要(yào / yāo)觀點就(jiù)沒有這(zhè)麽客觀的(de)标準,如果是(shì)标注蘋果估計大(dà)多數人(rén)标注的(de)結果都差不(bù)多。)
1.标注标準的(de)确定
确定好标準是(shì)保證數據質量的(de)關鍵一(yī / yì /yí)步,要(yào / yāo)保證有個(gè)可以(yǐ)參照的(de)标準。一(yī / yì /yí)般可以(yǐ):
設置标注樣例、模版。例如顔色的(de)标準比色卡。
對于(yú)模棱兩可的(de)數據,設置統一(yī / yì /yí)處理方式,如可以(yǐ)棄用,或則統一(yī / yì /yí)标注。
參照的(de)标準有時(shí)候還要(yào / yāo)考慮行業。以(yǐ)文本情感分析爲(wéi / wèi)例,“疤痕”一(yī / yì /yí)詞,在(zài)心理學行業中,可能是(shì)個(gè)負面詞,而(ér)在(zài)醫療行業則是(shì)一(yī / yì /yí)個(gè)中性詞。
2.标注形式的(de)确定
标注形式一(yī / yì /yí)般由算法人(rén)員制定,例如某些文本标注,問句識别,隻需要(yào / yāo)對句子(zǐ)進行0或1的(de)标注。是(shì)問句就(jiù)标1,不(bù)是(shì)問句就(jiù)标0。
3.标注工具的(de)選擇
标注的(de)形式确定後,就(jiù)是(shì)對标注工具的(de)選擇了(le/liǎo)。一(yī / yì /yí)般也(yě)是(shì)由算法人(rén)員提供。大(dà)公司可能會内部開發一(yī / yì /yí)個(gè)專門用于(yú)數據标注的(de)可視化工具。如
也(yě)有使用開源的(de)數據标注工具的(de),如推薦 Github 上(shàng)的(de)小工具labelImg
結合自己做過一(yī / yì /yí)款數據标記工具談談設計數據标注工具的(de)幾個(gè)小技巧。
一(yī / yì /yí)個(gè)數據标注工具一(yī / yì /yí)般包含
1.進度條:用來(lái)指示數據标注的(de)進度。标注人(rén)員一(yī / yì /yí)般都是(shì)有任務量要(yào / yāo)求的(de),一(yī / yì /yí)方面方便标注人(rén)員查看進度,一(yī / yì /yí)方面方便統計。
2.标注主體:這(zhè)個(gè)可以(yǐ)根據标注形式進行設計,原則上(shàng)是(shì)越簡潔易用越好。根據标注所需要(yào / yāo)的(de)注意力可以(yǐ)分爲(wéi / wèi)單個(gè)标注和(hé / huò)多個(gè)标注的(de)形式,可根據需求選擇。
3.數據導入導出(chū)功能:如果你的(de)标注工具是(shì)直接數據對接到(dào)模型上(shàng)的(de),可以(yǐ)不(bù)需要(yào / yāo)。
4.收藏功能:這(zhè)個(gè)可能是(shì)沒有接觸過數據标注的(de)不(bù)會想到(dào)。标注人(rén)員常常會出(chū)現的(de)一(yī / yì /yí)種情況就(jiù)是(shì)疲勞,或者是(shì)遇到(dào)了(le/liǎo)那種模棱兩可的(de)數據,則可以(yǐ)先收藏,等後面再标。
5.質檢機制:在(zài)分發數據的(de)時(shí)候,可以(yǐ)随機分發一(yī / yì /yí)些已經标注過的(de)數據,來(lái)檢測标注人(rén)員可靠性。