新老數據類型的使用
字符數值型數據
字符數值型數據記錄的是事物非常簡單的屬性(如人的性別),數值屬性(如人數),或是高度抽象的屬性(如事物的所屬類別)。這種數據具有簡單、規范的特點,因而易于管理。傳統數據庫主要是針對這種數據的,在多媒體數據庫中仍然需要管理這一類數據。
文本數據
文本是最常見的媒體格式,各種書籍、文獻、檔案等無不是由文本媒體數據為主構成的。
在計算機內文本數據是由一個具有特定意義的字符串表示。字符串長短不一,給數據的存儲和再現帶來不便。自然語言理解技術的不成熟也使查詢文本數據的難度加大。因此,許多通用型數據庫系統根本就沒有管理和使用文本媒體的有效手段。檢索文本數據主要采用關鍵字檢索和全文檢索兩種方法。關鍵字檢索是在存儲文本的同時,自動或手工生成能夠反映該文本數據主題的關鍵字的集合,并將其存儲在數據庫中。檢索時通過某些關鍵字的匹配找到所需的文本數據。全文檢索方法可以根據文本數據中任何單詞或者詞組進行檢索,檢索是進行全文掃描。此外,大多數的實用系統使用文件直接存儲文本系統,或把數據規范化成標準長度的字符串。在普通數據庫中并不具備很強的文本數據管理能力。
聲音數據
音樂數據在計算機里是由字符表示的,因而數據量小,對它的存儲、查詢可以當作文本處理。但計算機目前還無法模擬不同人的口音,以及人們講話時的抑揚頓挫的語氣。因而語音數據還是以數字化的波形數據為主,這樣存儲空間就比較大。語音識別技術還沒有達到可以廣泛應用的程度,這為語音數據的檢索帶來不利。目前,對語音數據的檢索主要有兩種方法,第一種是給語音數據人工附加屬性描述或文字描述,例如我們可以給錄音數據附上講話人的姓名、講話日期、講話題目和主要內容等。之后,我們就可以用字符數據和文本數據的檢索方法檢索語音數據。第二種方法是瀏覽,把語音逐一播放出來,邊聽邊判斷所需查找的語音數據,這種方法最大的缺點是速度太慢。在具體應用中,一般是與第一種方法配合使用,由第一種方法縮小范圍之后再進行瀏覽。
圖形數據
圖形數據的管理已經有一些成功的應用范例,例如地理信息系統、工業圖紙管理系統、建筑CAD數據庫等等。圖形數據可以分解為點、線、弧等基本圖形元素。描述圖形數據的關鍵是要有可以描述層次結構的數據模型。對圖形數據來說最大的問題是如何對數據進行表示。對圖形數據的檢索也是如此。一般來說,由于圖形是用符號或特定的數據結構表示的,更接近于計算機的形式,還是易于管理的。但管理方法和檢索使用需要有明確的應用背景。
圖像數據
圖像數據是指圖式圖像。圖像數據在應用中出現的頻率很高,也很有實用價值。圖像數據庫較早就有研究,已提出許多方法,包括屬性描述法、特征提取、分割、紋理識別、顏色檢索等等。特定于某一類應用的圖像檢索系統已經取得成功的經驗,如指紋數據庫、頭像數據庫等,但在多媒體數據庫中將更強調對通用圖像數據的管理和查詢。
視頻數據
動態視頻數據要比剛才介紹的信息類型復雜得多,在管理上也存在新的問題。特別是由于引入了時間屬性,對視頻的管理還要在時間空間上進行。檢索和查詢的內容可以包括鏡頭、場景、內容等許多方面,這在傳統數據庫中是從來沒有過的。對于基于時間的媒體來說,為了真實地再現就必須做到實時,而且需要考慮視頻和動畫與其它媒體的合成和同步。例如給一段視頻加上一段字幕,字幕必須在適當的時候疊加到視頻的適當位置上。再如給一段視頻配音,聲音與圖像必須配合的恰到好處,合成和同步不僅是多媒體數據庫管理的問題,它還涉及到通信、媒體表現、數據壓縮等諸多方面。
[上一頁] [下一頁]
|