Spooling Directory Source允許對指定磁盤上的文件目錄進行監(jiān)控來提取數據,它將查看文件的指定目錄的新增文件,并將文件中的數據讀取出來。 查看全文>>
Python+大數據學習常見問題2023-12-21 |傳智教育 |Spooling Directory Source
集群的主要瓶頸通常取決于其特定的用途和配置,但以下是一些常見的瓶頸因素。 查看全文>>
Python+大數據學習常見問題2023-12-20 |傳智教育 |什么通常是集群的最主要瓶頸
Memory Channel會將event存儲在具有可配置最大尺寸的內存隊列中,它非常適用于需要更高吞吐量的流量,但是在Agent發(fā)生故障時會丟失部分階段數據。 查看全文>>
Python+大數據學習常見問題2023-12-19 |傳智教育 |Memory channel是什么意思
Flume Sources采集到的數據通過Channels就會流向Sinks中,此時的Sink類似一個集結的遞進中心,它需要根據后續(xù)需求進行配置,從而最終選擇是將數據直接進行集中式存儲(例如,直接存儲到HDFS中),還是繼續(xù)作為其他Agent的Source進行傳輸。 查看全文>>
Python+大數據學習常見問題2023-12-18 |傳智教育 |Flume Sinks是什么
監(jiān)聽Avro端口并從外部Avro客戶端流中接收event數據,當與另一個Flume Agent上的Avro Sink配對時,它可以創(chuàng)建分層集合拓撲,利用Avro Source可以實現多級流動、扇出流、扇入流等效果。 查看全文>>
Python+大數據學習常見問題2023-12-14 |傳智教育 |Avro Source有哪些常用屬性
故障轉移接收器處理器(Failover Sink Processor)維護一個具有優(yōu)先級的sink列表,保證在處理event只要有一個可用的sink即可。 查看全文>>
Python+大數據學習常見問題2023-12-13 |傳智教育 |故障轉移機制
在編寫Flume采集方案時,首先必須明確的是采集的數據源類型、出處;接著,根據這些信息與Flume已提供支持的Flume Sources進行匹配,選擇對應的數據采集器類型(即sources.type);然后,再根據選擇的數據采集器類型,配置必要和非必要的數據采集器屬性。 查看全文>>
Python+大數據學習常見問題2023-12-12 |傳智教育 |Flume Sources的種類有哪些